Ez egy archívum. Így nézett ki az egyik legnagyobb magyar keresőkkel, keresőoptimalizálással foglalkozó weboldal régebben. Az oldal aktuális állapota ide kattintva tekinthető meg. Adatvédelmi nyilatkozat
Melyik kereső programmal lehet a legjobban keresni magyar nyelvű weboldalak között? : Google, vizsla.origo.hu, heureka.hu, goliat.hu, altavista, Yahoo!, Hotbot, Teoma ?
Ebben a cikkben többféle megközelítésből kerülnek górcső alá a legnagyobb Szabadszavas keresők. Ha nem akarod végigolvasni a cikket, íme a végeredmény: a legjobb kereső szerintem a Google, Második legjobb az alltheweb.com, ami ugyanazt az adatbázist használja, mint a
1)Magyar nyelvű tartalom felismerése, magyar oldalak közötti keresés lehetővé tétele.
2)Ékezetek kezelése: Ékezetes karakterek helyes felismerése, bármilyen kódolásban is legyen a szöveg.
3)Szótövezés: Magyar nyelvű szavak szótövének megállapítása, és nemcsak a keresőszó, hanem a szó toldalékolt alakjainak (többesszám, toldalékolt alakok, stb.) is figyelembevétele.
4)Minél több lap: Megfelelően sok lap van beindexelve és feldolgozva a kereső adatbázisában
5)Minél aktuálisabb állapot: Folyamatos és nagyarányú indexelés következtében a friss oldalak változásai minél hamarabb bekerülnek a kereső adatbázisába, a teljes adatállomány újraindexelése rövid időn belül bekövetkezik.
6)Csak valódi tartalom: Kizárólag a spammolás érdekében létrehozott, egyébiránt haszontalan oldalak kiszűrése
7)Fontos dolgok kiemelése: Hiába a sok beindexelt oldal, ha a találati lista nem a leginkább odaillő, legfontosabb oldalakat hozza ki a legjobb helyezésekkel, egy kulcsszóra rákeresve.
8)Egyszerűség: Könnyen áttekinthető, gyorsan betöltődő (nyitó)oldal.
Vizsgálatunkhoz felhasználjuk a Szószablya projekt web-gyakorisági szótárát: az ebben leggyakrabban előforduló 20 magyar szóra keresve elemezzük a keresők működését: (Köszöntettel tartozom Németh László-nak hasznos segítségéért)
Robotok indexelik az oldalakat. A Keresőrobotok segítségével adatbázisok épülnek. Egy adatbázist sokszor több keresőszolgáltatás használ. Kicsit kusza, hogy ki milyen adatbázist használ, illetve melyik keresőszolgáltatás és adatbázis kinek a tulajdonában van, mert sok az átfedés. Az alábbi táblázat áttekintést ad a főbb robotokról, és az általuk épített adatbázisok főbb elérhetőségi helyeiről.
| googlebot | Google és Yahoo! |
| Larbin | goliat.hu |
| Fast-Webcrawler | Alltheweb és vizsla.origo.hu.Origo |
| Inktomi Slurp | HotBot? és MSN Search |
| Scooter | Altavista |
Sok esetben a kereső nem adott találatot, vagy azt jelezte, hogy nincsen találat, vagy pedig túl általánosnak minősítette a keresési feltételt. A diagramon látható lyukak ezért keletkeztek egyes keresőknél.

Jól látható, hogy a Fast (origo vizsla és alltheweb) adatbázisa nagyságrendekkel több oldalt jelzett, mint a Google-é. Valószínüleg ennél is jobb helyezést ért volna el a goliat, de nem hagyott keresni a leggyakoribb öt magyar szóra. Ezért az alábbi diagram már csak az 6.-20. leggyakoribb magyar szavakat vizsgálva összegez: A legnagyobb meglepetés, hogy a Google csak a középmezőnyben foglal helyet.

Az adatállomány frissességének egyik jele, ha változik a beindexelt oldalak mennyisége. (optimális esetben bővül) Az első vizsgálathoz képest megismételtük a keresést egy nap és egy hét múlva. A goliat által kijelzett találati oldalak száma semmit sem változott, ez alapján valószínűsíthető, hogy az adatbázis semmit sem változott egy hét alatt.
A Google és az Alltheweb adatbázisának bővülését az alábbi diagram mutatja:

Az adatbázis naprakészségének másik jele, ha aktuális, nemrég felkapott témákra, kulcsszavakra keresünk rá: három kulcsszó (konbinációt9 vizsgáltunk, mindegyik a vizsgálat időpontjához képest uszkve három héttel hamarabb került be a köztudatba: "való világ 3", egyik beköltöző: "Pandora", aki sokáig a legkeresettebb kulcsszó is volt, illetve egy internetes jelenség, a halapenz.hu-val kapcsolatos botrány/polémia miatt a "hálapénz" kulcsszó.
| goliat.hu | alltheweb.com | google.co.hu | hotbot.com |
| Egy oldal a pandora.inf.elte.hu gépről és kilenc oldal a www.pandora.hu -ról, a keresett témához semmi közük. (5375 találat) | Egy Pandora's Box nevű szexvideó oldal, a P.Box együttes nyitólapja kétszer, két oldal az elte pandora nevű gépéről. Pozitív, viszont, hogy a találatokat több csoportba rendezte, és felkínálta a választást a különböző csoportok között: a friss hírek, hírek, magyar csoport között megjelenik a keresett téma is, bár a Google-nél jóval kevesebb és kevésbé releváns találattal. (13706 találat) | Az első két oldal valami az uhulinux oldaláról, de az összes többi konkrétan a keresett témával foglalkozik, két kattintáson belül el lehetett jutni a hölgy honlapjáig is... (11500 találat) | Öt találat ugyanaz volt, mint az Alltheweb eredménye, de megjelent a televíziós műsor hivatalos honlapja is az oldalak között.(2891 találat) |
| goliat.hu | alltheweb.com | google.co.hu | hotbot.com |
| A Való Világ 2. szériájához köthető kevéssé fontos öt oldal: (pl. hanganyag, operatőrök oldala, stb.), Illetve a házat felépítő cég három oldala szerepel az első helyezések között. (8474 találat) | Első az aktuális műsorfolyam hivatalos oldala, második egy azóta megszűnt, vélhetőleg nemhivatalos oldal, egyébként blog bejegyzések, fórum, kapcsolódó hírek és vélemények. 10. lett itt is a házat készítő cég. Csupán kettő, nem a témával folgalkozó oldal volt. (18400 találat) | Első a VV 3 honlapja, második a VV1, harmadik a VV2 honlapja, további hat nagy portálok témával foglalkozó oldala, az utolsó szintén az, de egy kisebb oldalon megjelentetett vélemény. Talán kissé túlprezentált az origo portáljának jelenléte, a három hivatalos VV honlapon túl még négy origós oldal jelent meg. (Az alltheweb-en keresve, ami olyan mintha az Origó Vizsláját kérdeznénk, csak egyszer jelenik meg Origós oldal.) (27335 találat) | Kissé más találatokat hozott ki, mint a Google, az Origo oldalai nem voltak annyian (7 helyett csak négy), de a VV3 és a VV1 oldalát ugyanúgy kihozta, tehát használhatóságban semmiben sem maradt el az eredménylistája. (6518 találat) |
| goliat.hu | alltheweb.com | google.co.hu | hotbot.com |
| A paraszolvenciával általánosságban foglalkozó oldalak, ebből hat találat ugyanarról a szerverről, melynek első helyezett lapja 1998-ban íródott. (105 találat) | A paraszolvenciával általánosságban foglalkozó oldalak, színes hírtől kezdve a komoly híren át a kamara etikai kódexéig. Feltűnik a 8. helyen a halapenz.hu egy azóta már leszedett oldala! (7658 találat) | Hét találat foglalkozott konkrétan a halapenz.hu-val. Ebből egy már arról szólt, hogy megszűnt a kérdéses oldal, négy pedig az oldal tartalmának klónozásairól számolt be, a többi a témával foglalkozó topic volt. (14000 találat) | Hetedikként megjelent a halapenz.hu, mégis a legtöbb oldal a (hét) a keresett témához volt kapcsolható, de találatok nagyobb portálok nyitóoldalait jelezték, ahol egyszer valamikor feltehetőleg szalagcímként feltűnt a téma, nem pedig maguk a témával foglalkozó konkrét oldalak címei kerültek beindexelésre. (2633 találat) |
A legjobb találatokat a Google szolgáltatta,
második legjobb az Inktomi adatbázisából dolgozó Hotbot lett, de a különbség igyen kicsi az Alltheweb-hez képest, ami lehetett véletlen is. Helyezését indokolja az is, hogy jóval kevesebb beindexelt lapból hozta ki esetenként a Google-t is elérő hasznosságú találati listáját.
az
Alltheweb találatai illeszkedtek a kulcsszavak jelentéséhez, bár az aktuálisabb jelentéstartalmukkal kapcsolatban kevésbé igazítottak el, ha a lap alján felkínált további kulcsszó szerinti csoportosításokra kattintottunk, akkor használhatóbbak voltak a találatok.
A goliat.hu egyszerűen leginkább használhatatlan találatokat adott.
Az előző pont keresései is érdekes információkkal szolgálhattak e tekintetben, de ellenőrizzük le egy egyszerű kereséssel a keresőmotorokat. Mindenki a saját műfajában indul: rákeresünk a kereső nevére ugyanabban a keresőben. Mit tud magáról a keresőprogram? Mindenhol a magyar nyelvű oldalak között kerestünk.
Nekik nincsen magyar nyelvű kezelőfelületük, úgyhogy értelemszerűen nem versenyezhetnek ebben a számban.
Első az index szabadszavas keresője, amit a goliat hajt, utána egy goliat.c3.hu nevű gépről jönnek minfenféle forgalmi statisztikák kilométer hosszan. A goliat.hu oldal sehol.
Az első találat az origo.hu, a második a vizsla.origo.hu, ami teljesen rendben is van. Van mág pár oldal a vizsláról mint kutyáról és az origo egy linkfarm jellegű megoldása.
Az első találat az a google.co.hu, a többi nagyjából nagyobbacska oldalak Google-val foglalkozó cikke.
Az alábbi táblázat bemutatja, hogy az egyes keresők nyitóoldalainak eléréséhez mennyi adatot kell letölteni. A diagramból kitűnik, hogy miért jobb az alltheweb.com felületéről elérni a vizsla.origo.hu által is használt adatbázist. A második legnagyobb oldalméretet a goliat.hu szolgáltatta, több adatot kellett egy egyszerű nyitólaphoz letölteni, mint a Yahoo! igencsak túltelített oldalának megtekintéséhez. Plusz még kéretlenül felugró reklámablakot is kapunk. A Hotbot-nál nagyon szimpatikus a csak szöveges felület választásának lehetősége. Bár valószínűleg ennek a régebbi böngészőkkel való kompatibilitás is az indoka.
A vizsgálat:
A cikk írása óta a Yahoo! áttért az Inktomi adatbázisának használatára, az MSN pedig saját roboton dolgozik. Az Alltheweb is úgy látszik, átvenni készül valamiféle Yahoo! keresőtechnológiát, mint azt az URL hozzáadására szolgáló oldalon írják.