Ebben a cikkben többféle megközelítésből kerülnek górcső alá a legnagyobb szabadszavas keresők. Ha nem akarod végigolvasni a cikket, íme a végeredmény: a legjobb kereső szerintem a [Google], Második legjobb az alltheweb.com, ami ugyanazt az adatbázist használja, mint a vizsla.origo.hu, viszont sokkal egyszerűbb, gyorsabb, nyugtatóbb a kezelőfelülete. (ha nem zavar az magyar nyelvű keresőfelület és az origo katalógusának hiánya) A többi keresővel a dolgok jelenlegi állása szerint nem érdemes foglalkozni.
Milyennek is kellene lennie az ideális keresőnek ?
Magyar nyelv specifikus kérdései
- 1.Magyar nyelvű tartalom felismerése, magyar oldalak közötti keresés lehetővé tétele.
- 2.Ékezetek kezelése: Ékezetes karakterek helyes felismerése, bármilyen kódolásban is legyen a szöveg.
- 3.Szótövezés: Magyar nyelvű szavak szótövének megállapítása, és nemcsak a keresőszó, hanem a szó toldalékolt alakjainak (többesszám, toldalékolt alakok, stb.) is figyelembevétele.
Adatbázis minősége
- 4.Minél több lap: Megfelelően sok lap van beindexelve és feldolgozva a kereső adatbázisában
- 5.Minél aktuálisabb állapot: Folyamatos és nagyarányú indexelés következtében a friss oldalak változásai minél hamarabb bekerülnek a kereső adatbázisába, a teljes adatállomány újraindexelése rövid időn belül bekövetkezik.
- 6.Csak valódi tartalom: Kizárólag a spammolás érdekében létrehozott, egyébiránt haszontalan oldalak kiszűrése
Találati lista minősége
- 7.Fontos dolgok kiemelése: Hiába a sok beindexelt oldal, ha a találati lista nem a leginkább odaillő, legfontosabb oldalakat hozza ki a legjobb helyezésekkel, egy kulcsszóra rákeresve.
Felhasználói felület minősége
- 8.Egyszerűség: Könnyen áttekinthető, gyorsan betöltődő (nyitó)oldal.
A keresőkről általában
Vizsgálatunkhoz felhasználjuk a Szószablya projekt web-gyakorisági szótárát: az ebben leggyakrabban előforduló 20 magyar szóra keresve elemezzük a keresők működését: ( Köszöntettel tartozom Németh László-nak hasznos segítségéért )
- A beindexelt lapok hozzávetőleges nagyságrendjéről kaphatunk képet, ha rákeresünk a leggyakoribb szavakra
- Mivel ezek a szavak szinte minden oldalon előfordulnak, ezért a találati listák legelső helyezéseit a magyar web legfontosabb oldalainak kellene elfoglalnia ideális rangsorolási algoritmus esetén.
- Bizonyos időközönként rákeresve erre a 20 szavas készletre, nyomon lehet kísérni a keresők adatbázisának változásait.
A vizsgálandó keresők kiválasztása
Robotok indexelik az oldalakat. A robotok segítségével adatbázisok épülnek. Egy adatbázist sokszor több keresőszolgáltatás használ. Kicsit kusza, hogy ki milyen adatbázist használ, illetve melyik keresőszolgáltatás és adatbázis kinek a tulajdonában van, mert sok az átfedés. Az alábbi táblázat áttekintést ad a főbb robotokról, és az általuk épített adatbázisok főbb elérhetőségi helyeiről.
| googlebot | [Google]? és Yahoo |
| Larbin | goliat.hu |
| Fast-Webcrawler | Alltheweb és Vizsla.Origo |
| Inktomi Slurp | HotBot? és MSNSearch? |
| Scooter | Altavista |
A vizsgálat:
1. Magyar nyelvű tartalom felismerése
Kiestek a rostán az alábbi keresők: Ask Jeeves / Teoma, Gigablast
2. Ékezetek kezelése
3. Szótövezés
Nemrég vezette be a [Google]? új algoritmusát, amely már képes angol szavakat szótövezni
4. A beindexelt magyar nyelvű oldalak mennyisége
Sorban rákerestünk a leggyakoribb húsz magyar szóra, melyek:
a, az, és, is, hogy, nem, egy, meg, el, vagy, csak, de, már, van, kell, ki, még, azt, mint, ha
Sok
esetben a kereső nem adott találatot, vagy azt jelezte, hogy nincsen
találat, vagy pedig túl általánosnak minősítette a keresési feltételt.
A diagramon látható lyukak ezért keletkeztek egyes keresőknél.

Jól látható, hogy a Fast (origo vizsla és alltheweb) adatbázisa nagyságrendekkel több oldalt jelzett, mint a [Google]?-é. Valószínüleg ennél is jobb helyezést ért volna el a goliat.hu, de nem hagyott keresni a leggyakoribb öt magyar szóra. Ezért az alábbi diagram már csak az 6.-20. leggyakoribb magyar szavakat vizsgálva összegez: A legnagyobb meglepetés, hogy a [Google]? csak a középmezőnyben foglal helyet.

5. A beindexelt magyar nyelvű oldalak frissessége
Az
adatállomány frissességének egyik jele, ha változik a beindexelt
oldalak mennyisége. (optimális esetben bővül) Az első vizsgálathoz
képest megismételtük a keresést egy nap és egy hét múlva. A goliat.hu
által kijelzett találati oldalak száma semmit sem változott, ez alapján
valószínűsíthető, hogy az adatbázis semmit sem változott egy hét alatt.
A [Google]? és az Alltheweb adatbázisának bővülését az alábbi diagram mutatja:

Az adatbázis naprakészségének másik jele, ha aktuális, nemrég felkapott témákra, kulcsszavakra keresünk rá: három kulcsszó(konbinációt vizsgáltunk), mindegyik a vizsgálat időpontjához képest uszkve három héttel hamarabb került be a köztudatba: "való világ 3", egyik beköltöző: "Pandora", aki sokáig a legkeresettebb kulcsszó is volt, illetve egy internetes jelenség, a halapenz.hu-val kapcsolatos botrány/polémia miatt a "hálapénz" kulcsszó.
"pandora" kulcsszó| goliat.hu | alltheweb.com | google.co.hu | hotbot.com |
| Egy oldal a pandora.inf.elte.hu gépről és kilenc oldal a www.pandora.hu -ról, a keresett témához semmi közük. (5375 találat) | Egy Pandora's Box nevű szexvideó oldal, a P.Box együttes nyitólapja kétszer, két oldal az elte pandora nevű gépéről. Pozitív, viszont, hogy a találatokat több csoportba rendezte, és felkínálta a választást a különböző csoportok között: a friss hírek, hírek, magyar csoport között megjelenik a keresett téma is, bár a [Google]?-nél jóval kevesebb és kevésbé releváns találattal. (13706 találat) | Az első két oldal valami az uhulinux oldaláról, de az összes többi konkrétan a keresett témával foglalkozik, két kattintáson belül el lehetett jutni a hölgy honlapjáig is... (11500 találat) | Öt találat ugyanaz volt, mint az Alltheweb eredménye, de megjelent a televíziós műsor hivatalos honlapja is az oldalak között.(2891 találat) |
"való világ" kulcsszó
| goliat.hu | alltheweb.com | google.co.hu | hotbot.com |
| A Való Világ 2. szériájához köthető kevéssé fontos öt oldal: (pl. hanganyag, operatőrök oldala, stb.), Illetve a házat felépítő cég három oldala szerepel az első helyezések között. (8474 találat) | Első az aktuális műsorfolyam hivatalos oldala, második egy azóta megszűnt, vélhetőleg nemhivatalos oldal, egyébként blog bejegyzések, fórum, kapcsolódó hírek és vélemények. 10. lett itt is a házat készítő cég. Csupán kettő, nem a témával folgalkozó oldal volt. (18400 találat) | Első a VV 3 honlapja, második a VV1, harmadik a VV2 honlapja, további hat nagy portálok témával foglalkozó oldala, az utolsó szintén az, de egy kisebb oldalon megjelentetett vélemény. Talán kissé túlprezentált az origo portáljának jelenléte, a három hivatalos VV honlapon túl még négy origós oldal jelent meg. (Az alltheweb-en keresve, ami olyan mintha az Origó Vizsláját kérdeznénk, csak egyszer jelenik meg Origós oldal.) (27335 találat) | Kissé más találatokat hozott ki, mint a [Google]?, az Origo oldalai nem voltak annyian (7 helyett csak négy), de a VV3 és a VV1 oldalát ugyanúgy kihozta, tehát használhatóságban semmiben sem maradt el az eredménylistája. (6518 találat) |
"hálapénz" kulcsszó
| goliat.hu | alltheweb.com | google.co.hu | hotbot.com |
| A paraszolvenciával általánosságban foglalkozó oldalak, ebből hat találat ugyanarról a szerverről, melynek első helyezett lapja 1998-ban íródott. (105 találat) | A paraszolvenciával általánosságban foglalkozó oldalak, színes hírtől kezdve a komoly híren át a kamara etikai kódexéig. Feltűnik a 8. helyen a halapenz.hu egy azóta már leszedett oldala! (7658 találat) | Hét találat foglalkozott konkrétan a halapenz.hu-val. Ebből egy már arról szólt, hogy megszűnt a kérdéses oldal, négy pedig az oldal tartalmának klónozásairól számolt be, a többi a témával foglalkozó topic volt. (14000 találat) | Hetedikként megjelent a halapenz.hu, mégis a legtöbb oldal a (hét) a keresett témához volt kapcsolható, de találatok nagyobb portálok nyitóoldalait jelezték, ahol egyszer valamikor feltehetőleg szalagcímként feltűnt a téma, nem pedig maguk a témával foglalkozó konkrét oldalak címei kerültek beindexelésre. (2633 találat) |
A legjobb találatokat a [Google]? szolgáltatta,
második
legjobb az Inktomi adatbázisából dolgozó Hotbot lett, de a különbség
igyen kicsi az Alltheweb-hez képest, ami lehetett véletlen is.
Helyezését indokolja az is, hogy jóval kevesebb beindexelt lapból hozta
ki esetenként a google-t is elérő hasznosságú találati listáját.
az
Alltheweb találatai illeszkedtek a kulcsszavak jelentéséhez, bár az
aktuálisabb jelentéstartalmukkal kapcsolatban kevésbé igazítottak el,
ha a lap alján felkínált további kulcsszó szerinti csoportosításokra
kattintottunk, akkor használhatóbbak voltak a találatok.
A goliat.hu egyszerűen leginkább használhatatlan találatokat adott.
6. Az értékes tartalom előtérbe helyezése
Az előző pont keresései is érdekes információkkal szolgálhattak e tekintetben, de ellenőrizzük le egy egyszerű kereséssel a keresőmotorokat. Mindenki a saját műfajában indul: rákeresünk a kereső nevére ugyanabban a keresőben. Mit tud magáról a keresőprogram? Mindenhol a magyar nyelvű oldalak között kerestünk.
alltheweb, altavista, hotbot
Nekik nincsen magyar nyelvű kezelőfelületük, úgyhogy értelemszerűen nem versenyezhetnek ebben a számban.
goliat : keresőszó: goliat
Első az index szabadszavas keresője, amit a goliat hajt, utána egy goliat.c3.hu nevű gépről jönnek minfenféle forgalmi statisztikák kilométer hosszan. A goliat.hu oldal sehol.
alltheweb (=vizsla.origo.hu) : keresőszó: vizsla
Az első találat az origo.hu, a második a vizsla.origo.hu, ami teljesen rendben is van. Van mág pár oldal a vizsláról mint kutyáról és az origo egy linkfarm jellegű megoldása.
google : keresőszó: google
Az első találat az a google.co.hu, a többi nagyjából nagyobbacska oldalak [Google]?-val foglalkozó cikke.
7. Felhsználói felület
Az alábbi táblázat bemutatja, hogy az egyes keresők nyitóoldalainak eléréséhez mennyi adatot kell letölteni. A diagramból kitűnik, hogy miért jobb az alltheweb.com felületéről elérni a vizsla.origo.hu által is használt adatbázist. A második legnagyobb oldalméretet a goliat.hu szolgáltatta, több adatot kellett egy egyszerű nyitólaphoz letölteni, mint a yahoo igencsak túltelített oldalának megtekintéséhez. Plusz még kéretlenül felugró reklámablakot is kapunk. A Hotbot-nál nagyon szimpatikus a csak szöveges felület választásának lehetősége. Bár valószínűleg ennek a régebbi böngészőkkel való kompatibilitás is az indoka.