Ez egy archívum. Így nézett ki az egyik legnagyobb magyar keresők­kel, keresőoptimalizálás­sal foglalkozó weboldal régebben. Az oldal aktuális állapota ide kattintva tekinthető meg.   Adatvédelmi nyilatkozat



 

Melyik a legjobb kereső program (2005 február)?

A magyar nyelven történő keresésre a legjobb kereső a Google. Nem sokkal lemaradva tőle következik a Yahoo! illetve a Yahoo! adatbázisát használó vizsla.origo.hu. Az MSNsearch-nak is az élbolyban lenne a helye, ha le lehetne szűkíteni a keresést a magyar nyelvre. Menetközben figyeltem fel a gigablast-ra, ami még egy kipróbálásra érdemes alternatív kereső. A többi keresőre véleményem szerint jelenleg nem érdemes az időt vesztegetni.

Vizsgálat

Többfajta módon vizsgáltam a keresőket: A leggyakoribb húsz magyar szóra, nemrégiben keletkezett magyar kifejezésekre, a Himnuszra rákresve, illetve az AlapműIndex segítségével. Ezekkel a vizsgálatokkal az adatbázisok nagyságát, frissességét és a találatok sorbarendezésének hatékonyságát vettem górcső alá.

Az egy évvel ezelőtti vizsgálatokhoz (Keresőoldalak összehasonlítása (2004. február)) képest egyszerűbb dolgom van, tekintve, hogy a Yahoo! bevásárolt keresőkből, így az olyan oldalak mint az http://altavista.com vagy az http://alltheweb.com találatai is már a Yahoo! által fejlesztett adatbázisból származnak. Emellett a Google maradt az egyetlen nemzetközi oldal, ahol magyar nyelvre leszűkítve is lehet keresni. (Az MSN Search és a Teoma oldalain nincs erre lehetőség.) A magyar oldalak közül a vizsla.origo.hu került górcső alá, ami a Yahoo! adatbázisából származó találatok alapján működik, ezenkívül a goliat.hu, a heureka.hu és mint új, kísérleti szolgáltatást-- a SZTAKI kereső működését vizsgáltam.

Találatok számának elemzése a leggyakoribb húsz magyar szó alapján

Az egyik legfontosabb kérdés, hogy hány magyar nyelvű oldal szerepel a keresőoldalak adatbázisában, mert ha egy weboldal nincsen benne az adatbázisban, akkor nem fogjuk megtalálni a keresőkben. Feltételeztem, hogy a leggyakoribb magyar szavakra rákeresve következtetni lehet a beindexelt lapok nagyságrendjére. Ritka szavak esetén szintén sokatmondó lehet a találatok száma, azonban ebben az esetben nagyobb a véletlen szerepe a kapott eredményekben. Ezért tehát először a SzóSzablya projekt által kimutatott Húsz leggyakoribb magyar szóra kerestem rá.

A keresőprogramok adatbázisainak változása az elmúlt időszakban

A Google volt az egyetlen olyan keresőprogram, ami stabilan bővítette adatbázisát, alapvető technológiai váltások nélkül. Ha kiváncsi arra, hogy az elmúlt egy évben pontosan hogyan változott a keresők által beindexelt oldalak száma, akkor olvasd el a Kereső adatbázisok mérete (2004.) című cikket.

Találatok minőségének elemzése a leggyakoribb húsz magyar szóra rákeresve

Mivel a leggyakoribb húsz magyar szó a weblapok döntő többségében szerepel, ezért ezekre a szavakra rákeresve szinte minden magyar nyelvű lapnak esélye van a találati listára való bejutásra. Ideális esetben a Keresőoldalaknak a hasonló találatok közül a legfontosabbakat, legjobbakat kellene a találati rangsor élére kihozni. Ezért a legfontosabb, legnagyobb webhelyek nyitólapjai kellene, hogy elfoglalják előkelő helyeket a Találati rangsorokban. Az első tíz találat elemzése alapján azonban nem csak a Rangsorolás hatékonyságát állapíthatjuk meg, hanem nagyvonalakban benyomást kaphatunk, hogy a különböző keresők a weblapok mely tulajdonságait tekintik fontosnak a rangsoroláskor.

Google

Rögtön az a szóra rákeresve több érdekességre figyelhetünk fel: Az első helyezett egy olyan oldal lett, ami egyedül csak egy vicces videót tartalmaz ( http://www.funpic.hu/swf/numanuma.html ). Ez az eset egyértelműen mutatja egyrészt a Külső hivatkozások vagyis a PageRank fontosságát, másrészt a Linkre rakott kulcsszavak erejét ( majd kétszáznegyven bejövő hivatkozást mutatott jelzett ki a Google). Egy másik jelenség miatt egyáltalán nem a legfontosabb oldalak értek el top helyezést: Az oldal címében (elérési útvonalában) szereplő kulcsszavaknak nagyon nagy súlya van. Akkor is számításba kerülnek, ha a keresett kulcsszó csak egy töredékét jelenti az egész elérési útvonalnak (az a betű sok címben, sokszor előfordul Az előbb említett oldal elérési útvonalában is kétszer.) Az 'és' keresőszóra kapott találatok is világosan alátámasztják az előbbieket: mivel az 'és' ékezetes formában nem szerepel domainnevekben, sem elérési útvonalakban, ezért a találati lista sokkal kiegyensúlyozottabb: az első helyezéseket minisztériumok, egyéb fontos szervezetek és kiadványok nyitóoldalai érték el. Hasonlóan a 'már' és a 'még' kifejezésekre rákeresve is sokkal több nagyobb webhelyhez tartozó oldalt kapunk. Mivel ezek a szavak ritkábban szerepelnek a weboldalak megnevezésében, címében (TITLE), ezért itt is előfordulnak olyan lapok, melyek beljebb találhatóak egy-egy webhely struktúrájában.

Yahoo!

A Találati rangsorok első helyein rengeteg, nem .hu domain alatt bejegyzett oldal található. Egyes webhelyek, egyes ingyenes honlapfarmok, mint például a blogspot.com, angelfire.com vagy a geocities.com meglehetősen túlprezentáltak. Fontos magyar webhelyek helyett fontos nemzetközi helyek magyar nyelvű aloldalai szerepelnek az előkelő helyeken. (pl. http://gnu.org) Mindezek mellett nagyon sok nem magyar nyelvű oldalt tüntet fel magyar nyelvűként. A keresett kulcsszavak többször is előfordultak az első tíz helyezett oldal Szövegtörzs-ében. A google-val ellentétben a kulcsszavak ritkán fordulnak elő a helyezett oldalak címében illetve elérési útvonalában.

vizsla

Bár a Yahoo! adatbázisát használja, találati rangsora azonban annál sokkal-sokkal jobb minőségű: úgy néz ki gyakorlatilag, mintha a legtöbb nem .hu domain alatt található oldalt kiszűrnénk a Yahoo! találataiból (ezzel sok, tévesen magyar nyelvűnek kijelzett oldaltól is megtisztítva az eredményt). Nem tudom, hogy ezt hogy érik el, a helyükben én biztos, hogy a vizsla katalógusban már benne levő oldalakat preferálnám a szabadszavas keresésnél is. A Yahoo!-hoz hasonlóan itt is a kulcsszavak többször fordulnak elő a szövegtörzsben, de végeredményben az ideálist majdnem megközelítő Találati rangsorok-at kapunk: zömében fontos oldalak kerültek bele az első tíz találat közé.

goliat

A tizenhat találati rangsor első tíz helyén majd' mindig ugyanaz a bő tucatnyi oldal osztozik (melyek nem sorolhatóak a legfontosabb magyar webhelyek közé), körülbelül az első tíz oldal nyolcvan százaléka ebből a körből kerül ki. A keresett szavakat általában kijelzi akkor is, ha az Elérési útvonalban fordult elő, és akkor is, ha a Szövegtörzsben. A fent említett oldalakkal kapcsolatban ellenben csak elvétve jelzi ki, hogy ezeket a kulcsszavakat fellelte volna. Ezt kétféleképpen lehet magyarázni: vagy a Google példáját követve valami PageRank féle algoritmus eltúlzott mértékű használatával illetve a Linkre rakott kulcsszavak túlzott figyelembevételével állunk szemben, vagy egyszerűen csak a goliat.hu-nak valamilyen szinten köze van ezekhez az oldalakhoz; ekkor viszont bújtatott reklámról van szó.

SZTAKI kereső

A kapott találatok általában változatosak, noha fel lehet fedezni néhány olyan (általában nem túl fontos) oldalt, ami sok kulcsszóra rákeresve elöl végez, bár ezek mindegyike tartalmazta is szövegtörzsében és/vagy címében a keresett szót. Emellett fontosnak látszik az is, hogy a keresett kifejezés hányszor ismétlődik az oldalon. Összességében a nagy, fontos oldalak alig jelentek meg az első tíz találat között. Sokszor problémák vannak az ékezetekkel, és volt példa rá, hogy JavaScript kódrészletet is mutatott találatként.

Heuréka

Eléggé változatos oldalakat találni a találati listkban. A freeblog.hu, a blog.nol.hu és a szanalmas.hu az a három lap, amit túlprezentáltnak mondhatunk. Olykor egymás után több aldomain is következik a listákban. A kapott oldalak túlnyomó többségének szerepelt a TITLE-jében a keresett szó. A találati oldala nagy része azonban tavaly decemberben és novemberben került utoljára frissítésre. Pozitív, hogy minden oldalnál kiírja az utolsó indexelés idejét. Negatív, hogy nem emeli ki az oldalon talált kulcsszó szövegkörnyezetét.

Nemrégiben keletkezett kulcsszavakra keresés

Képet kaphatunk a kereső programok adatbázisainak frissességéről, ha nemrég felbukkant, megalkotott szavakra, kifjezésekre keresünk rá. Emellett tovább finomíthatja az egyes adatbázisok nagyságáról alkotott elképzeléseket is. Az alábbi szavakat választottam ki, némileg persze önkényesen:

keresőoldalak találatai néhány újonnan létrejött magyar szóra


goliat heuréka vizsla msn search google yahoo
szökőár 247 9556 14757 28355 98400 360000
nyócker 144 664 906 36297 30200 18100
fészekrakó 8781 867 3836 19103 87400 190000
hantaméter 0 5 5 507 1090 8
vizsla24 0 7 9 1412 2400 72

A grafikon alapján egyértelműen a Yahoo!! tűnik a nyertesnek, ám a táblázatot megnézve jól látszik, hogy a Yahoo!! csak két keresőszó esetén produkált kiemelkedő teljesítményt. Megfigyelhető továbbá, hogy a legújabban (a keresés ideje előtt pár nappal) felbukkant szavakkal kapcsolatban látványosan alulmarad a Yahoo!!, ezzel olyan érdekes helyzetet idéz elő, hogy a vizsla.origo.hu kereső-szolgáltatás új neve a vizsla24 jóval kevesebbszer szerepelt a vizsla24 adatbázisában, mint a Google-éban, vagy akárcsak az MSN Search-éban.
A SZTAKI kereső és a Teoma kereső gyakorlatilag nem adott találatot a fenti szavakra.

Isten áldd meg a magyart teszt

Sokat elmond a keresők szolgáltatásainak minőségéről, ha egy olyan magyar nyelvű alapműre keresünk rá, mint a Himnusz. Alapvető elvárás, hogy a Isten áldd meg a magyart keresőkifejezésre rákeresve a találati rangsor első helyezettje közölje a Himnusz teljes szövegét, emellett nem árt, ha valamilyen pluszinformációt is nyújt a Himnusszal kapcsolatban, egyszóval elvárás, hogy a kersésünk szempontjából leghasznosabb oldal kerüljön az első helyre. Emellett további elvárás, hogy a kereső megfelelően értelmezze szándékunk, és csak az olyan oldalakat listázza ki, amelyekben szerepel a kereső-kifejezés összes szava. Fontos szempont továbbá, hogy anélkül dobja ki a kifejezést pontosan ilyen formában tartalmazó oldalakat a találatok elejére, hogy ezért nekünk bármilyen plusz intézkedést kellene tegyünk (Pl. idézőjelbe tenni a keresőkifejezést, vagy logikai kifejezéseket alkalmazni, esetleg egy további keresőűrlapot kitölteni.)

Google

Egy meglehetősen gagyi kinézetű dalgyűteményes oldal, a tartalom viszont értékes. A szöveghez nincsen semmilyen kommentár, viszont egyből le is lehet tölteni a Himnuszt mp3-ban. ( http://ingeb.org/songs/istenald.html )

MSN Search

Egy amerikai magyar fiatalember személyes honlapja, szöveghű angol fordítással, rövid bevezetővel ( http://www.korossy.org/magyar/himnusz.html )

Yahoo!, vizsla24

Az angol nyelvű wikipédia oldala, angol fordítással, rövid bevezetővel, ami világviszonylatban kontextusba helyezi a művet. ( http://en.wikipedia.org/wiki/Isten_%E1ldd_meg_a_magyart )

Teoma

Az első találat nem volt elérhető. A második találat szintén egy több webhely által licenszelt online enciklopédia bejegyzése. ( http://www.asinah.net/articles/content/i/is/isten_aldd_meg_a_magyart.html )

goliat

Automatikusan nem vette figyelembe az a szót, viszont a többi szót szókapcsolatokra bontotta és ennek megfelelően első körben el kellett dönteni, hogy pl. az "isten áldd", "meg magyart" vagy az "isten áldd meg" és a "magyart" előfordulásai alapjánkérjük le a listát. Némi felesleges felhasználói beavatkozás után kapott találati lista élén a himnusz.hu domain szerepelt. Ez nyilvánvalóan egy megvásárolt, de parkolópályán tartott domainnévhez rendelt kultúrált megoldás, ami a teljes szövegen kívűl tartalmaz még pár linket. ( http://www.himnusz.hu )

heuréka

Közel s távol nem lehetett találni olyan oldalt, ami a himnuszról szólt volna. Ehelyett csak olyan találatok szerepeltek, melyek tartalmazták a kereső-kifejezés szavainak valamelyikét.

Alapműindex

A keresők AlapműIndex szerinti rangsorolása a következő volt:

  1. Gigablast : 1645/7
  2. Google : 1570/8
  3. MSN Search : 3132/32
  4. Yahoo! : 1420/18
  5. Teoma, vizsla.origo.hu, goliat.hu, heureka.hu, SZTAKI kereső : értékelhetetlen

 


comments:

Fontos keresők összehasonlítása spanyolul --kaixo, Mon, 01 Aug 2005 07:49:10 -0500 reply
http://www.ojobuscador.com/2005/07/30/top-buscadores-28072005

Az itt olvasható módszerekhez nagyon hasonló táblázatos gyorselemzés a négy nagy kereső-adatbázisról. Végeredménye az alábbi lett:

  1. Yahoo!: 7.8
  2. MSN Search: 5.2
  3. Google: 5
  4. Ask Jeeves: 3.8

Vizsgálat a kereső programok adatbázisainak frissességéről --kaixo, Tue, 20 Sep 2005 07:27:59 -0500 reply
The Freshness of Web search engines’ databases

http://eprints.rclis.org/archive/00004619/01/JIS_preprint.pdf

A fenti címen található tanulmány a Fontos keresők adatbázisában található oldalak aktualitását mérte hat héten keresztül, 38 naponta frissített német oldalról származó találatok alapján.


 

Google

Egyéb kikötés hiányában a weblap felhasználásának feltételeit a Creative Commons Licensz szabályozza. | impresszum