Ez egy archívum. Így nézett ki az egyik legnagyobb magyar keresők­kel, keresőoptimalizálás­sal foglalkozó weboldal régebben. Az oldal aktuális állapota ide kattintva tekinthető meg.   Adatvédelmi nyilatkozat



 
home

Kereső-adatbázisokhoz adatot gyűjtő számítógépek

Keresőrobotoknak (pókoknak) hívjuk azokat a programokat, melyek a Keresőoldalak számára gyűjtik össze a weblapokról az információkat (beindexelik az oldalakat), és bizonyos szabályok szerint automatikusan követik az egyes weboldalakon található linkeket. Ezek a robotok azonosítják magukat, és a rendes Látogatottsági statisztika megmutatja, hogy mikor jártak utoljára oldalunkon, és hány oldalt látogattak meg.

Hogy jutnak el oldalunkra a robotok?

A robotok akár a Keresőoldalakra regisztrálás révén, de leginkább a más webhelyekrõl az oldalunkra mutató Külső hivatkozásokat követve érkeznek oldalunkra. A sok Minőségi bejövő link garancia egyrészt arra, hogy sokfajta kereső robotja látogassa az oldalt, másrészt pedig arra, hogy a gyakori látogatásokkal rendszeresen újraindexelje az oldal tartalmát.

Mit lát az oldalból a kereső(robot)?

A különböző Böngészők eltérő módon értelmezik az oldalon található HTML kódot, az esetleges hibákat és szabványtól eltérő megoldásokat is igyekeznek megjeleníteni, ezáltal a rossz kód sokszor fel sem tűnik az oldal alkotóinak, viszont a keresőrobotok nem feltétlenül rendelkeznek a böngészők hibatűrő képességével. Ez lehet akár szándékos is: egyrészt az értékes weboldalak valószínűleg jobban vannak megírva, mint a kevésbé értékesek; illetve a HTML értelmezésénél sokat számíthat a szükséges processzoridő, ezért feltehetően takarékosan bánnak vele (azaz nem biztos, hogy olyan nagy tudású, hibatűrő értelmezőket használnak, mint a böngészők).

Szintén az erőforrásokkal (pl. processzoridő) való takarékosság okán a keresőtechnológiák egyes, modern böngészők által értelmezhető technológiákat nem vesznek figyelembe (mint pl. JavaScript), ezáltal az ilyen, Problémás technológiák segítségével megírt oldalrészeket egyáltalán nem "látja" az adott kereső robotja.

A fenti okok miatt előfordulhat, hogy nem tudják az egész oldalt "elolvasni", vagy nem tudnak (nem akarnak) továbbmenni egy bizonyos oldalról. Emiatt kell elkerülni a Problémás technológiákat és ragaszkodni a Webes szabványokhoz. Szöveges böngészők használatával, a weboldal forráskódjának átnézésével, illetve a Webes szabványok úgynevezett validátorainak segítségével meggyőződhetünk róla, hogy oldalunk nagy valószínűséggel problémamentesen indekszelhető-e. Mivel a keresőtechnológiák zöme titkos, ezért nem tudhatjuk, hogy az egyes robotok pontosan milyen módon értelmezve, mit látnak az (X)HTML, vagy az (X)HTML-hez hasonló, a Böngészőkben többbé-kevésbé jól megjelenő oldalakból, ezért a legtöbb, amit tehetünk, hogy ragaszkodunk a Webes szabványokhoz. Ekkor van ugyanis a legnagyobb esélyünk arra, hogy a keresőpókok elé nem gördül semmilyen technikai akadály, és ezáltal webhelyünk egésze kereshető legyen.

A keresőpókok viselkedésének befolyásolása

A robotoknak engedelmeskednie kell az oldalunkon elhelyezett robots.txt fájlban található "parancsoknak", vagy az egyes weblapokon található Meta tagoknak. E technika segítségével megtilthatjuk a robotoknak, hogy oldalunk bizonyos részét, részeit beindexeljék. Szinte minden, a keresőrobotokról szóló információ megtalálható itt: http://www.robotstxt.org/wc/robots.html

A Google Sitemaps szolgáltatás segítségével pedig közvetlenül megmondhatjuk, hogy mely oldalakat indexelje be oldalunkról a Googlebot.

Milyen utakon járnak a keresőrobotok?

A keresőrobotok működésének tanulmányozására a http://drunkmenworkhere.org/218 oldalon található egy érdekes projekt: Az oldal végtelen számú, automatikusan generált lapot kínál fel és regisztrálja a robotok ténykedését. Grafikusan is megjeleníti (egy fát rajzolva), hogy a keresőrobotok milyen mélységben hatoltak be az oldalra, emellett kiírja látogatásaik időpontját is.

Milyen gyakran látogatnak egyes oldalakat?

A keresőrobotok leggyakrabban a nyitóoldalt látogatják. Minél távolabb van egy weblap a nyitóoldaltól (minél több kattintásra található), annál ritkábban jutnak el a robotok arra a lapra. Látogatásaik gyakoriságát többek között az oldalak frissülésének, változásának gyakorisága és az oldalra mutató Bejövő linkek száma és fontossága is befolyásolja.

A Keresőoldalakra regisztrálás és a keresőrobotok első látogatása között akár négy-hat hét is eltelhet, attól függően, hogy milyen keresőről van szó. Először nagy valószínűséggel csak a nyitóoldalt fogják beindekszelni, későbbi ciklusban fedezik fel majd a webhely "mélyebben fekvő" részeit is.

Mely pókok látogatják ezt a webhelyet?

Az alábbiakban azokat a robotokat sorolom fel, melyek rendszeres látogatói oldalamnak, és érdemi mennyiségű weblapot indexelnek be róla.


 

Google

Egyéb kikötés hiányában a weblap felhasználásának feltételeit a Creative Commons Licensz szabályozza. | impresszum