Ez egy archívum. Így nézett ki az egyik legnagyobb magyar keresőkkel, keresőoptimalizálással foglalkozó weboldal régebben. Az oldal aktuális állapota ide kattintva tekinthető meg. Adatvédelmi nyilatkozat
Keresőrobotoknak hívjuk (lásd még: kereső pókok, crawler, bot) azokat a programokat, melyek a Szabadszavas keresők számára gyűjtik össze a weblapokról az információkat (beindexelik az oldalakat), és bizonyos szabályok szerint automatikusan követik az egyes weboldalakon található linkeket. Ezek a robotok azonosítják magukat, és a rendes Látogatottsági statisztika megmutatja, hogy mikor jártak utoljára oldalunkon, és hány oldalt látogattak meg.
A robotok akár a Keresőoldalakra regisztrálás révén, de leginkább a más webhelyekrõl az oldalunkra mutató Külső hivatkozásokat követve érkeznek oldalunkra. A sok Teljes értékű link garancia egyrészt arra, hogy sokfajta kereső robotja látogassa az oldalt, másrészt pedig arra, hogy a gyakori látogatásokkal rendszeresen újraindexelje az oldal tartalmát.
A különböző Böngészők eltérő módon értelmezik az oldalon található HTML kódot, az esetleges hibákat és szabványtól eltérő megoldásokat is igyekeznek megjeleníteni, ezáltal a rossz kód sokszor fel sem tűnik az oldal alkotóinak, viszont a keresőrobotok nem feltétlenül rendelkeznek a böngészők hibatűrő képességével. Ez lehet akár szándékos is: egyrészt az értékes weboldalak valószínűleg jobban vannak megírva, mint a kevésbé értékesek; illetve a HTML értelmezésénél sokat számíthat a szükséges processzoridő, ezért feltehetően takarékosan bánnak vele (azaz nem biztos, hogy olyan nagy tudású, hibatűrő értelmezőket használnak, mint a böngészők).
Szintén az erőforrásokkal (pl. processzoridő) való takarékosság okán a keresőtechnológiák egyes, modern böngészők által értelmezhető technológiákat nem vesznek figyelembe (mint pl. JavaScript), ezáltal az ilyen, Problémás technológiák segítségével megírt oldalrészeket egyáltalán nem "látja" az adott kereső robotja.
A fenti okok miatt előfordulhat, hogy nem tudják az egész oldalt "elolvasni", vagy nem tudnak (nem akarnak) továbbmenni egy bizonyos oldalról. Emiatt kell elkerülni a Problémás technológiákat és ragaszkodni a Webes szabványokhoz. Szöveges böngészők használatával, a weboldal forráskódjának átnézésével, illetve a Webes szabványok úgynevezett validátorainak segítségével meggyőződhetünk róla, hogy oldalunk nagy valószínűséggel problémamentesen indekszelhető-e. Mivel a keresőtechnológiák zöme titkos, ezért nem tudhatjuk, hogy az egyes robotok pontosan milyen módon értelmezve, mit látnak az (X)HTML, vagy az (X)HTML-hez hasonló, a Böngészőkben többbé-kevésbé jól megjelenő oldalakból, ezért a legtöbb, amit tehetünk, hogy ragaszkodunk a Webes szabványokhoz. Ekkor van ugyanis a legnagyobb esélyünk arra, hogy a keresőpókok elé nem gördül semmilyen technikai akadály, és ezáltal webhelyünk egésze kereshető legyen.
A robotoknak engedelmeskednie kell az oldalunkon elhelyezett robots.txt fájlban található "parancsoknak", vagy az egyes weblapokon található Meta tagoknak. E technika segítségével megtilthatjuk a robotoknak, hogy oldalunk bizonyos részét, részeit beindexeljék. Szinte minden, a keresőrobotokról szóló információ megtalálható itt: http://www.robotstxt.org/wc/robots.html
A Google Sitemaps szolgáltatás segítségével pedig közvetlenül megmondhatjuk, hogy mely oldalakat indexelje be oldalunkról a Googlebot, a Google kereső robotja.
A keresőrobotok működésének tanulmányozására a http://drunkmenworkhere.org/218 oldalon található egy érdekes projekt leírása: Az oldal végtelen számú, automatikusan generált lapot kínál fel és regisztrálja a robotok ténykedését. Grafikusan is megjeleníti (egy fát rajzolva), hogy a keresőrobotok milyen mélységben hatoltak be az oldalra, emellett kiírja látogatásaik időpontját is. A http://drunkmenworkhere.org/219 oldalon pedig a projekt eredményeinek leírása található meg.
A robotok olykor lekérnek olyan fals címeket is a szerverről, melyek egészen bizonyosan nem léteznek az adott a szerveren, mint például: /SlurpConfirm404?/IS_Support_Board.htm . Sokszor ugyanis csak ezzel a módszerrel lehet beazonosítani, hogy milyen weblapot küld a szerver, ha egy adott weblap már nem érhető el a kért URL-en, mert nem a szabványos HTTP 404 Not Found válasszal érkeznek az oldalak, hanem pl. HTTP 200 OK válasszal. A nem talált oldalakra adott automatikus válaszlap birtokában pedig ki lehet sakkozni, hogy egy adott oldalon milyen elérési útvonalak avultak el a keresőpók utolsó látogatása óta.
A keresőrobotok leggyakrabban a nyitóoldalt látogatják. Minél távolabb van egy weblap a nyitóoldaltól (minél több kattintásra található), annál ritkábban jutnak el a robotok arra a lapra. Látogatásaik gyakoriságát többek között az oldalak frissülésének, változásának gyakorisága és az oldalra mutató Bejövő hivatkozásek száma és fontossága is befolyásolja.
A Keresőoldalakra regisztrálás és a keresőrobotok első látogatása között akár négy-hat hét is eltelhet, attól függően, hogy milyen keresőről van szó. Először nagy valószínűséggel csak a nyitóoldalt fogják beindekszelni, későbbi ciklusban fedezik fel majd a webhely "mélyebben fekvő" részeit is.
Az alábbiakban azokat a robotokat sorolom fel, melyek rendszeres látogatói oldalamnak, és érdemi mennyiségű weblapot indexelnek be róla.
A Google kereső számára gyűjtő Googlebot és az AdSense rendszer részeként működő Mediapartners-Google robotok annyira fontosak, hogy külön szócikket kaptak.
A Gigablast számára gyűjt információt::
Gigabot/2.0/gigablast.com/spider.html
http://pages.alexa.com/help/webmasters/
Az [Alexa]? különböző szolgáltatásai számára gyűjt adatot, mint például a Wayback machine. Az Alexa eszköztár felhasználói által gyakran látogatott webhelyek nagyobb valószínűséggel kerülhetnek fel az ia_archiver úticéljai közé.
magyarul: A Jyxo keresőtechnológia által működtetett keresők számára gyűjt oldalakat. Valószínűleg cseh, szlovák és magyar nyelvű honlapokat indexel, az adott nyelvű keresőoldalak számára. A Jyxo technológia honlapja a http://jyxo.cz , bár itt csak cseh nyelven találunk információt.
in English: Jyxo is a Czech search engine technology. Apart from http://jyxo.cz Jyxobot indexes pages for different fulltext search engines such as http://zoohoo.hu , http://zoohoo.sk , http://zoohoo.cz , http://tango.hu . You can search on these pages among Hungarian, Slovak, Czech (and combined Czech/Slovak) webpages respectively, so this bot is most likely to index web pages written in these languages. For those who got here via Google: please read the English summary about this site.
http://talalat.kurzor.hu/robots.html
A kurzor.hu saját kereső-adatbázisa számára gyűjt adatokat, User Agentje a következő:
kurzor.hu/1.0 (kurzor.hu; http://talalat.kurzor.hu/robots.html; kereso@kurzor.hu)
Régebben az alábbi, érdekes módon azonosította magát:
kurzor.hu/1.0_(kurzor.hu;_http://www.easymail.hu/;_cursor@easymail.hu)
A lapozz.hu kereső számára gyűjt adatokat:
LapozzBot/1.4 (+http://robot.lapozz.com)
http://search.msn.com/docs/siteowner.aspx
A Microsoft MSN keresője számára gyűjt információt, User agentje a következő:
msnbot/1.0 (+http://search.msn.com/msnbot.htm)
http://help.yahoo.com/help/us/ysearch/slurp/
A Yahoo! kereső számára gyűjt adatokat, User agentje:
Mozilla/5.0 (compatible; [Yahoo! kereső]! Slurp; http://help.yahoo.com/)
Különböző tudományos projektek (például a SzóSzablya ) sokszor saját robot segítségével számottevő mennyiségű adatot gyűjtenek, így előfordulhat, hogy oldalunkra is ellátogatnak, mint például az alábbi:
Shim-Crawler(Mozilla-compatible; http://www.logos.ic.i.u-tokyo.ac.jp/crawler/; crawl@logos.ic.i.u-tokyo.ac.jp)
| <<Weboldal optimalizálás téveszméi | Klaszterezés>> |
@ en innen.hu