Keresőoptimalizálás:

۞ keresés ۞ látogató-keresés ۞ pénzkeresés

Ez egy archívum. Így nézett ki az egyik legnagyobb magyar keresők­kel, keresőoptimalizálás­sal foglalkozó weboldal régebben. Az oldal aktuális állapota ide kattintva tekinthető meg.   Adatvédelmi nyilatkozat


««Google tánc Google Inc. keresőrobotjai»»

Kereső-adatbázisokhoz adatot gyűjtő számítógépek

Keresőrobotoknak hívjuk (lásd még: kereső pókok, crawler, bot) azokat a programokat, melyek a Szabadszavas keresők számára gyűjtik össze a weblapokról az információkat (beindexelik az oldalakat), és bizonyos szabályok szerint automatikusan követik az egyes weboldalakon található linkeket. Ezek a robotok azonosítják magukat, és a rendes Látogatottsági statisztika megmutatja, hogy mikor jártak utoljára oldalunkon, és hány oldalt látogattak meg.

Hogy jutnak el oldalunkra a robotok?

A robotok akár a Keresőoldalakra regisztrálás révén, de leginkább a más webhelyekrõl az oldalunkra mutató Külső hivatkozásokat követve érkeznek oldalunkra. A sok Teljes értékű link garancia egyrészt arra, hogy sokfajta kereső robotja látogassa az oldalt, másrészt pedig arra, hogy a gyakori látogatásokkal rendszeresen újraindexelje az oldal tartalmát.

Mit lát az oldalból a kereső(robot)?

A különböző Böngészők eltérő módon értelmezik az oldalon található HTML kódot, az esetleges hibákat és szabványtól eltérő megoldásokat is igyekeznek megjeleníteni, ezáltal a rossz kód sokszor fel sem tűnik az oldal alkotóinak, viszont a keresőrobotok nem feltétlenül rendelkeznek a böngészők hibatűrő képességével. Ez lehet akár szándékos is: egyrészt az értékes weboldalak valószínűleg jobban vannak megírva, mint a kevésbé értékesek; illetve a HTML értelmezésénél sokat számíthat a szükséges processzoridő, ezért feltehetően takarékosan bánnak vele (azaz nem biztos, hogy olyan nagy tudású, hibatűrő értelmezőket használnak, mint a böngészők).

Szintén az erőforrásokkal (pl. processzoridő) való takarékosság okán a keresőtechnológiák egyes, modern böngészők által értelmezhető technológiákat nem vesznek figyelembe (mint pl. JavaScript), ezáltal az ilyen, Problémás technológiák segítségével megírt oldalrészeket egyáltalán nem "látja" az adott kereső robotja.

A fenti okok miatt előfordulhat, hogy nem tudják az egész oldalt "elolvasni", vagy nem tudnak (nem akarnak) továbbmenni egy bizonyos oldalról. Emiatt kell elkerülni a Problémás technológiákat és ragaszkodni a Webes szabványokhoz. Szöveges böngészők használatával, a weboldal forráskódjának átnézésével, illetve a Webes szabványok úgynevezett validátorainak segítségével meggyőződhetünk róla, hogy oldalunk nagy valószínűséggel problémamentesen indekszelhető-e. Mivel a keresőtechnológiák zöme titkos, ezért nem tudhatjuk, hogy az egyes robotok pontosan milyen módon értelmezve, mit látnak az (X)HTML, vagy az (X)HTML-hez hasonló, a Böngészőkben többbé-kevésbé jól megjelenő oldalakból, ezért a legtöbb, amit tehetünk, hogy ragaszkodunk a webes ajánlásokhoz. Ekkor van ugyanis a legnagyobb esélyünk arra, hogy a keresőpókok elé nem gördül semmilyen technikai akadály, és ezáltal webhelyünk egésze kereshető legyen.

A keresőpókok viselkedésének befolyásolása

A robotoknak engedelmeskednie kell az oldalunkon elhelyezett robots.txt fájlban található "parancsoknak", vagy az egyes weblapokon található Meta tagoknak. E technika segítségével megtilthatjuk a robotoknak, hogy oldalunk bizonyos részét, részeit beindexeljék. Szinte minden, a keresőrobotokról szóló információ megtalálható itt: http://www.robotstxt.org/wc/robots.html

A Google Sitemaps szolgáltatás segítségével pedig közvetlenül megmondhatjuk, hogy mely oldalakat indexelje be oldalunkról a Googlebot, a Google kereső robotja.

Milyen utakon járnak a keresőrobotok?

A keresőrobotok működésének tanulmányozására a http://drunkmenworkhere.org/218 oldalon található egy érdekes projekt leírása: Az oldal végtelen számú, automatikusan generált lapot kínál fel és regisztrálja a robotok ténykedését. Grafikusan is megjeleníti (egy fát rajzolva), hogy a keresőrobotok milyen mélységben hatoltak be az oldalra, emellett kiírja látogatásaik időpontját is. A http://drunkmenworkhere.org/219 oldalon pedig a projekt eredményeinek leírása található meg.

A robotok olykor lekérnek olyan fals címeket is a szerverről, melyek egészen bizonyosan nem léteznek az adott a szerveren, mint például: /SlurpConfirm404?/IS_Support_Board.htm . Sokszor ugyanis csak ezzel a módszerrel lehet beazonosítani, hogy milyen weblapot küld a szerver, ha egy adott weblap már nem érhető el a kért URL-en, mert nem a szabványos HTTP 404 Not Found válasszal érkeznek az oldalak, hanem pl. HTTP 200 OK válasszal. A nem talált oldalakra adott automatikus válaszlap birtokában pedig ki lehet sakkozni, hogy egy adott oldalon milyen elérési útvonalak avultak el a keresőpók utolsó látogatása óta.

Milyen gyakran látogatnak egyes oldalakat?

A keresőrobotok leggyakrabban a nyitóoldalt látogatják. Minél távolabb van egy weblap a nyitóoldaltól (minél több kattintásra található), annál ritkábban jutnak el a robotok arra a lapra. Látogatásaik gyakoriságát többek között az oldalak frissülésének, változásának gyakorisága és az oldalra mutató Külső hivatkozások száma és fontossága is befolyásolja.

A Keresőoldalakra regisztrálás és a keresőrobotok első látogatása között akár négy-hat hét is eltelhet, attól függően, hogy milyen keresőről van szó. Először nagy valószínűséggel csak a nyitóoldalt fogják beindekszelni, későbbi ciklusban fedezik fel majd a webhely "mélyebben fekvő" részeit is.

Mely pókok látogatják ezt a webhelyet?

Az alábbiakban azokat a robotokat sorolom fel, melyek rendszeres látogatói oldalamnak, és érdemi mennyiségű weblapot indexelnek be róla.

Google Inc. robotjai

A Google Inc. keresőrobotjairól (Googlebot, Google-Mediapartners, stb.) külön szócikkben olvashatsz.

Gigabot

A Gigablast számára gyűjt információt::

Gigabot/2.0/gigablast.com/spider.html

ia_archiver

http://pages.alexa.com/help/webmasters/

Az [Alexa]? különböző szolgáltatásai számára gyűjt adatot, mint például a Wayback machine. Az Alexa eszköztár felhasználói által gyakran látogatott webhelyek nagyobb valószínűséggel kerülhetnek fel az ia_archiver úticéljai közé.

Jyxobot

magyarul: A Jyxo keresőtechnológia által működtetett keresők számára gyűjt oldalakat. Valószínűleg cseh, szlovák és magyar nyelvű honlapokat indexel, az adott nyelvű keresőoldalak számára. A Jyxo technológia honlapja a http://jyxo.cz , bár itt csak cseh nyelven találunk információt.

in English: Jyxo is a Czech search engine technology. Apart from http://jyxo.cz Jyxobot indexes pages for different fulltext search engines such as http://zoohoo.hu , http://zoohoo.sk , http://zoohoo.cz , http://tango.hu . You can search on these pages among Hungarian, Slovak, Czech (and combined Czech/Slovak) webpages respectively, so this bot is most likely to index web pages written in these languages. For those who got here via Google: please read the English summary about this site.

Kurzor robot

http://talalat.kurzor.hu/robots.html

A kurzor.hu saját kereső-adatbázisa számára gyűjt adatokat, User Agentje a következő:

  kurzor.hu/1.0 (kurzor.hu; http://talalat.kurzor.hu/robots.html; kereso@kurzor.hu)  

Régebben az alábbi, érdekes módon azonosította magát:

  kurzor.hu/1.0_(kurzor.hu;_http://www.easymail.hu/;_cursor@easymail.hu)

LapozzBot?

http://robot.lapozz.com

A lapozz.hu kereső számára gyűjt adatokat:

  LapozzBot/1.4 (+http://robot.lapozz.com)

MSNBot?

A Microsoft Live keresője számára gyűjt információt, melyet régebben MSN Keresőnek hívtak, azonban a robotok nevét nem változtatták meg; a webmesterek életét megkönnyítendő.

További részletek: http://blogs.msdn.com/livesearch/archive/2006/11/29/search-robots-in-disguise.aspx

Még az MSN kereső idejében a robot User agentje a következő volt:

  msnbot/1.0 (+http://search.msn.com/msnbot.htm) 

Yahoo! Slurp (egykoron Inktomi Slurp)

http://help.yahoo.com/help/us/ysearch/slurp/

A Yahoo! kereső számára gyűjt adatokat, User agentje:

  Mozilla/5.0 (compatible; [Yahoo! kereső]! Slurp; http://help.yahoo.com/) 

Egyéb robotok

Különböző tudományos projektek (például a SzóSzablya ) sokszor saját robot segítségével számottevő mennyiségű adatot gyűjtenek, így előfordulhat, hogy oldalunkra is ellátogatnak, mint például az alábbi:

  Shim-Crawler(Mozilla-compatible; http://www.logos.ic.i.u-tokyo.ac.jp/crawler/; crawl@logos.ic.i.u-tokyo.ac.jp)

Visszaélések a keresőrobotokkal

Egyes webmestereknek érdekében lehet, hogy egy adott keresőrobotnak más tartalmat mutasson, mint a látogatóknak. Például a Googlebot számára olyan oldalakat nyújtani, melyek akár az oldal témájához nem illő kulcsszavakat és linkeket tartalmaznak, hasonlóan a Mediapartners-Google robot számára jól fizető hirdetésekhez passzoló "drága kulcsszavakat" tartalmazó szöveget jelentetve meg. Ezt a típusú technikát (Amit Cloaking-nak is neveznek: lásd WikiPedia:Cloaking ), azonban egyszerűen le lehet leplezni: amennyiben User Agent alapú megkülönböztetés szerint igyekeznek a keresőrobotokat azonosítani, akkor sima böngészőknek megfelelő User Agent-ek használatával, vagy akár az ismert, keresőrobotokhoz tartozó IP-cím tartományoktól különböző címek használatával.

subtopics:


comments:

uegncTGZfjwoABJZVFo -- Thu, 12 May 2011 11:20:05 -0400 reply
I bow down hulmby in the presence of such greatness.

QLoNuFXHmvU? -- Thu, 12 May 2011 21:34:54 -0400 reply
bevFLo ovqypmxlkexa

CSSVgfKUAn? -- Mon, 30 May 2011 16:45:33 -0400 reply
Линзы контактные 913

YRfkZsPjRXdpTQ? -- Sun, 05 Jun 2011 19:51:49 -0400 reply
colchicine 51793 zovirax :-]

rRTkFLmruPL -- Wed, 14 Sep 2011 02:45:46 -0400 reply
Last one to utilize this is a roettn egg!

BRLQRlcjQXqdFYS? -- Thu, 15 Sep 2011 04:01:15 -0400 reply
wldpGp gfckwcjbghbj

<<Google tánc ^^Felgöngyölítés Google Inc. keresőrobotjai>>
OldalGazda : Jároli József
keresőoptimalizálás (SEO) szakértő ☎ 70-512-9874
 
Web innen.hu
RSS abrak kivonat az oldalak változásairól, rss olvasókhoz
licencfeltételek a tartalom más weboldalon történő felhasználásának szabályai, egyéb kikötés hiányában impresszum kapcsolatfelvétel, jogi nyilatkozat


 
link mutat ide.