Ez egy archívum. Így nézett ki az egyik legnagyobb magyar keresőkkel, keresőoptimalizálással foglalkozó weboldal régebben. Az oldal aktuális állapota ide kattintva tekinthető meg. Adatvédelmi nyilatkozat
A webhely gyökérkönyvtárában elhelyezett robots.txt nevű, egyszerű szöveges fájl segítségével meghatározhatjuk, hogy a különböző User agenttel bejelentkező Keresőrobotok a webhely melyik könyvtárát vagy fájlját nem idekszelhetik be. A robots.txt fájlnak a legtöbb webpók engedelmeskedik, ez a fájl önmagában nem jelent technikai korlátot a keresőrobotok és az offline böngészők számára. A robots.txt mellett még a Robots Meta tagok segítségével is befolyásolhatjuk a keresőrobotok működését. A http://www.robotstxt.org/wc/exclusion.html oldalon lehet több információt szerezni többek között arról, hogy hogyan is kell kinézni egy ilyen fájlnak.
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
Leellenőrzi, hogy megfelel-e a szabályoknak a webhelyünk robots.txt fájlja. Emellett különböző példákat, és egyéb kapcsolódó információkat is találhatunk az oldalon
Hasznos lehet, ha nem szeretnénk, hogy sokan lecincálják az egész webhely tartalmát offline böngészőkkel, mint pl a HTTrack?, kiváltképp, ha tárhelyünk a havi adatforgalma korlátos. Erre gondoltam én is beüzemelni egy robots.txt fájlt, azonban konkrétan a HTTrack? azt mondta a "Disallow: /" (tehát mindent tiltó) kitételre, hogy túlságosan szigorúak a feltételek és ezért nem veszi figyelembe. Mivel az összes fájl a gyökérkönyvtárban található, még egyes mappákat sem tudtam letiltani.
Másik kézenfekvő megoldás lehet, ha egy webhely több címen érhető el, mi viszont csak az egyik cím alapján szeretnénk beindekszeltetni, akkor letilthatjuk a többi változatot. Például a webni.innen.hu elméletileg innen.hu/webni címről van átirányítva, továbbá az innen.hu tartalma más URL alól is elérhető. Én nem szeretném azonban, ha véletlenül e címekbe botlik egy keresőrobot, akkor ezeket is végigindekszelje, és többször szerepeljen az oldalam valamelyik kereső adatbázisában.
Pusztán a robots.txt jelenléte elegendő ahhoz, hogy egyszerűen nyomon követhessük, hogy a látogatók mekkora hányadát képviselték a Keresőrobotok. A webpókok ugyanis minden látogatásuk alkalmával kikérik ezt a fájlt, és így a robots.txt letöltéseinek száma alapján az olyan Látogatottsági statisztika segítségével is képet kaphatunk az általuk generált forgalomról, mely egyébként nem összesíti, hogy hány webpók látogatónk volt (mint pl. a Webalizer).
2005. augusztusA Google rendszere okosabb mint a többi keresőé: automatikusan detektálta, hogy ugyanaz a tartalom más címen is tükrözve van, és csak azt a címet hagyta meg adatbázisában, amelyikre Külső hivatkozások is mutattak. A Yahoo! rendszere nem volt ennyire okos, és --igaz az én hibámból-- duplán, más URL alatt is bekerült weblapokat csak a robots.txt fájl segítségével tudtam eltávolíttatni, és ez is több mint egy hónapba került.