Ez egy archívum. Így nézett ki az egyik legnagyobb magyar keresők­kel, keresőoptimalizálás­sal foglalkozó weboldal régebben. Az oldal aktuális állapota ide kattintva tekinthető meg.   Adatvédelmi nyilatkozat



 
home

A Google és a PageRank

Az elmúlt pár évben a Google a messze legtöbbet használt keresőoldallá vált világszerte. Sikerét a kiváló teljesítményű szerverein, a könnyű kezelhetőségén túl leginkább a más keresőkhöz képest nagyságrendekkel jobb minőségű Találati rangsoroknak köszönheti; ezért pedig alapvetően egy a weboldalak rangsorolására kidolgozott kifinomult metódus, a PageRank a felelős.

A következő oldalakon részletes áttekintés olvasható a Page Rank majd' minden aspektusáról. A tartalom alapvetően Google-ről szóló első publikációkon alapszik, melyeket a Google alapítói, Lawrence Page és Sergey Brin írtak még azokban az időkben, amikor mindketten a Stanford Egyetemen tanultak.

Gyakran érvelnek azzal -különösen az internet dinamikája folytán- hogy azóta, hogy ezeket a Page Rankkel foglalkozó tudományos dolgozatokat publikálták, túl sok idő telt el ahhoz, hogy alapjául szolgáljanak a Google keresőmotorja által jelenleg is használt rangsorolási metódusok leírásának, megértésének. Kétségtelen, hogy az elmúlt években minden valószínűség szerint számtalan változtatást, módosítást hajtottak végre a Google rangsorolási módszereiben, de mivel a PageRank-nak kulcsszerep jutott a Google sikerében, ezért legalábbis az algoritmus mögött húzódó alapvető elgondolásoknak mind a mai napig érvényesnek kell lenniök.

A Page Rank (PR) koncepciója

Az internetes keresők már a world wide web fejlődésének korai szakaszától különböző megoldásokat fejlesztettek ki a weboldalak rangsorolására. A Google színrelépéséig gyakorlatilag az összes keresőmotor rangsorolási technikái számára a keresett kifejezés előfordulásának száma volt az egyik meghatározó faktor. Ezáltal a keresett kifejezés előfordulásának számát súlyozták a dokumentum hosszával (Kulcsszósűrűség alapú rangsorolás), vagy azt vizsgálták, hogy a keresett kifejezés milyen kiemelés jellegű HTML elemben található.

A jobb találati eredmények érdekében és különösképp azért, hogy a keresők ki tudják küszöbölni a témaköröktől függő rangsorolási kritériumok elemzése alapján automatikusan generált weblapok ([Doorway]? oldalak) hatását, kifejlesztették a linknépszerűség (link popularity) koncepcióját. Eszerint a Bejövő linkek száma határozza meg egy adott web dokumentum általános értelemben vett fontosságát: Minél több oldal hivatkozik egy weblapra, annál fontosabb az adott lap. A linknépszerűség mérésével a legtöbb esetben elkerülhető, hogy a kizárólag csak a keresők megtévesztése céljából létrehozott, és egyébként semmilyen jelentőséggel nem bíró oldalak jó helyezéseket érjenek el. Számos webmester azonban megtalálta a módját annak, hogy hasonlóan jelentéktelen egyéb weboldalakról nagy mennyiségű Bejövő linkkel lássa el a Doorway oldalait, ezáltal kijátszva a rangsorolás ezen formáját.

A linknépszerűséggel ellentétben a PageRank érték nemcsak egyszerűen a bejövő linkek számától függ. Az alapelv szintén az, hogy minél több weboldal hivatkozik az adott weblapra, annál fontosabb, viszont a Bejövő linkek nem egyenértékűek. Összességében egy weblapnak magas a Page Rank értéke, ha más magas PR értékű dokumentumokról mutatnak rá hivatkozások.

A PageRank alapelve tehát, hogy egy adott dokumentum rangját azok a dokumentumok adják, melyek reá hivatkoznak. A hivatkozó oldalak rangját szintén a rájuk hivatkozó további oldalak adják, és így tovább. Ennélfogva egy weblap PR értékét mindig rekurzív módon a többi weblap Page Rank értéke határozza meg. Mivel - ha marginális mértékben és rendkívül sok áttétellel is - minden weblap PR rangja befolyással van a többi weblap rangsorolására, ezért végsősoron a PageRank kiszámítása elméletben az egész Látható web linkstruktúrájának vizsgálatán alapul. Annak ellenére, hogy ez a megközelítés rendkívül összetettnek és bonyolultnak tűnik, Page és Brin képes volt arra, hogy egy relatíve triviális számítási módszerrel, egy közelítéssel a gyakorlatban is kiszámíthatóvá tegye a weboldalak PR értékét.

Az egyszerűbb PageRank algoritmus

Az eredeti PageRank algoritmus -mint ahogy azt Lawrence Page és Sergey Brin számos publikációban leírta- a következő:

  PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

ahol

A képletből először is kitűnik, hogy a PageRank nem teljes webhelyeket rangsorol, hanem egy adott webhely minden egyes weblapjára külön-külön kell kiszámolni. Továbbá az A weboldal PR értékét rekurzív módon az A lapra hivatkozó weblapok saját PageRank értéke határozza meg.

Az A weblapra linkelő Ti weblapok nem egyformán befolyásolják az A weblap PR értékét. A hivatkozó T oldal Page Rank értéke mindig súlyozott: elosztásra kerül a T oldalról kiinduló összes link számával. Ez azt jelenti, hogy a minél több weblapot linkel meg a hivatkozó T oldal, annál kisebb mértékben növeli a hivatkozott weblapok PR értékét.

A hivatkozó Ti oldalak súlyozott Page Rank értékei összeadásra kerülnek. Ennek eredményeképpen az A weblapra mutató új link megjelenése esetén mindig nőni fog az A lap PR értéke.

Végül a hivatkozó oldalak súlyozott PageRank értéke felszorzásra kerül egy speciális tényezővel, melynek értéke 0 és 1 közé eshet. Ezzel a tényezővel lehet csökkenteni a hivatkozó oldalak által a hivatkozott oldalnak átadott PR értéket.

A véletlenszerűen Szörfölő felhasználó modellje

Lawrence Page és Sergey Brin publikációikban nagyon egyszerű és érzékletes indoklását adták a PageRank algoritmusnak (The Random Surfer Model). A Page Rank algoritmus működését ahhoz hasonlították, mint amikor az interneten Szörfölő felhasználó a hivatkozott tartalom figyelembevétele nélkül, véletlenszerűen klikkelget az egyes linkekre.

A találomra klikkelgető internetező egy adott oldalra meghatározott valószínűséggel jut el, és ez a weblap PageRank értékével függ össze. Annak a valószínűsége, hogy a szörfölő egy adott linkre klikkeljen, az oldalon található linkek számától függ. Ezért van az, hogy a hivatkozó oldal Page Rank értékét nem adja át teljes egészében egy hivatkozott oldalnak, hanem elosztásra kerül a hivatkozó oldalon található összes hivatkozás számával.

Tehát annak a valószínűsége, hogy a találomra Szörfölő felhasználó eljut egy oldalra, az az adott weblaphoz vezető összes leheteséges útvonal választásának valószínűségével egyezik. Ezt a valószínűséget csökkenti a d tényező. A véletlenszerű szörfölés elmélete szerint a d csökkentő tényező használatát az indokolja, hogy az interneten szörfölő felhasználó nem fog a végtelenségig szisztematikusan követni a linkeket, hanem olykor megunja azt, amit olvas, és ki nem számítható módon teljesen máshol kezdi újra a böngészést.

Annak a valószínűségét, hogy a véletlenszerűen klikkelgető felhasználó nem fogja abbahagyni az adott linkek követését, a d tényező segítségével fejezik ki, mely a valószínűség fokától függően egytől nulláig terjedő értéket vehet fel. Minél nagyobb a d tényező, annál valószínűbb, hogy a találomra klikkelő felhasználó kövesse az oldalon található linkeket. A szörföző -miután abbahagyta az adott linkek követését- teljesen véletlenszerűen ugrik egy másik lapra. Ennek a valószínűsége egy állandóként került bevezetésre a képletben: (1-d). Mivel a Bejövő linkektől függetlenül mindig (1-d) a valószínűsége annak, hogy e találomra szörföző egyszercsak az általa követett linkhálózattal közvetlenül összefüggésben nem álló, távolabbi oldalra ugorjon, ezért egy weboldal mindig rendelkezik egy minimális PageRank értékkel.

A komplexebb PageRank algoritmus

Lawrence Page és Sergey Brin két különböző képletet publikált a különböző publikációkban. A PageRank algoritmusának második verziója szerint az A oldal Page Rank értéke az alábbiak alapján számolható:

  PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Ahol N a weben található összes weblap számának felel meg. Ez a második verzió alapvetően nem különbözik az első, egyszerűbb verziótól. Ebben a verzióban egy weblap Page Rank értéke annak a valószínűségével egyenlő, mintha a találomra kattingató szörföző a weben található oldalak számával meegyező alkalommal kezdené véletlenszerű új helyről a szörfözést. Ha az egyész weben 100 weblap lenne, akkor átlagban kétszer jutna el egy 2-es PR értékű oldalra, ha száz alkalommal kezdené újra a klikkelgetést.

A PageRank tulajdonképpen egy valószínűségi eloszlást határoz meg a weboldalakon, ezért az összes oldal PR értéke átlagosan 1 lesz. A PR érték a normalizált link-mátrix legnagyobb sajátértékéhez tartozó sajátvektornak felel meg, a megfelelő iteratív algoritmussal relatíve gyorsan kiszámolható.

A következő példákban az első, egyszerűbb változatát fogjuk használni a képletnek. A PR érték kiszámítása így egyszerűűbb, nincsen szükség hozzá a weben található összes weblap számának (N) ismeretére.

A PageRank jellemzői

A Page Rank eloszlásának jellemzőit az alábbi példával lehet jól szemléltetni:

Három összelinkelt lapból álló példa

Vegyünk egy kis hálózatot, ami három lapból áll: A, B és C lapokból; ahol az A hivatkozik a B és C oldalakra, B linkeli a C oldalt és a C-ből link mutat az A oldalra. Bár Page és Brin szerint a d tényező legjobb tapasztalati értéke 0,85, a számítás egyszerűsítése miatt példánkban 0,5-nek vesszük, ugyanis bár a d tényező értéke hatással van a Page Rank értékek karakterisztikájára, azonban nincs befolyással az alapelvekre. Ezek alapján tehát a következő egyenletek írhatóak fel a PR értékek számításához:

  PR(A) = 0.5 + 0.5 PR(C) 
  PR(B) = 0.5 + 0.5 (PR(A) / 2)
  PR(C) = 0.5 + 0.5 (PR(A) / 2 + PR(B))

A fenti egyenletek egyszerűen megoldhatóak; a következő eredményeket kapjuk az egyes lapok PR értékére:

  PR(A) = 14/13 = 1.07692308
  PR(B) = 10/13 = 0.76923077
  PR(C) = 15/13 = 1.15384615

Nyilvánvaló, hogy az összes lap PR értéke három lesz, tehát egyenlő a rendszer lapjai számának összegével. Mint ahogy a fentiekből kitűnik, ez nem egy speciális eset, mely csak erre az egyszerű példára igaz.

Ebben az egyszerű három lapos példában egyszerű volt megoldani a szükséges egyenleteket a PR értékek meghatározásához. A gyakorlatban azonban weblapok milliárdjaiból álló rendszerekre kell megoldást találni, ami a fenti módszerrel értelemszerűen lehetetlen.

A Page Rank közelítéses számolása

A web mérete miatt a Google kereső motorja egy közelítő, iteratív számítási módszerrel határozza meg a PageRank értékeket. Ez a gyakorlatban azt jelenti, hogy minden egyes oldalhoz hozzá van rendelve egy kiindulási érték, és az összes weblap végleges PageRank értéke számos számítási ciklusban, a Page Rank algoritmus felhasználásával kerül meghatározásra. Ezt a közelítéses eljárást a fenti példával is be lehet mutatni: ha mindhárom lap kezdeti PR értékét egynek vesszük, akkor a közelítéses számítási ciklusok eredményei az alábbiak lesznek:

  Közelítés  PR(A)       PR(B)       PR(C)
  0          1           1           1
  1          1           0.75        1.125
  2          1.0625      0.765625    1.1484375
  3          1.07421875  0.76855469  1.15283203
  4          1.07641602  0.76910400  1.15365601
  5          1.07682800  0.76920700  1.15381050
  6          1.07690525  0.76922631  1.15383947
  7          1.07691973  0.76922993  1.15384490
  8          1.07692245  0.76923061  1.15384592
  9          1.07692296  0.76923074  1.15384611
  10         1.07692305  0.76923076  1.15384615
  11         1.07692307  0.76923077  1.15384615
  12         1.07692308  0.76923077  1.15384615

Jól látszik, hogy néhány ciklus után már relatíve jó megközelítéssel meg lehet állapítani a PR értékeket. Page és Brin publikációi szerint körülbelül száz iterációs ciklus szükséges az egész weben található összes weblap PR értékének jó közelítéssel történő meghatározásához.

Az összes oldal PageRank-jának összege a közelítéses számítás felhasználásával is a weben található oldalak számához konvergál, tehát az átlagos PR érték 1 lesz. A legkisebb PR értéket a (1-d) határozza meg, míg a maximális PR érték dN+(1-d) lesz, ahol N az összes létező weblap száma. Egy weblap elméletileg akkor érheti el a maximális PR értéket, ha a minden weblapról mutat rá link és erről az oldalról nem mutat link semmilyen weblapra sem.

A Google szabadszavas kereső PageRank implementációja

A Page Rank gyakorlatba ültetése szempontjából az a legérdekesebb, miképpen befolyásolja végsősoron a weboldalak rangsorolásának összetett mechanizmusát. Eredetileg a Google az alábbi három tényező alapján rangsorolta a weblapokat:

Az oldalspecifikus tényezők közé tartozik a Szövegtörzs mellett például a TITLE elem vagy az Elérési útvonal is. Több, mint valószínű, hogy Page és Brin eredeti publikációnak megjelenése óta még számtalan egyéb tényezőt vesznek figyelembe a rangsoroláskor, de ez a jelen cikknek nem témája.

A keresési eredmények előállítása érdekében a Google egy úgynevezett [IR érték]?et generál az oldalspecifikus tényezők és a bejövő Linkre rakott kulcsszavak elemzésével, amit tovább súlyoz, aszerint, hogy a kifejezés hol fordul elő az oldalon (pl. hogy milyen távol van az oldal elejétől), illetve, hogy a kifejezés mennyire hangsúlyos helyén található az oldalnak. Így kerül meghatározásra, hogy egy Kereső-kifejezéssel kapcsolatban egy adott dokumentum mennyire releváns.

Eztán az [IR-érték]?et kombinálásra kerül az oldal PageRank értékével, amely szemben az IR értékkel egy általános, az adott kereséstől független fontosságot jelez. Nyilvánvaló, hogy a két érték nem összeadódik, hanem összeszorzódik, máskülönben nagy PR értékű oldalak akkor is előkelő helyeket foglalhatnának el a Találati rangsorokban, ha a keresett kifejezéshez semmi közük se lenne.

Különösen a két vagy több szóból álló Kereső-kifejezések esetén a tartalomfüggő, oldalspecifikus rangsorolási kritériumoknak sokkal nagyobb szerepe lesz, míg a Page Rank hatása elsősorban a kevésbé specifikus, egy szóból álló keresések esetén szembeötlő. Ha a webmesterek több szóból álló kifejezésekre optimizálják olalukat, akkor a klasszikus Keresőoptimalizálás eszközeivel a nagy PR értékű oldalaknál jobb helyezéseket érhetnek el.

Ha a webhelyet olyan kifejezésekre kell optimalizálni, melyekkel kapcsolatban sok a vetélytárs, tehát nagy a versengés, akkor a jó helyezések eléréséhez elengedhetetlen a magas PageRank érték, még akkor is, ha egyébként a kereső-optimalizálás mércéi szerint az oldal maga kiválóan optimalizált. Az [IR érték]? ráadásul csökken, ha a kifejezés túl sokszor fordul elő az oldalon (túl nagy a Kulcsszósűrűség), vagy túl sokszor szerepel a Linkre rakott kulcsszavak között; kiköszöbölendő a túlzott szóismétlésekkel operáló Web spammelést. A fentiek miatt a klasszikus Keresőoptimalizálás lehetőségei behatároltak, és a kompetitív témakörökkel kapcsolatos optimalizálásnál egyre inkább a PageRank érték válik a meghatározó tényezővé.

A PageRank kijelzése a [Google Eszköztár]?on

A különböző Toolbar Pagerank értékek kijelzése

A PageRank széles körű ismertséget a [Google Eszköztár]? (Google Toolbar) által nyert, mely automatikusan megjeleníti a weblapok PR értékét grafikus formában. A Google Eszköztár egy kiegészítő (plug-in) a Microsoft Internet Explorer-hez, mely a http://toolbar.google.com/intl/hu/ oldalról tölthető le, magyar nyelven is. Segítségével kényelmesebben lehet keresni, illetve élni a Google különböző szolgáltatásaval.

A Google Eszköztár a PageRank értékeket egy egytől tízig terjedő skálán jeleníti meg. Első látásra a zöld csík hossza alapján lehet megmondani az oldal PR értékét, de ha az egérrel a kijelzett érték fölé megyünk, akkor számokkal is megjelenik a PR érték.

Figyelem: A PageRank kijelzése a haladó szintű szolgáltatások közé tartozik, és ha ezek a szolgáltatások engedélyezve vannak, akkor a Google adatokat gyűjthet a felhasználói szokásokról. Emellett az eszköztár magától frissül, ha új verzió jelenik meg, anélkül, hogy a felhasználót erről értesítené: végső soron tehát hozzáférése van a felhasználó merevlemezéhez.

Ha figyelembe vesszük, hogy a PageRank maximális értéke elméletileg dN+(1-d) lehet, ahol N az összes létező weblap száma, a d értéke pedig általában 0,85, akkor nyilvánvaló, hogy a kijelzett PR értéktartományok nem a számított PR értékeket mutatják, hanem azzal valamilyen arányban állnak. Általános nézet szerint az arányosítás nem lineáris, hanem logaritmikus. Ha a d tényező 0,85 akkor a legkisebb PR érték 0,15, a logaritmus alapját pedig 6-nak véve, a következő felosztást kapjuk:

  Eszköztár PR     Valós PageRank
  0/10           0.15 -         0.9
  1/10           0.9  -         5.4
  2/10           5.4  -        32.4
  3/10          32.4  -       194.4
  4/10         194.4  -     1,166.4
  5/10       1,166.4  -     6,998.4
  6/10       6,998.4  -    41,990.4
  7/10      41,990.4  -   251,942.4
  8/10     251,942.4  - 1,511,654.4
  9/10   1,511,654.4  - 9,069,926.4
  10/10  9,069,926.4  - 0.85 × N + 0.15

Nem teljesen biztos, hogy a logaritmikus felosztás szigorú matematikai értelemben történik. Minden bizonnyal a tartományok felosztása egy logaritmikus sémát követ, azonban pontos határait önkényesen választják meg, ezzel befolyásolva, hogy hány weblap esik az egyes Eszköztár Page Rank tartományokba. A logaritmus alapja ebben a sémában valószínűleg 6 és 7 közé esik, ami durva közelítéssel abból vezethető le, hogy a Google link: Speciális kereső-kifejezésre a nagy Page Rank értékű oldalak esetén hány 4-es Eszköztár PR értéknél nagyobbal bíró hivatkozó oldalt jelez ki. (Régebben elmondható volt, hogy a 4-nél nagyobb PR értékű hivatkozó oldalakat jelzi ki a Google szabadszavas kereső a link: kifejezés használatakor, manapság azonban már nem működik ennyire megbízhatóan ez a speciális kifejezés.)

Page Rank kijelzése a [Google Könyvtár]?ban

Google Címtár PageRank értékek megjelenítése

A [Google Könyvtár]? is kijelzi a benne szereplő oldalak PageRank értékét. A [Google Eszköztár]?ban alkalmazott tízes skálával ellentétben egy egytől hétig terjedő skálán jeleníti meg a PR értékeket, az eszköztárhoz hasonlóan egyszerű grafikai elemmel, egy zöld csíkkal jelezve. A PR értéket számmal nem jelzi ki akkor sem, ha grafika felé megyünk az egérrel, --mint ahogy azt az eszköztárnál megszoktuk-- ezért legfeljebb az oldal forráskódjából lehet rájönni a számra, vagy érzésből, tapasztalatból.

Az Eszköztár PageRank és a Könyvtár PageRank összevetésével pontosabban meg lehet állapítani egy adott weblap PR értékét, feltéve persze, hogy az adott lap szerepel az Open Directory Projectben. (Ezt a kapcsolatot először Chris Raimondi írta le először: http://www.searchnerd.com/pagerank/ ).

Directory és Toolbar PageRank összehasonlítása

Különösen az 5-ös és a 6-os Eszköztár Page Rank értékű lapok esetén becsülhető meg nagyobb pontossággal, hogy az adott weblap az ötös vagy a hatos tartomány alsó vagy felső részén helyezkedik-e el. Említést érdemel továbbá, hogy a fenti megfeleltetésnél a 0-ás PR érték nem lett figyelembe véve: ennek helyénvalósága egyszerűen leellenőrizhető a hármas Eszköztár PageRank értékű weblapok segítségével.

A Bejövő linkek hatása

Az előzőekben már bemutatásra került, hogy minden egyes Bejövő link növeli a hivatkozott weblap PR értékét. Mindez a PageRank képletéből a következőkép vezethető le :

  PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

A fenti képlet alapján egy X weblapról bejövő további hivatkozás az A weblap PR értékét :

  d × PR(X) / C(X)

szerint növeli, ahol a PR(X) az X weblap PageRank értékének felel meg, míg a C(X) pedig az X lapon található linkek számának. Mitöbb az A weblapon magán is találhatóak linkek, melyek továbbítják X weblap által átadott PR érték egy részét a linkek által hivatkozott weblapokra. Ha ezek a lapok visszalinkelnek az A lapra, akkor az A oldal még jobban részesül az X lap PR növelő hatásából.

A Bejövő linkek közvetlen hatásai az alábbi egyszerű példával mutathatóak be:

példa a bejövő linkek PageRank növelő hatására

Vegyünk először egy képzeletbeli webhelyet, melynek három weblapja van: A, B, C, és D; melyek körkörösen hivatkoznak egymásra. Bejövő linkek nélkül nyilvánvalóan minden oldal Page Rank értéke 1 lesz. Adjunk hozzá a rendszerhez egy új, PR 10-es értékkel bíró weblapot (X), melyről egyedül az A oldara mutat hivatkozás. A d kisebbítő tényezőt 0,5-nek véve a következő egyenleteket lehet felírni a fenti hálózatra:

  PR(A) = 0.5 + 0.5 (PR(X) + PR(D)) = 5.5 + 0.5 PR(D)
  PR(B) = 0.5 + 0.5 PR(A)
  PR(C) = 0.5 + 0.5 PR(B)
  PR(D) = 0.5 + 0.5 PR(C)

Mivel a kimenő linkek száma minden weblap esetén 1, ezért nem szükséges számolni velük. Az egyenletek megoldása után a következő Page Rank értékeket kapjuk:

  PR(A) = 19/3 = 6.33
  PR(B) = 11/3 = 3.67
  PR(C) = 7/3 = 2.33
  PR(D) = 5/3 = 1.67

A fenti példa alapján megfigyelhető volt a A weblaphoz hozzáadott új bevövő link közvetlen hatása, mely a :

  d × PR(X) / C(X) = 0,5 × 10 / 1 = 5

egyenlettel írható le: A képzeletbeli webhelyünk lapjainak összesített PR értéke 5-tel nőtt a 10-es PR értékű weblapról mutató egyedülálló hivatkozás által, 0,5-ös d tényező mellett.

A d csökkentő tényező hatása

A PageRank értékek továbbterjedésének mértékét elsősorban a d csökkentő tényező határozza meg. Ha a d értékét 0,75-nek vesszük, akkor a fenti példára a következő egyenleteket írhatjuk fel:

  PR(A) = 0.25 + 0.75 (PR(X) + PR(D)) = 7.75 + 0.75 PR(D)
  PR(B) = 0.25 + 0.75 PR(A)
  PR(C) = 0.25 + 0.75 PR(B)
  PR(D) = 0.25 + 0.75 PR(C)

Megoldásuk után a következő Page Rank értékeket kapjuk:

  PR(A) = 419/35 = 11.97
  PR(B) = 323/35 = 9.23
  PR(C) = 251/35 = 7.17
  PR(D) = 197/35 = 5.63

Szembetűnő, hogy mennyivel jobban nő az A weblap PR értéke, mely az alábbi egyenlettel számolható ki :

  d × PR(X) / C(X) = 0.75 × 10 / 1 = 7.5

Ez a kezdeti, közvetlen hatás azonban még nagyobb mértékben terjed tova képzeletbeli webhelyünk linkjei által. Az A weblap PageRank értéke majdnem kétszer nagyobb lesz a 0,75-ös csökkentő tényező használatával, mintha a 0,5-ös d tényezővel számoltunk volna. A 0,5-ös d érték esetén az A weblap PR értéke majdnem négyszer nagyobb, mint a D lapé, míg a 0,75-ös d érték alkalmazásával csak alig több, mint kétszerese. Tehát minél nagyobb a d csökkentő tényező, egy újonnan hozzáadott Bejövő linknek annál jelentékenyebb közvetlen hatása van a hivatkozott weblapra, továbbá annál egyenletesebben oszlik meg az így átadott PR érték a hivatkozott webhely lapjai között.

Egy újonnan hozzáadott link hatása a gyakorlatban

A d csökkentő tényező 0,5-ös értéke mellett képzeletbeli zárt webhelyünk összegzett PageRank értéke az alábbiak szerint alakul:

  PR(A) + PR(B) + PR(C) + PR(D) = 14

Ennél fogva a példában szereplő webhelyet meghivatkozó PR 10-es értékű oldal linkje hatására a webhely oldalainak kumulált PR értéke tízzel nőtt. (A külső link hozzáadása előtt minden lap PR értéke 1 volt.) A csökkentő tényezőt 0,75-nek véve az alábbi összegzett Page Rank értéket kapjuk:

  PR(A) + PR(B) + PR(C) + PR(D) = 34

Ezúttal harminccal nőtt az összesített PR érték. Egy webhely összegzett PR értékének növekedése tehát az alábbi kifejezéssel írható le:

  (d / (1-d)) × (PR(X) / C(X))

Ahol X az újonnan hozzáadott külső hivatkozó weblapot jelenti, a PR(X) a lap Page Rank értékét, a C(X) pedig az X oldalról kiinduló összes link számát. Ez a képlet csak akkor érvényes, ha a kérdéses új hivatkozást egy zárt webhelyhez adjuk hozzá: tehát egy olyan oldalhálózathoz, ahhonan nem mutat kifelé egyetlen link sem az internet többi része felé (tehát "zsákutca"). Amennyiben a webhelyről más webhelyekre is mutatnak hivatkozások, akkor az új hivatkozó oldal által generált PR többletet továbbítódik a kimenő linkek szerint, tehát a PR növekedés egy része tovaterjed más weboldalakra is, csökkentve a hivatkozás hatását a hivatkozott webhelyre.

A fenti tétel igazolása Raph Levientől származik, és a Találomra Szörfőző Modellen alapul. Ha a véletlenszerűen böngésző felhasználó egy zárt webhelyre mutató linket követ, akkor átlagosan (d/(1-d)) oldalt látogat meg azon a zárt webhelyen. Így a hivatkozó oldalnak ez a sokkal nagyobb PR értéke -elosztva a lapon található összes linkkel- oszlik el ebben a weblapok e zárt rendszerében.

A Google kifejlesztésénél Lawrence Page és Sergey Brin a d csökkentő tényezőt tapasztalati alapon 0,85-nek vette. Ezzel a tapasztalati értékkel számolva egy zárt webhely összesített Page Rank növekedése még a fenti példáknál is nagyobb mértékű lehet:

  (0.85 / 0.15) × (PR(X) / C(X)) = 5.67 × (PR(X) / C(X))

A PageRank-1 szabály

A [Google Eszköztár]? felhasználóinak gyakran feltűnik, hogy egy bizonyos Eszköztár PageRank értékkel bíró weblapokra eggyel nagyobb Eszköztár PR értékű weblapok hivatkoznak. Néhányan emiatt kétségbe vonják az itt bemutatott Page Rank algoritmus érvényességét a Google által gyakorlatban alkalmazott rangsorolássi metódussal kapcsolatban. Könnyen bebizonyítható, hogy a Pagerank-1 szabály összhangban van az PageRank algoritmusával.

Alapjában véve a PageRank-1 szabály összhangban van a PageRank alapelvével. Egy weblap akkor számít fontosnak, ha fontos weblapok hivatkoznak rá. Nem szükséges azonban, hogy sok Bejövő link mutasson az oldalra: egyetlen, nagy PR értékű lapról mutató link már elégséges.

A Pagerank-1 szabály és a Page Rank algoritmus összefüggéseinek megértéséhez számos egyéb tényezőt kell figyelembe venni: Először is az Eszköztárban a PR értékek megjelenítése logaritmikus skála alapján történik. Ha egy adott weblap Eszköztár PR értéke eggyel nagyobb egy másik weblapnál, akkor a valós PR értékek különbsége a logaritmus alapjának megfelelően ennek többszöröse: Ha a logaritmus alapját hatnak vesszük, és a hivatkozó weblap Eszköztár PR értéke 5-tel egyenlő, akkor a valós PageRank értéke akár legalább hatszorosa lehet a 4-es Eszköztár PR értékkel bíró, a hivatkozást fogadó oldalnak.

Mindazonáltal a hivatkozó oldalon található kimenő linkek száma befolyásolja a logaritmikus hatást, mert az átadott PR érték az összes kimenő link között egyenlő arányban oszlik el. Bizonyításra került már továbbá, hogy a valós PageRank értéknövekedés magasabb, mint ami egyenesen következne az algoritmus d(PR(Ti)/C(Ti)) kifejezéséből, mert a növekmény eloszlik a webhely további weblapjain: gyakran előfordul, hogy ezek a lapok is visszahivatkoznak arra a weblapra, melyre eredetileg mutatott a Bejövő link, ezzel tovább növelve a weblap Page Rank értékét. Ha magas csökkentő tényező mellett feltételezzük, hogy a PageRank értékek logaritmikus felosztásának alapja 6, és a weblapnak kétszer akkora PageRank növekmény kerül átadásra mint a hivatkozó weblap PR értéke arányosan csökkentve a kimenő linkjeinek számával, a hivatkozó oldalnak legalább 12 kimenő linkje kell hogy legyen ahhoz, hogy mindeközben a hivatkozott lap Toolbar PageRank értéke legfeljebb eggyel kisebb maradjon, mint a hivatkozó weblap Eszköztár PageRank értéke.

Belátható, hogy a feltételezett 12 kimenő link a valóságban alacsony értéknek számít. Általában egy oldalra nemcsak egy külső hivatkozás mutat, így valószínű, hogy más hivatkozások is továbbítanak PageRank értéknövekményt a weblapnak. Az olyan példák esetén, ahol valóban csak egyetlen hivatkozás mutat egy weblapra, és mind a hivatkozó, mind a hivatkozott oldalra igaz a PageRank-1 szabály annak ellenére, hogy a hivatkozó oldalon sok külső hivatkozás található, akkor ez mindenekelőtt azt jelzi, hogy a hivatkozó oldal valós Page Rank értéke közel van az Eszköztár szerinti besorolás felső határához. A hivatkozó oldal lehet például egy erős 5-ös értékű, míg a hivatkozott oldal gyenge 4-es értékű. E példa szerint a hivatkozó weblapon maximum 72 kimenő hivatkozás is elképzelhető. Ez a szám akár magasabb is lehet, ha a besoroláskor használt logaritmus alapját magasabbnak vesszük.

Folyt. köv.

Szerzői jogi információk:


 

Google

Egyéb kikötés hiányában a weblap felhasználásának feltételeit a Creative Commons Licensz szabályozza. | impresszum