Hoe werkt Pagerank nou eigenlijk

Je zal het bijna niet geloven maar ik krijg nog steeds regelmatig vragen over Pagerank. De meeste vrij simpel maar sommige ook iets ingewikkelder. Om in één keer een antwoord te geven op de meest belangrijke vragen over hoe Pagerank nou precies in elkaar steekt dit artikel waarin onder andere het volgende behandeld wordt:

Wat houd Pagerank in

Pagerank is de naam van het algoritme wat Google gebruikt om de waarde van een pagina te berekenen. Pagerank gaat uit van een soort “democratisch” principe, linkt iemand naar een webpagina dan wordt dit door Google als een stem voor die pagina gezien. Zijn er twee verschillende webpagina’s over hetzelfde onderwerp dan zal diegene met de meeste stemmen (links) boven de andere in de zoekresultaten komen te staan.

Niet democratisch is dat stemmen (links) niet altijd dezelfde waarde hebben. Een links van een pagina die zelf een hoge Pagerank (veel links) heeft is meer waard dan een link van een pagina met een lage Pagerank. Ook is een link van een pagina met maar één of twee links waardevoller dan een link van een pagina met veel links.

Hoe bereken je Pagerank

Een deel van de Pagerank-berekening is door de bedenkers van Google openbaar gemaakt toen ze nog studeerden en staat beschreven in een paper wat te vinden is op de Stanford website. Het bekende deel ziet er als volgt uit:

Formule Pagerank

Dit ziet er waarschijnlijk ingewikkelder uit dan dat het in werkelijkheid is, om te beginnen een verklaring van de karakters:

  • PR(A) – De Pagerank van de pagina die berekend moet worden
  • d – Dempingfactor, wordt later uitgebreider uitgelegd
  • PR(B), PR(C), etc – De Pagerank van de pagina’s die naar A linken
  • L(B), L(C), etc – Het aantal uitgaande links op de pagina’s B, C, enzovoort

In de formule zie je nu terug hoe de Pagerank van een pagina afhankelijk is van de Pagerank van de pagina vanwaar gelinkt wordt en het aantal links op die pagina. Als je alleen het deel tussen de haakjes bekijkt kun je het volgende berekenen: Stel, pagina A heeft een link van pagina B. Pagina B heeft een Pagerank van 5 en 4 uitgaande links. De Pagerank die B doorgeeft naar A is 1,25

De dempingsfactor

d In de berekening staat voor een dempingsfactor, deze wordt in de berekening meegenomen omdat de kans bestaat dat een bezoeker de pagina niet via een link verlaat. Standaard stelde Google de kans op 15% dat een bezoeker de pagina niet via een link zou verlaten wat betekent dat de dempingsfactor 0,85 overblijft. In bovenstaand voorbeeld zou pagina A dan een pagerank van: 1 – 0,85 + 0,85 (5 / 4) = 1,2125 krijgen.

De schaalverdeling van Pagerank

De schaalverdeling van Pagerank is logaritmisch, dat wil zeggen dat 10 links voor een Pagerank van 1 kunnen zorgen maar dat je voor een Pagerank van 2 vervolgens 100 van diezelfde links nodig zult hebben. Om een kleine indruk te geven de volgende grafiek:

Schaalverdeling Pagerank

Om een indruk te geven heb ik verticaal het aantal benodigde links gezet en horizontaal de bijbehorende Pagerank (voorbeeld, dit zijn geen werkelijke cijfers). Om de boel enigszins overzichtelijk te houden gaat de grafiek niet verder dan Pagerank 5. Zou die wel verder gaan dan was de lijn tot Pagerank 5 waarschijnlijk zo goed als horizontaal.

Hoe zit het met Pagerank updates

Eén van de meest gestelde vragen is toch wel: Waarom heeft mijn site geen Pagerank? Dat antwoord is vrij simpel: Die heeft hij wel maar Pagerank zoals wij die kunnen zien met bijvoorbeeld de Google Toolbar is niet real-time. Het berekenen van de juiste Pagerank bij de juiste pagina is een continu proces, echter wordt slechts één keer per periode (meestal 3 maanden) de voor ons zichtbare Pagerank ge-update. Daarnaast kost het ook voor Google een minimale periode om de score van een pagina te kunnen berekenen, tenslotte moeten alle links geanalyseerd worden. In de regel kun je stellen dat het tot maximaal 4½ maand kan duren voordat je Pagerank bij een pagina te zien krijgt.

Hoe intensief het voor Google is om voor alle pagina’s Pagerank te berekenen blijkt wel uit het document van Stanford. Daarin wordt aangegeven dat een standaard computer enkele uren bezig is om de Pagerank van 26 miljoen documenten uit te rekenen. Ondertussen wordt het door Google geindexeerde aantal pagina’s geschat op rond de 80 miljard. Om van al die pagina’s de Pagerank uit te rekenen zijn heel wat computers nodig…

Meer links en toch lagere Pagerank

Deze vraag heeft veel mensen lange tijd bezig gehouden, gelukkig is ook hierop het antwoord heel eenvoudig. Het makkelijkste is om het web in het klein te bekijken. Stel het internet bestaat uit slechts 10 pagina’s die onderling met links verbonden zijn. Wil je voor de eerste keer de Pagerank uitrekenen dan zul je zien dat ze allemaal een Pagerank van 0 hebben, tenslotte heeft nog geen enkele pagina Pagerank en dus kunnen ze dit ook niet doorgeven. Er is dus een waarde nodig om de berekening op gang te krijgen.

Google zegt zelf dat: The sum of all Pagerank will be one. Zou in bovenstaand voorbeeld geen van de 10 pagina’s naar elkaar linken heeft elke pagina dus een Pagerank van 1/10, dit is dus de uitgaanswaarde (initial value). Daarna kan de berekening van start gaan om de werkelijke Pagerank te berekenen.

Hoe gaat mijn Pagerank dan omlaag

Zoals al eerder gezegd is Pagerank zoals wij die zien (een getal tussen 0 en 10) niet de werkelijke Pagerank. Aangezien “The sum of all Pagerank will be one” moet de werkelijke Pagerank een getal tussen 0 en 1 zijn. Ergens in de vergelijking (ik weet niet precies waar) zal de score worden gedeeld door het aantal bij Google bekende webpagina’s.

Dat delen door het aantal webpagina’s is de reden dat Pagerank naar beneden kan gaan terwijl het aantal links is gelijk gebleven of zelfs is toegenomen. Je Pagerank kan alleen stijgen als het aantal links naar je website sneller groeit dan het aantal pagina’s wat bij Google bekend is. Heb je bijvoorbeeld 2000 links en kent Google 40 miljoen pagina’s dan heb je een “score” van: 2000 / 4.000.0000 = 0,00005, heb je 50.000 links maar kent Google 8 miljard pagina’s dan is je score nog maar: 50.000 / 8.000.000.000 = 0,00000625. Een stuk lager dus ook al heb je veel meer links.

Geen links beter voor mijn Pagerank

Helaas, zo makkelijk is het niet. Een pagina zonder uitgaande links wordt gezien als een dood-einde op het web. Een gebruiker heeft dan nog maar één keuze en dat is op een andere manier een nieuwe webpagina vinden. In zo’n geval is het niet te berekenen waar een bezoeker vervolgens naartoe gaat en dus ziet Google dit alsof naar elke andere webpagina gelinkt wordt. In de praktijk betekent dit dat een pagina zonder links dus zelfs meer waarde zal verliezen (en daardoor minder hoog zal scoren).

Wat voor waarde heeft Pagerank nog

Er is vrijwel geen alternatief voor Pagerank en dus zullen de hier genoemde berekeningen voorlopig nog wel het “hart” van Google blijven. Het nadeel is dat Pagerank, bijvoorbeeld door het kopen van links, beïnvloedbaar is. Hierdoor raakt de democratische grondslag van het algoritme in het geding en dus zal Google altijd proberen deze beïnvloedbare factoren teniet te doen. Enerzijds kan dit door filters die externe factoren uit het algoritme houden. Anderzijds zal dit gebeuren door zo nu en dan penalties uit te delen om zo te proberen beïnvloeding minder interessant te maken.

Mocht je naar aanleiding van dit artikel een vraag hebben, stel die dan in het forum. Het forum wordt door de vaste bezoekers van Netters.nl veel vaker bekeken dan dit artikel en dus is de kans veel groter dat je vraag daar beantwoord wordt!