Markup, Block-Levels & IP-variatie als toevoeging op Pagerank

Afbeelding PagerankHet algoritme waarmee Google Pagerank berekent werd al in 1998 door de makers van Google bekend gemaakt. Ondertussen is het dus zo’n 9 jaar oud en kan aangenomen worden dat het in die vorm al lang niet meer gebruikt wordt. Behalve dan misschien voor het berekenen van de Pagerank zoals die bijvoorbeeld in de Google-toolbar te zien is.

Toch vormt PageRank nog steeds de basis van het algoritme achter de Google technologie, alleen dan als een onderdeel van een ondertussen veel uitgebreider algoritme. Google zelf zegt hierover het volgende:

PageRank-technologie: PageRank voert een objectieve meting uit om de relevantie van webpagina’s vast te stellen. Hiervoor wordt een vergelijking van 500 miljoen variabelen en meer dan 2 miljard termen uitgevoerd. In plaats van directe koppelingen te tellen, interpreteert Google een koppeling van pagina A naar pagina B als een ‘stem’ van pagina A voor pagina B. Google beoordeelt de relevantie van een pagina door de ontvangen stemmen te tellen.

Aangezien Pagerank zo’n belangrijke factor speelt in zoekmachine optimalisatie is het interessant om te kijken welke factoren dan nog een rol spelen in dit algoritme. Helaas is het exacte algoritme natuurlijk geheim, een goed alternatief is om door Google’s ogen naar de formule te kijken en te onderzoeken hoe het verbeterd zou kunnen worden. Het orginele algoritme zoals het bekend is ziet er als volgt uit:

Vergelijking PageRank

Verbeter de variabelen

Eén van de manieren om een representatievere variant van Pagerank te berekenen is door de waarde van de verschillende variabelen te verbeteren. Neem uit de berekening bijvoorbeeld N; deze staat voor het totaal aantal door Google geïndexeerde pagina’s. Dat is een afhankelijkheid en betekent dat de Pagerank-berekening nauwkeuriger wordt naarmate het aantal geïndexeerde pagina’s toeneemt. Helaas is het ook een factor waar je als website-eigenaar geen invloed op uit kunt oefenen en daarom voor “ons” minder interessant is.

Wel interessant is het om te bekijken hoe Google de waardes van d (dempingsfactor) en PR/L (Pagerank pagina gedeeld door uitgaande links vanaf die pagina) zou kunnen verbeteren. Deze zijn namelijk een stuk makkelijker te beïnvloeden. De hieronder besproken technieken zouden Google kunnen helpen een nauwkeurige Pagerank te berekenen:

IP-variatie

Devaluatie bij sitewide linksDeze factor is van toepassing op het deel van de berekening wat tussen de haakjes staat: De waarde van alle links gedeeld door het aantal uitgaande links per pagina. Een probleem waar Google hiermee tegenaan loopt is zogenaamde Site wide links. In principe is het daarmee mogelijk om een heel hoge Pagerank te halen terwijl zo’n sitewide link eigenlijk maar één stem is.

Eén van de oplossingen die Google hiervoor zou kunnen gebruiken is het filteren op IP-adressen. Hiermee wordt dan elke link aan IP-adres gekoppeld, zijn er veel links vanaf hetzelfde IP-adres dan neemt de waarde voor de ranking relatief gezien af (zie afbeelding).

Hierboven koppel ik bewust de links aan een IP-adres en niet aan bijvoorbeeld een domeinnaam (wat ongetwijfeld ook gebeurd). Er is namelijk nog een bedreiging voor het Pagerank algoritme: Links vanaf meerdere, eigen sites. Een goed voorbeeld hiervan zijn de websites van het IDG (bijvoorbeeld Webwereld). In de footer van die sites wordt naar alle andere uitgaven gelinkt en zo wordt krijgen alle sites hoge Pagerank-waardes.

Om dit op te lossen kan ook gekeken worden naar de IP-adressen. Vaak komt het namelijk voor dat de sites op dezelfde server gehost worden en één IP delen. Zijn er meerdere IP’s in gebruik dan zitten die vaak wel in dezelfde “range”. Uit een patent van Google blijkt dat er in hun geval gekeken wordt naar verschillen in de zogenaamde C-blocks (aa.bb.cc.dd). Zijn de links afkomstig van IP-adressen die hetzelfde zijn of minimaal tot C-block niveau niet verschillen dan zal de waarde van de links wederom afnemen. Dat dit een effectieve maatregel is blijkt uit het IDG-voorbeeld, daar hebben alle sites namelijk IP’s die minimaal tot C-block niveau hetzelfde zijn.

Markup en Block-level link analyse

Een ander zwak punt in het bekende Pagerank-algoritme is de dempingsfactor. Deze factor staat voor de kans dat een bezoeker via een link de pagina verlaat en wordt vaak ingeschat op 0,85 (85 procent). De zwakke plek zit hem in dit geval in het feit dat alle links op een pagina aan elkaar gelijk worden gesteld terwijl dit eigenlijk nooit zo is. Voor dit probleem zijn een heleboel verschillende opties die één ding gemeen hebben: De dempingsfactor moet per link afzonderlijk worden berekend. Hieronder zal ik proberen een tweetal mogelijke oplossingen te beschrijven:

Plaatsing van de link in de markup

Een zoekmachine ziet een pagina niet zoals wij die als gebruikers zien. Daarom oriënteert een zoekmachine zich met behulp van de markup (HTML) van de pagina. Omdat links die hoger op een pagina staan meer kans hebben om aangeklikt te worden (ze staan meer in het zicht van de bezoeker) zal een zoekmachine links die hoger in de broncode staan zwaarder wegen. Denk hierbij aan een Startpagina waar je als bezoeker veel eerder een link bovenaan de pagina zult aanklikken. Deze links staan ook hoger in de HTML van de pagina en zullen door het algoritme dus een hogere dempingsfactor (minder demping) gegeven worden.

Daarnaast kunnen ook de gebruikte HTML-tags iets over een link zeggen. Links die dikgedrukt of scheef staan zullen meer opvallen en dus is de kans groter dat op deze links geklikt wordt. Ook voor deze links zal dus minder demping nodig zijn dan voor “gewone” links. Hetzelfde geldt voor links die in- of direct onder een heading staan. Ook hier is dus relatief gezien minder demping voor nodig.

Block-level Link Analyse

Het standaard Pagerank algoritme gaat uit van “de webpagina” als kleinste factor op het internet. Door de pagina weer op te delen in onafhankelijke blokken kan ook weer per link een nauwkeurigere dempingsfactor berekend worden. De gedachte hierachter is dat bijvoorbeeld bij een verzameling links de kans kleiner is dat een specifieke link wordt aangeklikt dan bijvoorbeeld bij een link in een artikel. De waarde van een “blok” is afhankelijk van onder andere de plaatsing op het scherm, het aantal links in het blok en de positionering ten opzichte van de tekst op de pagina (bekijk voor een uitgebreidere beschrijving van Block-level Links Analysis dit artikel).

Conclusies

Pagerank zoals Google het vroeger hanteerde bestaat niet meer. Dat wil echter niet zeggen dat het niet interessant meer is om het bekende algoritme te bestuderen. Zoekmachine-optimalisatie is, door de vele onbekende factoren, bepaald geen exacte wetenschap. De vraag: Hoe zou ik het doen als ik Google was… is één van de belangrijkste factoren in SEO. Door zelf te kijken hoe een algoritme als Pagerank verbeterd kan worden zijn veel interessante dingen te leren. Des te meer je weet over de werking van een zoekmachine, des te makkelijker wordt het om goede resultaten in die zoekmachine te bereiken.