Zoals je waarschijnlijk weet, is PageRank een numerieke waarde die Google toekent aan webpagina’s, gebaseerd op de inkomende links naar die pagina.
Lees ook de artikelen over PageRank hier op Netters:
- Hoe werkt Pagerank nou eigenlijk
- De wiskunde van de PageRank
- Waarde van een link volgens het PageRank algoritme
De Google oprichters Larry Page (triviant vraag: waar komt de naam PageRank vandaan? ;-) ) en Sergei Brin stellen in hun originele paper dat een webpagina in de index van Google moet zijn opgenomen om PageRank te verzamelen en door te kunnen geven.
Ik vroeg me af of dit vandaag de dag echter nog zo is. In eerste instantie lijkt het logisch dat een webpagina in Google’s index moet staan om PageRank te verzamelen en door te geven aan andere pagina’s.
Google berekend namelijk de PageRank over het totale netwerk aan websites die Google heeft geïndexeerd. Dit betekent dat een niet-geïndexeerde pagina geen PageRank kan vergaren. Of toch wel?
Maar hoe zit het dan met het gebruik van het Robots.txt bestand waarmee je pagina’s uitsluit van indexatie? En de Meta robots tag die je kunt configureren zodat pagina’s niet geïndexeerd worden, maar waarbij wel alle links gevolgd worden (noindex,follow)?
Het leek me leuk om m’n netwerk hierover te raadplegen. Ik gooide de vraag in Twitter en één van de mensen die reageerde was Wiep Knol, linkbuilding expert en collega-blogger hier op Netters:

Daarnaast heb ik de vraag ook gesteld in de LinkedIn SEO groep. Allereerst reageerde diverse mensen ook zoals hierboven (niet in de index? geen PageRank). Maar Marie-Claire Jenkins gaf een heldere en verklarende reactie:

De kern van haar reactie beschrijft goed het nuanceverschil van indexeren en links volgen:
“NoIndex is a request to not show the page in the results. PR still passes. NoFollow, PR doesn’t pass but does accumulate”
Als we Wiep en Marie-Claire moeten geloven, dan wordt onze vraag “Geeft een niet-geïndexeerde pagina PageRank door?” beantwoord met “Ja”. En ik denk dat ze gelijk hebben.
Een webpagina kan om meerdere redenen niet in de index van een zoekmachine staan. Maar men kan nog steeds naar een pagina linken. En daarom kan een niet-geïndexeerde pagina PageRank ontvangen.
Natuurlijk moet de link op de webpagina – die de link plaatst naar de niet-geïndexeerde pagina – wel in Google’s index voorkomen, zodat Google op de niet-geïndexeerde pagina terechtkomt.
Laten we aannemen dat een pagina is geblokkeerd van indexatie middels Robots.txt. Dat betekent dat deze pagina niet in de zoekresultaten veschijnt, maar Google kent wel degelijk de links van en naar deze webpagina. Hierdoor kan Google de pagina meenemen in de PageRank berekeningen en kan de pagina dus PageRank vezamelen en doorgeven.
Hieruit blijkt dat we eigenlijk de definitie van niet-geïndexeerd moeten aanscherpen. Mijn aanzet hiervoor is dit:
“Een pagina heeft een voor Google zichtbare inkomende link nodig om PageRank te vergaren en door te kunnen geven.”
In deze definitie betekent het deel “voor Google zichtbare inkomende link” dat de link geen nofollow bevat of op een andere manier onzichtbaar is voor Google.
Samenvattend: geeft een niet-geïndexeerde pagina PageRank door? Ja! (als de inkomende links zichtbaar en volgbaar zijn voor Google ;-) )
Eduard Blacquière (1981) is werkzaam bij Outrider, waar hij verantwoordelijk is voor SEO. Eduard schrijft daarnaast over zoekmachines en zoekmachinemarketing op zijn eigen blogs EdWords.nl (NL) en EduardBlacquiere.com (EN), op Marketingfacts & DutchCowboys.
Mede na het lezen van de commentaren op de Engelse versie van dit artikel op je eigen blog, zijn denk ik de definities van de termen ‘crawling’ en ‘indexing’ zowel de aanleiding als het antwoord op deze vraag.
Door een meta-tag met ‘noindex’ toe te voegen aan een pagina vertel je zoekmachines dat ze deze niet mogen verwerken in hun index, de database met pagina’s waaruit wordt geput om zoekresultaten samen te stellen. Om deze meta-robots-tag tegen te komen, moet de pagina eerst wel gecrawld worden, waarbij Google dus ook weet welke links er op de pagina staat.
Als pagina’s die niet in de index van Google staan toch PageRank doorgeven aan links die op die pagina staan, geldt het volgende:
Crawling:
Het opvragen van pagina’s en volgen van links op pagina’s, inclusief het berekenen van PageRank voor pagina’s o.b.v. aangetroffen links.
Indexing:
Het verwerken van de door de crawler verzamelde pagina’s door ze toe te voegen aan de index. Hieronder valt niet het berekenen van PageRank.
Heel gek is het dan niet dat pagina’s die niet in de index staan toch PageRank doorgeven. Aangezien het crawlen helemaal gaat over het opvragen van pagina’s en het volgen van links…
Eigenlijk zou je dit moeten testen. Het lijkt me niet onwaarschijnlijk dat andere zoekmachines hier weer anders mee om gaan (sowieso werken deze niet in de letterlijke zin met ‘PageRank’). Wat me trouwens doet denken aan deze post: http://www.mattcutts.com/blog/noindex-test/
Thanks voor je reactie, Sint. Je beschrijft inderdaad duidelijk de verschillen tussen Indexing en Crawling.
Ik verwijs jullie ook graag naar de al lopende discussie, waar interessante reacties en links te vinden zijn:
http://eduardblacquiere.com/non-indexed-page-pass-pagerank/
Simplistisch gezegd heb je bij het crawlen met 2 zaken te maken: eerst worden de links gevolgd en in een “lijst” gezet die daarna door een 2de crawler worden bezocht om de inhoud ervan te indexeren in de “zichtbare” index.
Je hebt dus 2 typen “lijstjes”: index 1 zie je niet, index 2 is de zichtbare weergave.
Het eerste lijstje kan dan wellicht wel informatie als PR doorgeven (ook al zijn die niet zichtbaar in de 2de lijst).
Erg interessant, de vraag is echter sluit Google een pagina met een noindex in zijn geheel uit, of wordt deze wel geïndexeerd maar niet meegenomen in de resultaten. Uit de blog blijkt het laatste het geval, maar waar baseren jullie dit op? Dat wordt uit dit stuk nog niet helemaal duidelijk…
Ik snap het verschil tussen crawlen en indexing. Echter speelt bij de waarde van links de relevantie ook een grote rol. Een noindex zou dus alsnog geïndexeerd moeten worden, ook al staat deze in een robots.txt. In het geval van een meta noindex zou dit nog te begrijpen zijn, maar of het zinvol is een pagina te indexeren die al in een robots.txt wordt uigesloten?
Misschien hadden we dit moeten uitleggen in ons boek :)
Dat doe je met de 3 T’s
testen, testen, testen,
Concreet mijn vraag, zit er nog een verschil tussen een pagina uitgesloten via Robots.txt en een pagina uitgesloten via een meta tag?
De metatag pagina moet namelijk eerst “bekeken” worden voordat de zoekmachine opmerkt dat deze niet geïndexeerd hoeft te worden. Bij een robots.txt zou dit niet het geval moeten zijn. Nu kan ik begrijpen dat bij elke pagina in ieder geval de links bekeken worden, neem aan dat linkteksten dan ook gewoon worden meegenomen?