Binnen zoekmachine-optimalisatie staat duplicate content bekend als iets “slechts” wat behoorlijk nadelig uit kan pakken voor je zoekmachine-rankings. Kijk je naar de basis van het Pagerank-algoritme dan klopt dit ook: Duplicate content betekent dat de link-value van je site over meer (dezelfde) pagina’s verdeeld moet worden. Het resultaat minder “waarde” per pagina en dus lagere rankings.
Naast het “basis” Pagerank-verhaal gebruikt Google ook nog eens een aantal filters om te voorkomen dat de zoekresultaten helemaal volstromen met dezelfde content. Is een site helemaal gekopieerd of is er veel “interne” duplicate content (dezelfde pagina’s binnen één site) dan kan het zelfs gebeuren dat een site een ban krijgt en helemaal niet meer vindbaar is.

De “truc” van Pagerank zit hem in de 1 – d. De formule is geen Perpeetum Mobile en heeft dus een bepaalde input nodig om op gang te komen én te blijven. Die 1 – d is dus gelijk aan de minimale waarde die een geindexeerde pagina kan hebben. Met andere woorden: Meer Pagina’s betekent meer Pagerank.
Op zich heb je aan het bovenstaande nog niets, je moet er dus nog wat mee doen. Ten eerste is het belangrijk om te zorgen dat de pagina’s niet meer “inkomende” Pagerank hebben dan “uitgaande”. De bedoeling is dus om zoveel mogelijk pagina’s geindexeerd te krijgen en daarvoor zo weinig mogelijk “bestaande” Pagerank te verspillen. Dus weinig inkomende links en veel uitgaande.
Daarnaast betekent het hebben van veel pagina’s dat je vaak, met de juiste anchortext kunt linken naar de wél belangrijke pagina’s.
“Vroeger” was het geen enkel probleem om op een domein en paar 100.000 pagina’s extra geïndexeerd te krijgen. In principe kon je makkelijk een eigen “Pagerank-fabriekje” achter een serieuze website bouwen en zo voor elk willekeurig zoekwoord topposities scoren.
Tegenwoordig is het niet zo makkelijk meer. Google is ook een stuk slimmer geworden in het detecteren en indexeert overduidelijke duplicates of andere waardeloze pagina’s gewoon niet meer. Je zult de zoekmachine dus minimaal het idee moeten geven dat de content voldoende waarde heeft…
Mijn bedoeling bij autogenerated content is het makkelijkst uit te leggen aan de hand van een voorbeeld. Stel: Iemand verhuurt vakantiehuisjes. Hij heeft 5 vakantiehuisjes in 5 verschillende steden. Elk huisje heeft 5 extra boekbare opties, bijvoorbeeld een fiets en een ontbijt. De belangrijkste combinaties om op gevonden te worden zijn: Vakantiehuisje in “Plaatsnaam”.
Normaliter zouden de URL’s van zijn site zo worden:
Echter: In dit geval zijn de optie’s voor hem helemaal niet interessant om op gevonden te worden. Wie zoekt op “fiets” is zelden op zoek naar een vakantiehuisje. Dus gebruiken we die content om extra pagina’s aan te maken. De URL’s worden dan als volgt:
In plaats van 5 optie-pagina’s heeft hij er op deze manier 25, elk van deze pagina’s ondersteunt de pagina voor “Vakantiehuisje in Plaatsnaam” waardoor die pagina’s juist hoger zullen gaan scoren.
Nadeel is wel dat de pagina’s nog steeds identiek zijn en dus op den duur door Google gezien worden als “duplicate content”. Het is echter redelijk makkelijk om ze zogenaamd uniek te maken, door de titels van de pagina’s aan te passen aan de structuur.
Je zou dan bijvoorbeeld krijgen: Optie: Vakantiehuisje met fiets in Plaatsnaam. In de tekst kun je ditzelfde trucje nog een aantal maal herhalen. Theoretisch gezien blijft het duplicate content maar wel zo relevant gemaakt dat ze door een zoekmachine geindexeerd worden.
Duplicate content is a bad thing… Maar dat wil niet zeggen dat je er geen gebruik van kunt maken ;-) Zolang “search” wordt gedicteerd door computers en algoritmen is het een kwestie van de juiste factoren vinden. Pagerank, hoe oud of achterhaald dan ook, kan je nog steeds veel vertellen en is hier een mooi voorbeeld van. Op dezelfde manier is elke factor te simuleren en dus te beïnvloeden.