Duplicate content penalty of filter?

Door Ulco op 31 mei 2007

Trefwoorden: .

Duplicate content stempelAls ik één aspect van SEO mag noemen wat mij irriteert dan zijn het wel de geruchten. Een artikel op een blog is vaak al genoeg om een gerucht als waarheid onder de massa te verspreiden. Op zich logisch want vrijwel niemand weet hoe het echt zit en alles testen is vaak geen optie. Zeker niet als je zelf een blogger bent en niet te veel achter de “feiten” aan wilt lopen.

Duplicate content en dan met name de duplicate content penalty is één van die hardnekkige geruchten. “Duplicate content” zelf kun je op een 20-tal verschillende manieren interpreteren, “penalty” geeft ongeveer 10 verschillende keuzes. Met totaal dan zo’n 2000 verschillende interpretaties zit ik waarschijnlijk niet eens zoveel van de werkelijkheid. En dus wordt het tijd dat ik nog eens een variant tegenaan gooi :-)

Duplicated by url

De meest voorkomende variant van duplicate content is content die door een slechte url-/content strategie veroorzaakt wordt. De belangrijkste oorzaken uitgelegd aan de hand van voorbeelden bij nu.nl & webwereld.nl.

Toegankelijkheid van de website

Webwereld is een goed voorbeeld van een website die via meerdere domeinnamen toegankelijk is, naast het NL-domein is de site namelijk ook bereikbaar via Webwereld.be. Daarnaast is de content van beide domeinen ook bereikbaar op het domein zonder www. Nu.nl heeft “af en toe” hetzelfde probleem met als bijzonderheid dat nu.nl soms wel wordt doorverwezen naar www.nu.nl maar soms ook niet.

Slechte url rewriting

Nu.nl is een goed voorbeeld van een site waar de url-rewriting niet consequent wordt toegepast. Normaal gesproken gebeurt dit in het format: www.nu.nl/news/articleID/categoryID/artikel-naam.html. Echter, de gerelateerde “Zie ook” links direct onder een item worden niet herschreven en linken nog naar de orginele url-structuur met dynamische urls. Hierdoor krijgt vrijwel elk artikel twee urls. Een mogelijk extra probleem voor nu.nl is dat de urls zelf aan te maken zijn waardoor je een artikel wel heel bijzondere urls kunt geven. Link je hiernaar dan levert dit ook weer een dubbele url op.

Urls op basis van referrer

Een andere oorzaak van “duplicate urls” is weer te zien bij Webwereld: Een bezoeker die via de RSS-feed op de site komt krijgt namelijk een andere url voor een artikel te zien als een bezoeker die via de voorpagina naar het artikel gaat. Dit is voornamelijk vervelend aangezien veel links ontstaan door RSS-lezers (en die dus naar de verkeerde url zullen linken). Via de tag-pagina’s kom je zelfs nog op een zoveelste url-variant voor hetzelfde artikel.

Wat is “Duplicate content”?

Duplicate content is wat mij betreft de meer “evil” variant en vaak synoniem voor automatisch gegenereerde content uit bestaande bronnen. De in mijn ogen meest opzichtige en storende variant zijn wel de scrapers. Sites die RSS-feeds, directories of zoekresultaten herpubliceren en waarvan de pagina dus geen enkele toegevoegde waarde heeft ten opzichte van het orgineel.

Een ander voorbeeld van duplicate content komt van Google’s webmaster central weblog: Standaard teksten die over veel pagina’s verpreid worden. Bijvoorbeeld uitgebreide footers/disclaimers of meldingen dat een categorie geen resultaten kent:

A zillion instances of “Below you’ll find a superb list of all the great rental opportunities in [insert cityname]…” with no actual listings.

Duplicate content penalties en filters

Ik zal het maar meteen zeggen: Die penalty, volgens mij bestaat die helemaal niet. Ik noem het in ieder geval liever een filter, ik heb namelijk nog nooit gezien dat een site een ban of een set-back kreeg voor het dupliceren van content. Wat ik wel regelmatig zie is dat de dubbele content van een site langzaam uit de resultaten verdwijnt totdat er vrijwel niets meer is geïndexeerd.

Je kunt je afvragen waarom die pagina’s dan in eerste instantie überhaupt geïndexeerd worden maar daarvoor is eigenlijk een heel logisch antwoord: De content zal eerst in de database moeten zitten voordat deze vergeleken kan worden met andere content uit de database. Worden de duplicaten uiteindelijk gevonden dan zullen deze verdwijnen, waarschijnlijk worden daarnaast de urls gemarkeerd zodat deze niet opnieuw geindexeerd worden.

Blijvende duplicate content

Regelmatig krijg ik de vraag hoe het kan dat sites met overduidelijk duplicate content toch geïndexeerd blijven. 100 Procent zeker weten doe ik dit natuurlijk ook niet maar als ik moet gokken dan denk ik dat het met de links naar de site te maken heeft: Google ziet links als stemmen voor de site, zijn er voldoende links dan is het op zich logisch dat Google de pagina’s ook in de index houdt. Ook bij twijfel over het orgineel is het een logische keuze om beide varianten van een tekst geindexeerd te houden. Google stelt zelf dat het echte orgineel in de meeste gevallen toch hoger in de resultaten zal staan (wat in de praktijk meestal ook zo is) en dus kan het ook niet zoveel kwaad.

Dit “artikel” is grotendeels geschreven als introductie voor een veel leuker onderdeel van duplicate content: Hoe je ervan kunt profiteren. Dat is namelijk ook heel goed mogelijk maar daarover dus later meer…!

Je kunt een reactie, achterlaten of een trackback van uw eigen site.

7 Reacties op “Duplicate content penalty of filter?”

  1. chapter42

    hahaha kuthey. dit verhaal was ik net aan het typen :D

    Reageer
  2. Zolar

    Ben benieuwd. Ik neem aan dat het iets is waarbij je een site opzet die sneller (vaker) wordt gespiderd dan het orgineel, zodat Google jou site als de bron ziet?

    Reageer
  3. Ulco

    “hahaha kuthey. dit verhaal was ik net aan het typen :D”

    En terecht, dat had ik een tijdje terug namelijk bij jou. Staan we nu quitte ;-)

    @Zolar:
    Nope, heel iets anders. Meer geschikt voor ‘serieuze’ websites.

    Reageer
  4. chapter42

    Het is iig een prima stukje geworden, ik weet al wat je gaat vertellen in het andere stukje ;) Ik zal het niet als angle erbij pakken.

    Reageer
  5. aant

    In forums heb je dit probleem ook vaak. Wat ik doe is alle print vriendelijke documenten dmv de robots.txt blokkeren. Daarnaast doe ik dat ook voor de edit pagina, inlogpagina, zoekscherm etc. Om maar te voorkomen dat ik duplicate content krijg. Het voordeel is tweeledig, de googlebot bepaalt van te voren hoeveel pagina’s hij gaat crawlen. Doordat hij niet de dubbele content hoeft te crawlen komt hij vaker op de pagina’s met content. Daardoor worden nieuwere pagina’s eerder gevonden. Het andere voordeel is dat google eerst niet hoeft uit te zoeken welke pagina de echte content bevat. Je weet nu zeker dat de forumpagina wordt geindexeerd en niet de print vriendelijke documenten.

    Reageer
  6. Joost de Valk

    Ik moet zeggen dat ik het niet 100% met je eens ben, ik heb namelijk wel sites die het echt heel bont maakten met duplicate content een langzame dood zien sterven. Dit is dan inderdaad niet door een penalty, maar doordat alle linkequity steeds meer verdeeld raakt en er op een gegeven moment niks meer ranked…

    Reageer
  7. Wenz

    Ik kan dit artikel dus gewoon knippen-plakken :-P

    Reageer

Reageer!