De wekelijkse Google merkwaardigheden

Door Ulco op 16 oktober 2007

Trefwoorden: .

Oké, wekelijks is misschien een beetje overdreven. Het is tenslotte alweer enige tijd geleden dat ik hier een blogje heb geplaatst. Hopelijk gaat dat vanaf nu weer ietsje beter, in ieder geval is er weer wat meer tijd beschikbaar :-)

Google negeert Robots.txt

Iets wat me standaard irriteert bij zoekmachines is het waardeloze gedrag t.o.v. robots.txt bestanden. Je zou ervan uit gaan dat daar vermelde bestanden niet geïndexeerd worden maar dat is onzin. Google toont ze niet maar 99 van de 100 keer valt uit logfiles af te lezen dat ze wel degelijk gecrawled (en geïndexeerd) worden. Helaas gaat zelfs dat niet altijd goed, ondanks de robots.txt van @Home zijn er ruim 200.000 zoekresultaten geïndexeerd…

Zoekresultaten van @Home geindexeerd

Helaas is @Home bepaald niet de enige waarbij het fout gaat, in dit geval is het niet zo’n kwalijke maar wat als het om privacy-gevoelige informatie gaat?

Variatie in de zoekresultaten

Hoeveel posities van de eerste 100 zoekresultaten kan één persoon innemen? Dat dit er best veel zijn bewijst Go2Web met haar plaatsnaam-web.nl domeinen. Voor de zoekopdracht vacature fietsenmaker (don’t ask…) zijn maar liefst 22 resultaten van hun. Allemaal duplicate content verspreid over verschillende domeinnamen die grotendeels wel gewoon op dezelfde server staan.

Als ik dat zie vraag ik me toch af hoe goed Google nou is. Dit zijn toch dingen die vrij makkelijk detecteerbaar zijn, maar waarom doen ze er dan niets mee?

Je kunt een reactie, achterlaten of een trackback van uw eigen site.

11 Reacties op “De wekelijkse Google merkwaardigheden”

  1. Elja

    Lijkt me dat echt privacy gevoelige informatie ook wel wat meer bescherming mee mag krijgen dan alleen een vermelding in de robots.txt. Al vind ik de privacy gevoelige informatie waar het in die richtlijnen van het CPB (mijnprivacy.nl) over gaat soms wat overtrokken..

    Enne, toch wel nieuwsgierig.. Op zoek naar een leuke bijbaan in de wielerij? ;)

    Reageer
  2. Ulco

    Zie trouwens net dat voor Netters exact hetzelfde geldt. Aangezien “Tom” in zijn profiel naar Queromedia linkte voelde ik me genoodzaakt hem eruit te robotsen:

    Tom in Google

    Ook hier wordt het gewoon genegeerd. Bij de feeds gaat het iets beter, daar worden de URLs wel geïndexeerd maar de content niet.

    Lijkt er dus op alsof Google veel moeite heeft met wildcards, overigens gaat het bij Startpagina wél goed. Daar zijn helemaal geen URLs geïndexeerd, maar dat zou natuurlijk ook kunnen komen doordat Google handmatig heeft lopen rotzooien.

    Reageer
  3. MacSeth

    Dit is mij ook opgevallen. Het is bij onze sites ook voorgekomen dat robots.txt volkomen genegeerd werd. Best irritant als je site nog “under construction” is of leeg is… wordt je gelijk minder gecrawled :S

    Reageer
  4. monchito

    vraag me in dat verband dan af of meta=noindex,nofollow dan beter werkt.

    alle theorieen over pagerank flow e.d. mogen dan aangescherpt worden lijkt me

    Reageer
  5. Bert van Heerde

    @ Ulco: Wanneer heb je die robots.txt aangepast voor Netters?

    Misschien hangt het af van het moment waarop robots.txt op een site is gezet / aangepast is. Als dit is gedaan nadat alles geindexeerd was, zal Google waarschijnlijk niet de pagina opnieuw indexeren, maar wel de laatste versie tonen. Anders doen ze idd iets niet goed.

    Een meta-robots noindex, (no)follow is inderdaad de beste oplossing.

    Reageer
  6. Ulco

    Grappig, de datum van indexering is 20 september en volgens de header van de robots.txt is dat ook de datum dat ik die aangepast heb :-)

    Wel toevallig dat de /track uit mijn screenshot vandaag opeens niet meer geïndexeerd is trouwens…

    Reageer
  7. Bert van Heerde

    @ Ulco: dat wordt dus een gevalletje Google Webmaster Central > Tools > Remove URLs ;-)

    Reageer
  8. no1san

    misshien wat off-topic maar ik had gistren het volgende:
    resltaat van mijn keyword in google was 60 ipv 6.600.000.

    Ik heb er een screenprint van heeft iemand dat eerder gezien?
    Dacht toch echt een tijdje dat ik een typefout maakte.

    Reageer
  9. no1san

    mm,
    ik heb het weer.

    google in firefox 33 resutlaten, na f5 47 en 66 resultaten.
    In IE 6.600.000.

    edit:
    gevonden.
    als ik op keyword zoek krijg ik 6.600.000 resultaten.
    Als ik bij geavanceerd 100 per pagina invul dan krijg ik 66 resultaten. 6.600.000 is waarschijnlijk veel dezelfde url :-)

    Reageer
  10. mariusdroppert

    Beste Ulco,

    Vanwaar de mening dat het duplicaat content is?
    Het betreffen resultatenlijsten van verschillende gemeente websites met ieder eigen unieke gemeentelijke fietsensmakers.

    Als mash-up hebben wij vacatures die wij plaatsen met het zoekwoord fietsenmaker. Deze vacatures content kan wel identiek zijn maar maakt de totaal pagina nog niet een duplicaat van elkaar! Dus graag onderbouwing van deze plaatsing/mening.

    Reageer
  11. Buitenmens

    Marius, duplicate content blijft duplicate content, ook als het in een andere context of op een verschillende pagina staat.

    Google is inmiddels slim genoeg om een een groepje specifieke zinnen en zelfs één zin ook op een andere site te herkennen, zeker als het dezelfde IP adressen betreft.

    Verder komen die vacatures van een vacaturesite die natuurlijk net zo vaak door de Googlebot wordt nageplozen. Goede kans dat Google dus donders goed weet waar de content vandaan komt.

    Reageer

Reageer!