Google zoekresultaten als XML

Door Ulco op 27 februari 2007

Bij mijn tooltje om Google’s zoekresultaten als RSS-feed weer te geven kreeg ik wat (terecht) commentaar dat dit niet altijd werkt. Zoals bijvoorbeeld dat van André:

Leuk, alleen Google’s templates veranderen nog wel eens. Als er bijvoorbeeld sitelinks zijn gaat het fout, zoek maar eens op ‘test’ of ‘fujitsu’ ;)

Nou gaf ik in het bericht al aan dat ik hetzelfde normaal anders doe, namelijk met de Google checksum. Ik ging er eigenlijk vanuit dat dit wel ongeveer common knowledge was maar ik heb vandaag geleerd dat dit niet zo is :-)

Het is namelijk best mogelijk om het tooltje zo te bouwen dat je RSS feed altijd werkt. Met behulp van de Google checksum kun je namelijk Google zoekresultaten laten uitspuwen in een XML formaat, dus geen scrapen wat weer betekent dat je de XML daarna in welke vorm dan ook weer kunt geven zonder dat je bang hoeft te zijn dat het niet werkt.

Ik heb net even snel een proof of concept in elkaar gedraaid die waarschijnlijk voor zich spreekt. Wat het doet is m.b.v. de checksum calculatie en “output=xml” de resultaten als XML weergeven. Enfin, ik neem aan dat het voorbeeld voor zich spreekt. Maak hier een RSS-feed van en je hebt betrouwbare feeds die bij elk mogelijk zoekwoord werken!

De features zijn natuurlijk vrij ruim, haal vervang “output=xml” door “features=Rank” en je krijgt pagerank te zien (werkt natuurlijk alleen bij domeinen). Door “num=x” te wijzigen kun je het aantal resultaten varieren en door start=x achter de URL te plakken kun je pagina’s bladeren. Ach ja, eigenlijk kun je op deze manier elke feature uit het Google results protocol gebruiken…

Voor de slimmeriken: Ja het is op deze manier ook mogelijk je eigen Google zoekmachine te bouwen zonder sponsored results. Of nog leuker: met je eigen sponsored Adsense results ;-)

PS. Joost meldde dat, als dit common knowledge was, er wel veel meer tools gebouwd waren met dit trucje als basis. Op zich had ik toen al kunnen weten dat het dan natuurlijk niet zo is… Ach ja, vanaf nu dan maar ;-)


Je kunt een reactie, achterlaten of een trackback van uw eigen site.

2 Reacties op “Google zoekresultaten als XML”

  1. Arjan

    Op zich ziet er heel cool uit, maar wat ik me afvraag: wat is de meerwaarde ervan tov Google alerts, behalve dat je dit nu in je rss reader kan bekijken ipv je gmail?

    Reageer
  2. Ulco

    Nou ja, met deze zijn een heleboel toepassingen mogelijk, je zou er bijvoorbeeld een tool mee kunnen maken om keyword-posities in de zoekresultaten te bepalen. Dat kan ook met de API maar dan heb je een maximaal aantal queries per dag. Je kunt het ook scrapen maar als Google dan iets verandert moet je je script aanpassen.

    Met een “info:www.domein.nl” query krijg je nog meer details, RK zou zo bijvoorbeeld staan voor een waarde die de relevantie t.o.v. de zoekopdracht aangeeft (alternatieve pagerank?). geeft aan in welke taal Google denkt dat een pagina is.

    Probeer je dat laatste bijvoorbeeld met “info:www.nu.nl” dan zie je bijvoorbeeld dat Google denkt dat nu.nl in het Engels is, hetzelfde geldt voor “info:www.marketingfacts.nl”.

    Dat zijn natuurlijk dingen waar je op kunt anticiperen want je kunt er de donder op zeggen dat een site niet maximaal scoort in Nederland op het moment dat een zoekmachine denkt dat hij in het Engels is…

    Reageer

Reageer!