Naar aanleiding van mijn serie’tje Pagerank artikelen van vorige week zat ik te denken: Als N (aantal geindexeerde pagina’s) een factor is in het algoritme. Is het dan ook mogelijk om N uit te rekenen? Oftewel: Kun je het aantal door Google geindexeerde pagina’s berekenen?
Hoe daar ben ik nog niet helemaal uit maar theoretisch gezien moet dit te doen zijn, mits het algoritme nog steeds hetzelfde is voor de zichtbare score van Pagerank. Wat me overigens niet zou verbazen.
Volgens mij is het haalbaar als je maar een steekproef kunt nemen die groot en betrouwbaar genoeg is. Volgens mij zijn er maar een aantal zaken nodig:
Logischerwijs is dit dus baclinks uit Google webmaster tools halen, statische sites nemen zonder DMOZ vermelding en berekenen net na een Pagerank-update.
Eerlijk gezegd vind ik het zo nogal simpel klinken, dus waarschijnlijk mis ik nog het één en ander… Ergens een wiskundige/geintresseerde onder de lezers die ideeën heeft rond dit concept?
Ja, klinkt bijna te logisch wat je daar zegt :-)
Maar hoe ga je achter de log-basis komen? Wil je daar een aardige schatting/berekening van maken zul je toch het aantla pagina’s van google moeten hebben.. En dan hebben we weer 2 onbekenden in de vergelijking..
De log-basis was vroeger wel te berekenen, toen werd het aantal geindexeerde pagina’s nog op de homepage vermeld. Was ongeveer gelijk aan “e” (ongeveer 2,72).
Dat klopt ook nog ongeveer met de top 15 van 1996 uit een oud page rank documentje.
Ik ga er in ieder geval eens mee aan de slag. Ben benieuwd wat voor getallen eruit komen…