Ruwweg zijn er drie factoren die een rol spelen binnen SEO: techniek, link building en content. Hoewel op alle drie de gebieden veel in beweging is, lijkt content mij hetgeen de toekomst gaat bepalen. Google is op zoek naar goede content, maar hoe bepaalt Google wat goed is? De laatste jaren zien we Google steeds meer gebruik maken van semantiek. In dit artikel leggen we uit wat semantiek is en hoe je dit kan gebruiken om betere teksten te schrijven.
Als iemand op Google een query doet op ‘Ferrari Enzo’ heeft Google zo de documenten te pakken die hierover gaan. Maar hoe sorteert Google al deze documenten? Stel dat er slechts twee webpagina’s naar voren komen met beiden slechts één zin als content:
Beide zinnen hebben even veel woorden, maar het zal duidelijk zijn dat de eerste zin meer informatie biedt. De eerste zin meldt het bouwjaar van de auto, het land van herkomst en het type auto. De tweede zin biedt slechts twee details waarvan de eerste subjectief en de tweede niet relevant is. Vanwege de grotere volledigheid zal Google het eerste resultaat bovenaan willen tonen. Maar terwijl wij als mensen meteen zien dat het eerste resultaat vollediger is, moet Google dit algoritmisch zien te bepalen. Hoe doet Google dit?
En hier komt semantiek om de hoek kijken. Semantiek is de studie binnen de taalwetenschappen die de betekenis van woorden omschrijft. Dit is het gebied van de taalkundigen. Google is echter geen taalkundige en heeft niks anders dan wiskunde en statistiek. En laten wiskunde en statistiek enerzijds en taal anderzijds nu juist precies tegenover elkaar staan! Google moet dus een manier vinden om via algoritmes woorden te ‘vertalen’. De beste manier om dat te doen is om relaties te leggen tussen verschillende woorden.
Als veel teksten die schrijven over een auto spreken over een trekhaak, zal Google al snel begrijpen dat een trekhaak iets te maken heeft met een auto. Dat de trekhaak aan de achterkant van een auto zit en bedoeld is om andere voertuigen te trekken begrijpt Google echter niet. Wel kan Google een relatie leggen tussen een trekhaak en een aanhanger of een caravan, omdat ook deze woorden vaak op een pagina voorkomen. Dit is Googles simplistische vertaling van het begrijpen van taal.
Als je maar genoeg data hebt (en daar heeft Google niet over te klagen), kun je met deze woordrelaties veel doen. Zo zal Google zien dat er twee groepen woorden veel in combinatie met elkaar voorkomen:
Doordat de woorden ‘aanhanger’ en ‘ aanhangwagen’ in dezelfde relatie staan, is de kans groot dat deze woorden synoniemen van elkaar zijn. Daarnaast zal Google ook gebruik maken van synoniemenwoordenboeken om dit te bevestigen. Op het moment dat Google ‘aanhanger’ en ‘aanhangwagen’ synoniemen van elkaar zijn, kan dit gebruikers van Google helpen. Iemand die zoekt op ‘aanhanger’, zal ook het woord ‘aanhangwagen’ vetgedrukt terug zien komen.
Op het moment dat Google een relatie tussen trekhaak, auto, caravan en aanhanger heeft gevonden, kan Google deze twee zinnen met elkaar vergelijken:
Uiteraard is de eerste zin langer, maar dat is niet wat deze zin completer maakt. Wat completer is, is dat er meer details worden gegeven. Het woord trekhaak wordt namelijk genoemd en dat is precies het woord wat Google eerder heeft geassocieerd met auto, caravan en aanhanger. Om dit te kunnen doen wil Google dus relaties tussen allerlei woorden leggen.
Laten we dit heel simpel uitleggen. Stel er staan 100 pagina’s in de database van Google die gaan over ‘auto’. Er worden ook andere woorden op deze pagina’s gebruikt:
Dit betekent dat ‘trekhaak’ blijkbaar meer gerelateerd is aan ‘auto’ dan ‘aanhanger’ aan ‘auto’. Anders gezegd: het woord ‘trekhaak’ voegt meer informatie toe aan een pagina over een auto dan het woord ‘aanhanger’. Vergelijk nu weer deze twee zinnen:
Beide zinnen over een auto gebruiken het woord ‘caravan’. Zin 1 gebruikt echter het woord ‘trekhaak’, terwijl zin 2 het woord ‘aanhanger’ gebruikt. We hebben net gezegd dat een trekhaak meer toevoegt aan het onderwerp auto dan aanhanger. Dit uitgangspunt maakt zin 1 completer dan zin 2.
De werkelijkheid is complexer dan deze simpele voorbeelden. In het echte leven zal Google niet simpelweg het aantal documenten tellen dat tweetal termen bevat om de relatie tussen deze termen te leggen. Google zal ook kijken naar:
Het wordt nog complexer als je gaat nadenken over polysemie. Polysemie betekent dat een woord of uitdrukking meerdere betekennissen heeft. Zo zal er in een groot deel van de pagina’s over politiek het word ‘weer’ voorkomen. Dit betekent echter niet dat er een relatie is tussen politiek en het weer. ‘weer’ wordt namelijk in dit verband niet gebruikt als omschrijving van de temperatuur en de luchtvochtigheid maar als voegwoord.
Google heeft de rekenkracht om van vele woorden alle gerelateerde woorden te vinden. Google kan vervolgens een document over een bepaald onderwerp op volledigheid analyseren. Hoe meer gerelateerde woorden gebruikt worden, hoe completer het document is. Maar dit werkt ook andersom. Hoe meer woorden ontbreken, hoe incompleter is de informatie. Dit is wat Latent Semantic Indexing of Latent Semantic Analysis doet. Iets is latent als het niet zichtbaar aanwezig is, maar wel aanwezig zou moeten zijn. Zo kun je een latente gave hebben: iets wat al wel in je zit, maar er nog niet is uitgekomen.
Latent Semantic Indexing is dus een indexatie op basis van de ontbrekende, maar semantisch wel passende woorden. Als Google een relatie heeft gelegd tussen trekhaak, auto, caravan en aanhanger is ‘aanhanger’ latent in de eerste zin en ‘trekhaak’ in de tweede zin:
Zoals al gezegd kan Google LSI gebruiken om de kwaliteit van zoekresultaten te bepalen. Welke woorden missen in de resultaten die er eigenlijk wel hadden moeten staan? Daarnaast kan Google via aan LSI gerelateerde technologieën synoniemen herkennen. Tenslotte zijn de verwante zoeksuggesties van Google ook een product van taalonderzoek. Dit is niet alles direct LSI, maar het is wel gerelateerd.
Al jaren lang roepen SEO’ers dat teksten ‘goed’ moeten zijn. Hierbij werd vaak gekeken naar een minimale tekstlengte en het regelmatig laten terugkeren van de keywords in bijvoorbeeld enkele headings. Dit is nog steeds belangrijk, maar ‘goed’ is het niet. Wat pas echt goed is is als je tekst zo volledig mogelijk is. Zoveel mogelijk gerelateerde woorden moeten worden gebruikt. Maar hoe kom je tot deze woorden?
In essentie zou je dan een pagina weer heel makkelijk kunnen spammen door allerlei gerelateerde woorden bij elkaar of in elkaars omgeving te zetten bv:
De Ferrari Enzo Italiaanse sportauto 2002 mooi geen trekhaak. (ik zet er even een paar lidwoorden en wat algemenere woorden in om het een beetje echt te laten lijken).
De zoekmachines moeten dus ook nog eens uitzoeken of grammaticaal het zaakje klopt (of in ieder geval voor een groot deel).
Ik denk zelf dat alleen bij samenwerking tussen mens en algoritme de searches geperfectioneerd kunnen worden.
Mooi uitgebreid artikel en een helder verhaal.
Mijn persoonlijke insteek voor de toekomst is eveneens content, content, content, zonder truken. Je moet wel wat meer geduld hebben, maar daarna zie je vanzelf wel resultaat.
Helaas als je dit verhaal tegen de huidige praktijk aanhoudt, leg je het nog te vaak af tegen een hoop spam en link buyers.
Maar goed, vandaar ook de toekomstinsteek in het verhaal.
Dat LSI hoor ik één keer in de zoveel tijd steeds weer terugkomen maar ik ben er eigenlijk helemaal niet mee eens…
Om een dergelijke semantische index voor het hele web aan te leggen is m.i. bijna onmogelijk. Laat staan om er dan nog eens berekeningen mee uit te gaan voeren. Het lijkt me/is veel meer een techniek om beperkte databases mee te analyseren of eventueel binnen een site clusters te kunnen ontdekken (daar waar woorden niet exact overeenkomen).
Vergelijkbaar, maar toch net anders is de Google Proximity Index of de Google Similarity Distance. Qua berekening zijn die veel compacter – en eigenlijk ook wel logischer.
Mooie documentatie over de Similarity Distance (van het CWI, moet gezegd worden). Check ook even appendix 7 waarin kort staat uit uitgelegd dat LSI op webschaal (zoals Google werkt) eigenlijk niet bruikbaar is.
Verder nog iets moois over het clusteren van de Google Distance. Hiermee kom je alweer wat meer op dezelfde logica als die achter LSI maar op een hele andere werkwijze.
@Seth: Ik stel niet dat LSI de enige techniek is waarop Google content beoordeeld. Spammy teksten (lees in dit verband: slechte grammatica) zullen door Google weggefilterd worden als ze dat algoritmisch gezien goed lukt.
@Ulco: Ik ben het met je eens dat LSI op de hele dataset enorm moeilijk is, maar op subsets kan het prima. Ik heb het in werking gezien en stond werkelijk perplex van de resultaten. Helaas kan ik daar niet meer over vertellen (althans, niet via dit medium…).
Goed artikel, Erik-Jan, complimenten!
@Ulco
Thanks voor de documentatie, ik ga me er eens in verdiepen.
Tovallig kom ik net deze crap-website website tegen waarin het artikel ansich echt geen nuttige content heeft.
Ik vermoed overigens dat dit van origine een engels artikel is geweest en dat deze 1 op 1 vanuit een translate programma is gepost maar het laat wel zien dat nutteloze teksten gewoon worden gevonden :S
Ter additie aan dit mooie discussie wil ik graag toevoegen de onderstaande linkjes:
IR and SEO misnomers
IRWatch May Issue: Demystifying LSI
The Search Engines’ Semantic Analysis Capabilities
En zeker ook:
SEO?s caught out
Dit is denk ik een avondje genoeg leesvoer voor de hongerige SEO ogen.
http://www.google.nl/search?hl=nl&rlz=1B3GGGL_nlNL266NL266&q=Bedrijfsfeest+Amsterdam&btnG=Zoeken&meta=
dit zeg dat wel weer genoeg he!%^*$%
Kent iemand schrijvers die bekend zijn met het LSI principe ?