Latent Semantic Indexing (LSI) is een belangrijk zoekmachine concept die elk Search Engine Optimizer moet begrijpen. In deze post zal ik introductie geven op latent semantic indexing, uitleggen wat LSI is en waarom zoekmachines deze technologie in de nabije toekomst zullen gebruiken.
Boolean Search Beperkingen
Waarschijnlijk ben je al bekend met Boolean search. Een Boolean evaluatie geeft altijd TRUE of FALSE en dit principe kun je toepassen bij zoekmachines. Zodra je zoekt naar keyword dan zal een zoekmachine een Boolean evaluatie uitvoeren en kijken welke documenten keyword bevat (niet helemaal waar, eigenlijk wordt een lookup gedaan naar de inverted file indexes maar voor het gemak gebruik ik dit voorbeeld). Is er een match, dan evalueert de Boolean naar TRUE en heb je een document waarin je keyword in voorkomt. Zo kun je zoeken naar relevante documenten. Immers hebben relevante documenten deze keyword(s) in de content. Is de uitkomst van de Boolean evaluatie FALSE, dan heeft het document niet de zoekterm in haar content.
Dit concept heeft ook een groot nadeel, want nu heb je alleen matches op de betreffende sleutelwoorden. Er zijn meerdere manieren om een concept te omschrijven zonder de betreffende zoekterm te gebruiken. Stel dat iemand zoekt op tweedehands auto. Moeten zoekmachines dan alleen web pagina's weergeven waar de zoekterm terug komt in de content? Nee, want web pagina's die hetzelfde concept beschrijven met andere woorden moeten ook worden weergegeven. De term 'hetzelfde concept' klinkt nogal vaag, maar dat is gewoon een ander term voor synoniemen en relevante woorden.
Om terug te komen op onze concept tweedehands auto, web pagina's kunnen hetzelfde concept beschrijven met woorden als tweedehands automobiel, tweedehands bolide, gebruikt auto, niet nieuw wagen en ga zo maar door. Wat je misschien al opvalt is dat alle termen hetzelfde concept beschrijven als tweedehands auto (tot op zekere hoogte). Wanneer web pagina's deze termen bevatten zonder de zoekterm tweedehands auto, moeten zoekmachines deze resultaten dan ook weergeven? Ja, want zij beschrijven precies hetzelfde concept alleen in andere woorden. Er zijn meerdere wegen die naar Rome leiden en hier komt Latent Semantic Indexing (LSI) in het verhaal voor.
Latent Semantic Indexing
Zoekmachines willen alternatieve beschrijvingen van de betreffende zoektermen ook opnemen in haar zoekresultaten. Niet iedereen gebruikt hetzelfde vocabulair om een concept te beschrijven. Zoekmachines, vooral Google, snappen dit en willen met LSI een zo divers mogelijk resultatenpagina weergeven.
Alternatieve en synoniemen woorden voor tweedehands zijn gebruikt, niet nieuw, gedragen (meer voor kleding) en overgenomen. Niet alle synoniemen kun je gebruiken om hetzelfde concept te beschrijven. Zo kun je tweedehands auto niet vergelijken met gedragen automobiel, omdat gedragen meer van toepassing is op kleding. Hetzelfde geldt voor een bank, dat kan van alles zijn: een financiële instelling, een meubel, of een bestand. Wanneer je wilt refereren naar het betreffende woord/concept dan gebruik je daarvoor de correcte woorden in de context, zo kun je LSI uitbuiten.
Gelukkig snappen zoekmachines dit ook en zij beginnen ook beter de context van content te begrijpen. Google heeft al een vorm van latent semantic indexing ingevoerd. Maar je vraagt je misschien af hoe zoekmachines een context kan begrijpen? Dankzij de grote databases gevuld met miljarden web pagina's kun je 'statistisch' zien welke woorden vaak hand in hand worden gebruikt. Op deze manier kunnen zij woorden vinden die semantisch hetzelfde betekenen.
Wanneer je schrijft over geld en financiële instellingen, dan zal het woord bank ongetwijfeld ergens in terugkomen. Hetzelfde kun je zeggen voor web pagina's die over wagens gaan. Hoogst waarschijnlijk zal in de andere miljarden web pagina's die over wagens gaan het woord auto's ook in terugkomen. Zo kun je verbanden leggen tussen woorden die semantisch hetzelfde betekenen. Het is erg simplistisch uitgelegd, maar zo werkt het ongeveer.
Wat is latent semantic indexing niet? LSI wordt NIET gebruikt voor het bepalen van de thema van je website. Het werkt alleen op de betreffende (web) document, niet op je website. Het wordt dus ook niet gebruikt om te zien in welke 'thema' je website valt en of andere relevante websites (met hetzelfde thema) naar je linken e.d.
Hoe pas je dit toe voor zoekmachine optimalisatie?
Hier wil ik een andere keer uitgebreider op terug komen, maar deze post moet je al een idee geven hoe je LSI in je voordeel kunt gebruiken. Denk aan synoniemen en relevante woorden, mix it up ;-)
Tags:
boolean google latent semantic indexing lsi