Latent Semantic Indexing Uitgelegd

Latent Semantic Indexing (LSI) is een belangrijk zoekmachine concept die elk Search Engine Optimizer moet begrijpen. In deze post zal ik introductie geven op latent semantic indexing, uitleggen wat LSI is en waarom zoekmachines deze technologie in de nabije toekomst zullen gebruiken.

Boolean Search Beperkingen

Waarschijnlijk ben je al bekend met Boolean search. Een Boolean evaluatie geeft altijd TRUE of FALSE en dit principe kun je toepassen bij zoekmachines. Zodra je zoekt naar keyword dan zal een zoekmachine een Boolean evaluatie uitvoeren en kijken welke documenten keyword bevat (niet helemaal waar, eigenlijk wordt een lookup gedaan naar de inverted file indexes maar voor het gemak gebruik ik dit voorbeeld). Is er een match, dan evalueert de Boolean naar TRUE en heb je een document waarin je keyword in voorkomt. Zo kun je zoeken naar relevante documenten. Immers hebben relevante documenten deze keyword(s) in de content. Is de uitkomst van de Boolean evaluatie FALSE, dan heeft het document niet de zoekterm in haar content.

Dit concept heeft ook een groot nadeel, want nu heb je alleen matches op de betreffende sleutelwoorden. Er zijn meerdere manieren om een concept te omschrijven zonder de betreffende zoekterm te gebruiken. Stel dat iemand zoekt op tweedehands auto. Moeten zoekmachines dan alleen web pagina’s weergeven waar de zoekterm terug komt in de content? Nee, want web pagina’s die hetzelfde concept beschrijven met andere woorden moeten ook worden weergegeven. De term ‘hetzelfde concept’ klinkt nogal vaag, maar dat is gewoon een ander term voor synoniemen en relevante woorden.

Om terug te komen op onze concept tweedehands auto, web pagina’s kunnen hetzelfde concept beschrijven met woorden als tweedehands automobiel, tweedehands bolide, gebruikt auto, niet nieuw wagen en ga zo maar door. Wat je misschien al opvalt is dat alle termen hetzelfde concept beschrijven als tweedehands auto (tot op zekere hoogte). Wanneer web pagina’s deze termen bevatten zonder de zoekterm tweedehands auto, moeten zoekmachines deze resultaten dan ook weergeven? Ja, want zij beschrijven precies hetzelfde concept alleen in andere woorden. Er zijn meerdere wegen die naar Rome leiden en hier komt Latent Semantic Indexing (LSI) in het verhaal voor.

Latent Semantic Indexing

Zoekmachines willen alternatieve beschrijvingen van de betreffende zoektermen ook opnemen in haar zoekresultaten. Niet iedereen gebruikt hetzelfde vocabulair om een concept te beschrijven. Zoekmachines, vooral Google, snappen dit en willen met LSI een zo divers mogelijk resultatenpagina weergeven.

Alternatieve en synoniemen woorden voor tweedehands zijn gebruikt, niet nieuw, gedragen (meer voor kleding) en overgenomen. Niet alle synoniemen kun je gebruiken om hetzelfde concept te beschrijven. Zo kun je tweedehands auto niet vergelijken met gedragen automobiel, omdat gedragen meer van toepassing is op kleding. Hetzelfde geldt voor een bank, dat kan van alles zijn: een financiële instelling, een meubel, of een bestand. Wanneer je wilt refereren naar het betreffende woord/concept dan gebruik je daarvoor de correcte woorden in de context, zo kun je LSI uitbuiten.

Gelukkig snappen zoekmachines dit ook en zij beginnen ook beter de context van content te begrijpen. Google heeft al een vorm van latent semantic indexing ingevoerd. Maar je vraagt je misschien af hoe zoekmachines een context kan begrijpen? Dankzij de grote databases gevuld met miljarden web pagina’s kun je ‘statistisch’ zien welke woorden vaak hand in hand worden gebruikt. Op deze manier kunnen zij woorden vinden die semantisch hetzelfde betekenen.

Wanneer je schrijft over geld en financiële instellingen, dan zal het woord bank ongetwijfeld ergens in terugkomen. Hetzelfde kun je zeggen voor web pagina’s die over wagens gaan. Hoogst waarschijnlijk zal in de andere miljarden web pagina’s die over wagens gaan het woord auto’s ook in terugkomen. Zo kun je verbanden leggen tussen woorden die semantisch hetzelfde betekenen. Het is erg simplistisch uitgelegd, maar zo werkt het ongeveer.

Wat is latent semantic indexing niet? LSI wordt NIET gebruikt voor het bepalen van de thema van je website. Het werkt alleen op de betreffende (web) document, niet op je website. Het wordt dus ook niet gebruikt om te zien in welke ‘thema’ je website valt en of andere relevante websites (met hetzelfde thema) naar je linken e.d.

Hoe pas je dit toe voor zoekmachine optimalisatie?

Hier wil ik een andere keer uitgebreider op terug komen, maar deze post moet je al een idee geven hoe je LSI in je voordeel kunt gebruiken. Denk aan synoniemen en relevante woorden, mix it up ;-)

[tags]latent semantic indexing, lsi, google, boolean, [/tags]

21 thoughts on “Latent Semantic Indexing Uitgelegd

  1. Sint

    Ik neem aan dat zoekmachines LSI ook gebruiken om een verband te leggen (of juist onderscheid te maken) tussen het thema van een webpagina en het thema van een zoekopdracht (met meerdere zoekwoorden)?

    En ik las laatst een artikel waarin werd gesteld dat Google niet alleen resultaten wil maken met de beste en meest relevante sites, maar ook wil zorgen dat de top gevarieerd is. Dus dat de top-10 bij zoeken op ‘bank’ niet wordt gedomineerd door financiële instellingen, maar een gevarieerd beeld geeft van de diverse contexten van het woord ‘bank’.
    In hoeverre komt behavioral targetting hier om de hoek kijken bij het opbouwen van zoekresultaten? Net als dat aan de hand van synoniemen een webpagina ingedeeld kan worden in een ‘thema’, zou je dit principe ook kunnen toepassen op de zoekgeschiedenis van een gebruiker om te bepalen welk thema het meest waarschijnlijk voorgeschoteld wil krijgen bij algemene zoekopdrachten.

    Ik weet niet of de dingen die ik roep iets met de LSI-techniek te maken hebben, misschien dat je hier in je vervolgpost wat nuttigs over kunt zeggen. Of dat ze stof zijn voor geheel nieuwe artikelen ;-)

    Reply
  2. dave

    De meeste zoekmachines gebruiken LSI al een geruime tijd. Ergens in Februari haalde ik het ook al en keertje aan : http://www.zoekmachine-optimalisatie-seo.be/tips/seo-blijft-bewegen/

    Als je LSI woorden wilt vinden in Google gebruik je ~ voor je zoekwoord en (alle) LSI woorden (volgens google) zullen in het vet worden getoond.

    Als je ~computer intikt zal je vb volgende woorden vinden:
    computers, laptop, hardware, pc hardware, pc, computing, etc.

    Gebruik volgend commando om zoekwoorden uit te sluiten :
    vb –> ~seo -seo

    Reply
  3. dave

    Tri,

    “Het werkt alleen op de betreffende (web) document, niet op je website. ”

    Heb je daar test op gedaan ? Ik heb me altijd laten wijsmaken dat het ook werd toegepast op gans je site en niet enkel op pagina’s.

    Reply
  4. Joost

    Google pakt dit goed aan ja. Ik merk wel dat Live wat dit betreft achter loopt. Waar google bv. misspellings al aan zelfverzekerd automatisch aan elkaar verbind vraagt Live nog vaak aan de gebruiker “Bedoelde je misschien…”.

    Reply
  5. Sint

    @Joost: inderdaad. Hetzelfde geldt voor meervoudsvormen e.d. Ik merk zelden dat zoekresultaten er minder door worden omdat Google niet precies doet wat ik vertelde.

    Reply
  6. Tri Pham Post author

    “Ik neem aan dat zoekmachines LSI ook gebruiken om een verband te leggen (of juist onderscheid te maken) tussen het thema van een webpagina en het thema van een zoekopdracht (met meerdere zoekwoorden)?”
    Dat is niet echt van toepassing voor LSI. LSI werkt niet met “thema’s”, dus wat jij beschrijft Sint is een aparte technologie.

    “In hoeverre komt behavioral targetting hier om de hoek kijken bij het opbouwen van zoekresultaten? Net als dat aan de hand van synoniemen een webpagina ingedeeld kan worden in een ‘thema’, zou je dit principe ook kunnen toepassen op de zoekgeschiedenis van een gebruiker om te bepalen welk thema het meest waarschijnlijk voorgeschoteld wil krijgen bij algemene zoekopdrachten.”

    Ik denk dat dit meer richting ‘personal search’ gaat waarin je query historie een belangrijke rol gaat spelen. Heeft niets met LSI te maken, maar in mijn vervolg post over LSI zal ik wat meer duidelijkere voorbeelden geven wat LSI nu daadwerkelijk is.

    Reply
  7. Tri Pham Post author

    “Heb je daar test op gedaan ? Ik heb me altijd laten wijsmaken dat het ook werd toegepast op gans je site en niet enkel op pagina’s.”

    Dave, dat klopt niet. LSI is niet een indexering techniek, maar een ‘analyse’ techniek die gebruikt maakt van de huidige database en die hele wiskundige berekeningen uitvoert om verbanden te leggen tussen (relevante) woorden. Het werkt dus op een collectie van documenten, niet op sites. Btw, waar heb je die info vandaan? Als iemand spreekt over een ‘domain’ in context van LSI, dan wordt daarmee de ‘information domain’ bedoeld (de space waarin de analyse plaatsvindt, meestal de database dus). Niet het internet domein, misschien heeft dat je verward? :)

    Je zou het met (internet) domeinen kunnen werken, maar zo werkt LSI niet. Het werkt niet met “thema’s”. Als ik wat dieper op de inner werkings van LSI ga: LSI werkt met een zgn ‘term-document’ matrix waarin aangegeven wordt waar welke woorden in welke docs staan, niet op welke websites. Kortom, de website wordt _totaal_ niet gebruikt.

    Reply
  8. Robbert

    In de toekomst zal dit nog veel belangrijker worden denk ik, waarbij synoniemen, maar ook talen en andere verbanden zullen worden gelegd.

    Reply
  9. Pingback: Latent Semantic Indexing

  10. Bert van Heerde

    @Robbert: dat denk ik ook, zie bijvoorbeeld Google Translate Search Results.

    De term ‘synoniemen’ is een beetje verwarrend want het gaat hier om database driven ‘synoniemen’en niet zozeer taalkundige synoniemen. In bovenstaand voorbeeld over tweedehands auto’s zouden ook woorden als ‘motor’, ‘wielen’, ‘APK’ en ‘Marktplaats’ in aanmerking kunnen komen als ‘synoniem’. Welke synomiemen je allemaal moet gebruiken is vrijwel onmogelijk te achterhalen omdat je niet beschikt over de analysegegevens van miljarden pagina’s. Zodra een document verandert of andere documenten worden toegevoegd aan de analyse, veranderen de synoniemen ook mee. Zodoende kun je een document nooit ‘optimaliseren’ voor LSI. Je kunt wel met gezond verstand bedenken welke termen als belangrijk synoniem aangemerkt kunnen worden (bijv. ‘huis’ en ‘woning’). In hoeverre een synoniem daadwerkelijk meeweegt in de uiteindelijke ranking van een document voor een bepaald keyword is onduidelijk. Google hecht volgens mij momenteel nog veel waarde aan anchorteksten in backlinks, hoeveelheid kwalitatief goede backlinks, sitestructuur en onpage optimalisatie. Ik zie nog geen websites ranken voor een keyword die niet genoemd is in (de titel van) een pagina of waar de ranking niet te grotendeels verklaren valt uit de anchortekst in backlinks.

    Reply
  11. Joost

    Wanneer je als query ‘~huis’ ingeeft in G dan zie je dat naast woning ook makelaar als gerelateerd woord wordt gezien.

    Reply
  12. dave

    Ik twijfel er zelfs aan of de onpage factor echt een grote rol speelt. ZElf heb ik pagina’s waar enkel foto’s op staan (en de navigatie natuurlijk) en die doen het bijlange niet slecht in de SERPS.

    Leslie Rhode beweert zelfs (en heeft het ook gedaan) dat hij een lege pagina in de top 10 kan loodsen met enkel de pagina titel en backlinks.

    Reply
  13. monchito

    het principe is volgens mij heel eenvoudig: een zokemachine probeert relevantie van een term te bepalen. Boolean search is vrij ruw, met lsi kun je in plaats van true of false een ‘proximity’ geven aan relevantie voor een term.

    Bottomline voor seo: fix je niet teveel op keyword-density voor 1 term, maar varieer met synoniemen, enkelvoud, meervoud etc. Doe dit ook niet alleen in teksten, maar ook in anchorteksten, website-structuren, etc. Gebruik gewoon synoniemen woordenboeken, keyword suggestion tools etc om te kijken wat mogelijke synoniemen.

    maar bovenal: schrijf gewoon een goede inhoudelijke pagina, dan rank je daar ook wel op ;)

    Reply
  14. Pingback: SEO blog » Het gebruik van synoniemen

  15. Siimlock verwijderen

    Ik twijfel er zelfs aan of de onpage factor echt een grote rol speelt. ZElf heb ik pagina’s waar enkel foto’s op staan (en de navigatie natuurlijk) en die doen het bijlange niet slecht in de SERPS.

    Ook hier kan ik het mij helemaal in vinden.

    Reply
  16. Johan

    Ik heb zelf ook al gemerkt dat google gebruik maakt van synoniemen, onze website richt zich bijvoorbeeld op bepaalde woorden, maar ik merk dat we bij de synoniemen van die woorden ook verschijnen in google. Interessant artikel btw!

    Reply
  17. Vertaalbureau Engels

    Ik twijfel er zelfs aan of de onpage factor echt een grote rol speelt. ZElf heb ik pagina’s waar enkel foto’s op staan (en de navigatie natuurlijk) en die doen het bijlange niet slecht in de SERPS.

    Toch speelt dit voor mijn ervaring wel enige rol. Ik heb een concurrent van wie een subpagina geen enkele backlink heeft, maar die toch heel goed scoort op bepaalde zoektermen omdat hun on-page criteria heel goed zijn. Maar dat is dan wel ook een hele oude site, dus dat is ook in hun voordeel.

    Reply

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

De volgende HTML-tags en -attributen zijn toegestaan: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>