Latent Semantic Indexing Uitgelegd

Latent Semantic Indexing (LSI) is een belangrijk zoekmachine concept die elk Search Engine Optimizer moet begrijpen. In deze post zal ik introductie geven op latent semantic indexing, uitleggen wat LSI is en waarom zoekmachines deze technologie in de nabije toekomst zullen gebruiken.

Boolean Search Beperkingen

Waarschijnlijk ben je al bekend met Boolean search. Een Boolean evaluatie geeft altijd TRUE of FALSE en dit principe kun je toepassen bij zoekmachines. Zodra je zoekt naar keyword dan zal een zoekmachine een Boolean evaluatie uitvoeren en kijken welke documenten keyword bevat (niet helemaal waar, eigenlijk wordt een lookup gedaan naar de inverted file indexes maar voor het gemak gebruik ik dit voorbeeld). Is er een match, dan evalueert de Boolean naar TRUE en heb je een document waarin je keyword in voorkomt. Zo kun je zoeken naar relevante documenten. Immers hebben relevante documenten deze keyword(s) in de content. Is de uitkomst van de Boolean evaluatie FALSE, dan heeft het document niet de zoekterm in haar content.

Dit concept heeft ook een groot nadeel, want nu heb je alleen matches op de betreffende sleutelwoorden. Er zijn meerdere manieren om een concept te omschrijven zonder de betreffende zoekterm te gebruiken. Stel dat iemand zoekt op tweedehands auto. Moeten zoekmachines dan alleen web pagina's weergeven waar de zoekterm terug komt in de content? Nee, want web pagina's die hetzelfde concept beschrijven met andere woorden moeten ook worden weergegeven. De term 'hetzelfde concept' klinkt nogal vaag, maar dat is gewoon een ander term voor synoniemen en relevante woorden.

Om terug te komen op onze concept tweedehands auto, web pagina's kunnen hetzelfde concept beschrijven met woorden als tweedehands automobiel, tweedehands bolide, gebruikt auto, niet nieuw wagen en ga zo maar door. Wat je misschien al opvalt is dat alle termen hetzelfde concept beschrijven als tweedehands auto (tot op zekere hoogte). Wanneer web pagina's deze termen bevatten zonder de zoekterm tweedehands auto, moeten zoekmachines deze resultaten dan ook weergeven? Ja, want zij beschrijven precies hetzelfde concept alleen in andere woorden. Er zijn meerdere wegen die naar Rome leiden en hier komt Latent Semantic Indexing (LSI) in het verhaal voor.

Latent Semantic Indexing

Zoekmachines willen alternatieve beschrijvingen van de betreffende zoektermen ook opnemen in haar zoekresultaten. Niet iedereen gebruikt hetzelfde vocabulair om een concept te beschrijven. Zoekmachines, vooral Google, snappen dit en willen met LSI een zo divers mogelijk resultatenpagina weergeven.

Alternatieve en synoniemen woorden voor tweedehands zijn gebruikt, niet nieuw, gedragen (meer voor kleding) en overgenomen. Niet alle synoniemen kun je gebruiken om hetzelfde concept te beschrijven. Zo kun je tweedehands auto niet vergelijken met gedragen automobiel, omdat gedragen meer van toepassing is op kleding. Hetzelfde geldt voor een bank, dat kan van alles zijn: een financiële instelling, een meubel, of een bestand. Wanneer je wilt refereren naar het betreffende woord/concept dan gebruik je daarvoor de correcte woorden in de context, zo kun je LSI uitbuiten.

Gelukkig snappen zoekmachines dit ook en zij beginnen ook beter de context van content te begrijpen. Google heeft al een vorm van latent semantic indexing ingevoerd. Maar je vraagt je misschien af hoe zoekmachines een context kan begrijpen? Dankzij de grote databases gevuld met miljarden web pagina's kun je 'statistisch' zien welke woorden vaak hand in hand worden gebruikt. Op deze manier kunnen zij woorden vinden die semantisch hetzelfde betekenen.

Wanneer je schrijft over geld en financiële instellingen, dan zal het woord bank ongetwijfeld ergens in terugkomen. Hetzelfde kun je zeggen voor web pagina's die over wagens gaan. Hoogst waarschijnlijk zal in de andere miljarden web pagina's die over wagens gaan het woord auto's ook in terugkomen. Zo kun je verbanden leggen tussen woorden die semantisch hetzelfde betekenen. Het is erg simplistisch uitgelegd, maar zo werkt het ongeveer.

Wat is latent semantic indexing niet? LSI wordt NIET gebruikt voor het bepalen van de thema van je website. Het werkt alleen op de betreffende (web) document, niet op je website. Het wordt dus ook niet gebruikt om te zien in welke 'thema' je website valt en of andere relevante websites (met hetzelfde thema) naar je linken e.d.

Hoe pas je dit toe voor zoekmachine optimalisatie?

Hier wil ik een andere keer uitgebreider op terug komen, maar deze post moet je al een idee geven hoe je LSI in je voordeel kunt gebruiken. Denk aan synoniemen en relevante woorden, mix it up ;-)

Tags:
Stem op dit artikel of voeg het toe aan: Plaatsen/stemmen op NUjij Plaatsen/stemmen op eKudos Plaatsen/stemmen op MSN Reporter Plaatsen/stemmen op Digg Voeg dit artikel toe aan Del.icio.us Voeg toe aan je favorieten op Technorati Voeg toe aan je Google bladwijzers Verstuur deze pagina per e-mail via Feedburner Maak een notitie op deze pagina met Fleck

Gerelateerde posts:

  • Bash Copycat
  • Google Alerts voor Indexing Stats
  • Volg je Concurrenten met Google Alerts
  • Links Volgorde SEO Experiment
  • CTR bij Organische Zoekresultaten
  • 19 reacties

    1. Gerald on August 16th, 2007

      Tri Pham,

      Interessant! Google past dit inderdaad al toe, maar ik had me er nog niet in verdiept.

    2. Sint on August 16th, 2007

      Ik neem aan dat zoekmachines LSI ook gebruiken om een verband te leggen (of juist onderscheid te maken) tussen het thema van een webpagina en het thema van een zoekopdracht (met meerdere zoekwoorden)?

      En ik las laatst een artikel waarin werd gesteld dat Google niet alleen resultaten wil maken met de beste en meest relevante sites, maar ook wil zorgen dat de top gevarieerd is. Dus dat de top-10 bij zoeken op ‘bank’ niet wordt gedomineerd door financiële instellingen, maar een gevarieerd beeld geeft van de diverse contexten van het woord ‘bank’.
      In hoeverre komt behavioral targetting hier om de hoek kijken bij het opbouwen van zoekresultaten? Net als dat aan de hand van synoniemen een webpagina ingedeeld kan worden in een ‘thema’, zou je dit principe ook kunnen toepassen op de zoekgeschiedenis van een gebruiker om te bepalen welk thema het meest waarschijnlijk voorgeschoteld wil krijgen bij algemene zoekopdrachten.

      Ik weet niet of de dingen die ik roep iets met de LSI-techniek te maken hebben, misschien dat je hier in je vervolgpost wat nuttigs over kunt zeggen. Of dat ze stof zijn voor geheel nieuwe artikelen ;-)

    3. dave on August 16th, 2007

      De meeste zoekmachines gebruiken LSI al een geruime tijd. Ergens in Februari haalde ik het ook al en keertje aan : http://www.zoekmachine-optimalisatie-seo.be/tips/seo-blijft-bewegen/

      Als je LSI woorden wilt vinden in Google gebruik je ~ voor je zoekwoord en (alle) LSI woorden (volgens google) zullen in het vet worden getoond.

      Als je ~computer intikt zal je vb volgende woorden vinden:
      computers, laptop, hardware, pc hardware, pc, computing, etc.

      Gebruik volgend commando om zoekwoorden uit te sluiten :
      vb –> ~seo -seo

    4. dave on August 16th, 2007

      Tri,

      “Het werkt alleen op de betreffende (web) document, niet op je website. ”

      Heb je daar test op gedaan ? Ik heb me altijd laten wijsmaken dat het ook werd toegepast op gans je site en niet enkel op pagina’s.

    5. dave on August 16th, 2007
    6. Joost on August 16th, 2007

      Google pakt dit goed aan ja. Ik merk wel dat Live wat dit betreft achter loopt. Waar google bv. misspellings al aan zelfverzekerd automatisch aan elkaar verbind vraagt Live nog vaak aan de gebruiker “Bedoelde je misschien…”.

    7. Sint on August 17th, 2007

      @Joost: inderdaad. Hetzelfde geldt voor meervoudsvormen e.d. Ik merk zelden dat zoekresultaten er minder door worden omdat Google niet precies doet wat ik vertelde.

    8. Tri Pham on August 18th, 2007

      “Ik neem aan dat zoekmachines LSI ook gebruiken om een verband te leggen (of juist onderscheid te maken) tussen het thema van een webpagina en het thema van een zoekopdracht (met meerdere zoekwoorden)?”
      Dat is niet echt van toepassing voor LSI. LSI werkt niet met “thema’s”, dus wat jij beschrijft Sint is een aparte technologie.

      “In hoeverre komt behavioral targetting hier om de hoek kijken bij het opbouwen van zoekresultaten? Net als dat aan de hand van synoniemen een webpagina ingedeeld kan worden in een ‘thema’, zou je dit principe ook kunnen toepassen op de zoekgeschiedenis van een gebruiker om te bepalen welk thema het meest waarschijnlijk voorgeschoteld wil krijgen bij algemene zoekopdrachten.”

      Ik denk dat dit meer richting ‘personal search’ gaat waarin je query historie een belangrijke rol gaat spelen. Heeft niets met LSI te maken, maar in mijn vervolg post over LSI zal ik wat meer duidelijkere voorbeelden geven wat LSI nu daadwerkelijk is.

    9. Tri Pham on August 18th, 2007

      “Heb je daar test op gedaan ? Ik heb me altijd laten wijsmaken dat het ook werd toegepast op gans je site en niet enkel op pagina’s.”

      Dave, dat klopt niet. LSI is niet een indexering techniek, maar een ‘analyse’ techniek die gebruikt maakt van de huidige database en die hele wiskundige berekeningen uitvoert om verbanden te leggen tussen (relevante) woorden. Het werkt dus op een collectie van documenten, niet op sites. Btw, waar heb je die info vandaan? Als iemand spreekt over een ‘domain’ in context van LSI, dan wordt daarmee de ‘information domain’ bedoeld (de space waarin de analyse plaatsvindt, meestal de database dus). Niet het internet domein, misschien heeft dat je verward? :)

      Je zou het met (internet) domeinen kunnen werken, maar zo werkt LSI niet. Het werkt niet met “thema’s”. Als ik wat dieper op de inner werkings van LSI ga: LSI werkt met een zgn ‘term-document’ matrix waarin aangegeven wordt waar welke woorden in welke docs staan, niet op welke websites. Kortom, de website wordt _totaal_ niet gebruikt.

    10. dave on August 18th, 2007

      Ik denk dat het werd vernoemd op een conferentie in US vorig jaar ergens…of ik was misschien half aan het slapen :-).

      Hier trouwens nog een handige tool om ‘aan LSI’ te doen http://www.quintura.com/

    11. Robbert on August 18th, 2007

      In de toekomst zal dit nog veel belangrijker worden denk ik, waarbij synoniemen, maar ook talen en andere verbanden zullen worden gelegd.

    12. Latent Semantic Indexing on August 19th, 2007

      […] bewegen en haalden we het fenomeen Latent Semantic Indexing aan. Begin deze week nam Trufu het Latent Semantic Indexing grondig onder de loep en ik zou zeggen blijf het volgen want er is nog meer op komst:-) LSI is geen […]

    13. Bert van Heerde on August 22nd, 2007

    14. Joost on August 23rd, 2007

      Wanneer je als query ‘~huis’ ingeeft in G dan zie je dat naast woning ook makelaar als gerelateerd woord wordt gezien.

    15. dave on August 23rd, 2007

      Ik twijfel er zelfs aan of de onpage factor echt een grote rol speelt. ZElf heb ik pagina’s waar enkel foto’s op staan (en de navigatie natuurlijk) en die doen het bijlange niet slecht in de SERPS.

      Leslie Rhode beweert zelfs (en heeft het ook gedaan) dat hij een lege pagina in de top 10 kan loodsen met enkel de pagina titel en backlinks.

    16. matthijs on August 24th, 2007

      Interessant artikel. Top website.

    17. monchito on September 4th, 2007

      het principe is volgens mij heel eenvoudig: een zokemachine probeert relevantie van een term te bepalen. Boolean search is vrij ruw, met lsi kun je in plaats van true of false een ‘proximity’ geven aan relevantie voor een term.

      Bottomline voor seo: fix je niet teveel op keyword-density voor 1 term, maar varieer met synoniemen, enkelvoud, meervoud etc. Doe dit ook niet alleen in teksten, maar ook in anchorteksten, website-structuren, etc. Gebruik gewoon synoniemen woordenboeken, keyword suggestion tools etc om te kijken wat mogelijke synoniemen.

      maar bovenal: schrijf gewoon een goede inhoudelijke pagina, dan rank je daar ook wel op ;)

    18. […] dat Google niet gebruik maakt van een match van alleen de ingegeven term, maar ook andere termen (Latent Semantic Indexing). Allemaal leuk en aardig, maar wat heb je er aan als zoekmachine optimaliseerder? Heel veel, de […]

    19. Siimlock verwijderen on November 27th, 2007

      Ik twijfel er zelfs aan of de onpage factor echt een grote rol speelt. ZElf heb ik pagina’s waar enkel foto’s op staan (en de navigatie natuurlijk) en die doen het bijlange niet slecht in de SERPS.

      Ook hier kan ik het mij helemaal in vinden.

    Laat een reactie achter!

    Als je een specifieke anchortext wilt gebruiken: <a href="url">anchor</a>