woensdag 13 oktober 2010

Toelichting op het fenomeen "stopwoorden"

Ik heb al vaak uitgelegd wat "stopwoorden" zijn in de context van een zoekomgeving en waarom het gebruiken van een stopwoordenlijst van belang is.
Mijn laatste zeer korte toelichting wil ik hierbij delen:

Onze taal bevat veel worden die feitelijk geen betekenis geven aan de inhoud van een zin maar wel veelvuldig worden gebruikt. Duidelijke voorbeelden zijn woorden als “de”, “het” en “een”.

Voor een zoekopdracht zijn deze worden betekenisloos en verzwarend als ze in de index zitten. Als je zoekt op “de hond”, dan gaat er uiteraard om het zelfstandig naamwoord “hond”.

Het gaat echter ook om werkwoorden die geen betekenis toevoegen. Denk daarbij aan “worden”, “zullen”etc.

Een zoekmachine probeert onderscheid te maken tussen relevante en niet-relevante informatie die in de indexen zelf zit, zodat tijdens het zoeken gebruik kan worden gemaakt van het gegeven of een zoekwoord voor een bepaald document meer of minder relevant is.
De uitkomst daarvan zorgt er weer voor dat bepaalde documenten hoger of lager in de resultaatlijst komen te staan.

Stopwoorden zullen tijdens het indexeren uit de content worden gehaald. Ook bij het stellen van de zoekvraag worden woorden die in de stopwoordenlijst staan, verwijderd.
Het is dus ook niet mogelijk om te zoeken op woorden die in de stopwoordenlijst staan, omdat die woorden gewoonweg niet in de index voorkomen!!!

Door het aanleggen van een goede, domeinspecifieke, stopwoordenlijst zal de relevantie van gevonden informatie dus toenemen en zal de snelheid verbeteren.

Geen opmerkingen: