woensdag 13 oktober 2010

Toelichting op het fenomeen "stopwoorden"

Ik heb al vaak uitgelegd wat "stopwoorden" zijn in de context van een zoekomgeving en waarom het gebruiken van een stopwoordenlijst van belang is.
Mijn laatste zeer korte toelichting wil ik hierbij delen:

Onze taal bevat veel worden die feitelijk geen betekenis geven aan de inhoud van een zin maar wel veelvuldig worden gebruikt. Duidelijke voorbeelden zijn woorden als “de”, “het” en “een”.

Voor een zoekopdracht zijn deze worden betekenisloos en verzwarend als ze in de index zitten. Als je zoekt op “de hond”, dan gaat er uiteraard om het zelfstandig naamwoord “hond”.

Het gaat echter ook om werkwoorden die geen betekenis toevoegen. Denk daarbij aan “worden”, “zullen”etc.

Een zoekmachine probeert onderscheid te maken tussen relevante en niet-relevante informatie die in de indexen zelf zit, zodat tijdens het zoeken gebruik kan worden gemaakt van het gegeven of een zoekwoord voor een bepaald document meer of minder relevant is.
De uitkomst daarvan zorgt er weer voor dat bepaalde documenten hoger of lager in de resultaatlijst komen te staan.

Stopwoorden zullen tijdens het indexeren uit de content worden gehaald. Ook bij het stellen van de zoekvraag worden woorden die in de stopwoordenlijst staan, verwijderd.
Het is dus ook niet mogelijk om te zoeken op woorden die in de stopwoordenlijst staan, omdat die woorden gewoonweg niet in de index voorkomen!!!

Door het aanleggen van een goede, domeinspecifieke, stopwoordenlijst zal de relevantie van gevonden informatie dus toenemen en zal de snelheid verbeteren.

vrijdag 1 oktober 2010

Onderscheidend vermogen facetted search vervaagd

Dankzij een bezoeker van een "round table" sessie van search vendors kunnen we smullen van de opmerkingen van de grote zoekmachines zoals Autonomy, Google en Endeca:

"I was at a search vendor round table today...". Ook op de blog Beyond Search is dit artikel besproken.

In eerdere jaren was het feit dat een search engine die facetted search in zich had, een reden om die oplossing te kiezen boven andere.

In het artikel gaat het met name om de vraag "waarom moeten klanten veel geld betalen voor een technologie die door open source (Solr) oplossingen gratis worden aangeboden?".

Alle commerciƫle aanbieders van search software waren niet in staat om aan de lezer een goed argument te geven van het verschil...

Voor de afnemers van een zoekoplossing voegt dit aan keuze veel toe. Het maakt immers niet veel uit welke aanbieder gekozen moet worden voor dit aspect op basis van functionele wensen. Search wordt daarmee inderdaad steeds meer een "commodity".

Uiteraard moet de keuze voor een zoekoplossing op meer dan alleen dit aspect worden beoordeeeld, maar het geeft wel aan dat "speciale features" minder discriminerend worden.