next up previous contents
Next: Haun tarkkuuden vähentäminen Up: Indeksin koon kontrollointi Previous: Informaation karsiminen   Sisältö

Hukkasanojen poisto

Hukkasanojen poistolla tarkoitetaan huonojen hakusanojen poistamista indeksistä. Huonoja hakusanoja ovat tekstissä liian usein esiintyvät sanat ja ne, joilla ajatellaan olevan pieni informaatiosisältö. Tällaisia sanoja ovat esim. partikkelit ja olla-verbin taivutusmuodot. Hukkasanojen poistolla indeksi pienenee yleensä vain noin 20-30%, mutta hukkasanat saattavat silti joissain tapauksissa sisältää oleellista informaatiota. Esim. jos dokumenttikokoelmana on Shakespearen kootut teokset, joiden indeksistä hukkasanat on poistettu, haku ``ollako vai eikö olla?'' eu palauta yhtään mitään, koska haun avainsanat sisältävät ainoastaan hukkasanoja. Kyseessä on kuuluisin Shakespearen näytelmistä löytyvä yksittäinen lause, minkä takia haun voidaan ajatella epäonnistuneen dokumentin relevanttien fragmenttien löytämisessä.



Jani Jaakkola 2004-11-19