next up previous contents
Next: Hukkasanojen poisto Up: Indeksin koon kontrollointi Previous: Indeksin koon kontrollointi   Sisältö

Informaation karsiminen

Informaation karsiminen aloitetaan yleensä vähentämällä indeksin sisältämien avainten lukumäärää. Usein indeksiin tallennetaan tekstin kaikkien loppuosien sijaan vain kokonaisista sanoista alkavat loppuosat. Mikäli indeksitietorakenteen koko on suoraan verrannollinen indeksoitujen hakusanojen lukumäärään (tämä yleensä pätee) ja tekstissä sana alkaa keskimäärin joka kymmenennestä merkistä, indeksin koko pienenee pelkästään tällä menetelmällä kymmenesosaan. Tällöin menetetään paitsi mahdollisuus tehdä hakuja avainsanojen alimerkkijonoilla, myös indeksin mahdollinen tuki säännöllisille lausekkeille ja likimääräiselle hahmontunnistukselle.



Jani Jaakkola 2004-11-19