next up previous contents
Next: Boolen-haku Up: Hakukriteerit Previous: Luokittelu   Sisältö

Avainsanat

Dokumentit sopivat harvoin hyvin ennaltamääriteltyihin luokkiin. Luokittelun vaihtoehtona tai sen rinnalla käytetäänkin yleisesti avainsanoja (engl. keyword). Dokumentille annetaan joukko sitä kuvaavia avainsanoja, joiden avulla dokumentti löydetään tietokannasta. Tämän aineen avainsanoja voisivat olla esimerkiksi "tekstitietokanta", "tekstihaku", "indeksointi" ja "hahmontunnistus".

Toisaalta dokumentin avainsanat löytyvät varmasti myös dokumentin tekstistä, jolloin ne voidaan löytää automaattisin menetelmin. Käsin tehtävää avainsanojen valitsemista tarvitaan oikeastaan vain erityisen tärkeiden avainsanojen valitsemiseen.

Automaattisessa avainsanojen etsimisessä avainsanat kannattaa yleensä tallentaa sanan perusmuodossa. Tällöin esim. sanat "tekstitietokantaan" ja "tekstitietokannasta" ovat itse asiassa avainsanan "tekstitietokanta" esiintymiä. Algoritmeja ja ohjelmia sanojen automaattiseen perusmuodon etsimiseen (engl. stemming) on saatavilla kaikille yleisesti käytössä oleville luonnollisille kielille. Sanojen perusmuodon etsiminen ei enää kuulu tämän tutkielman aihepiiriin; tässä tutkielmassa kuitenkin oletetaan, että tällainen ohjelmisto on käytettävissä avainsanojen valitsemista varten.

Avainsanan frekvenssi kuvaa usein hyvin avainsanan keskeisyyttä dokumentissa. Sana, joka toistuu dokumentissa jatkuvasti, on todennäköisesti hyvin keskeinen dokumentin sisällön kannalta (tähän perustuu mm. dokumenttien similariteettien määrittäminen sanavektoreiden perusteella). Esimerkiksi tässä tutkielmassa toistuvat hyvin usein sanat "teksti", "dokumentti", "tekstitietokanta" ja "indeksi". Tätä ilmiötä hyödyntämällä voidaan avainsanahaulla löytyneet dokumentit asettaa paremmuusjärjestykseen (engl. ranking). Mitä useammin annettu avainsana esiintyy dokumentissa, sitä todennäköisempää on, että dokumentissa käsitellään avainsanaan läheisesti liittyviä asioita.


next up previous contents
Next: Boolen-haku Up: Hakukriteerit Previous: Luokittelu   Sisältö
Jani Jaakkola 2004-11-19