Next: Hakukriteerit Up: tutkielma Previous: Johdanto Sisältö

Tiedonhaku

Tekstitietokantahaut toimivat siten, että järjestelmälle annetaan joukko kriteerejä etsittävälle tiedolle, joita käyttäen järjestelmä pyrkii paikantamaan etsittävää tietoa sisältävät dokumentit. Vaikka järjestelmä pystyykin löytämään tietokannasta kaikki hakukriteerit täyttävät dokumentit, se ei kuitenkaan pysty antamaan mitään takeita siitä, että löytynyt tieto todella oli sitä mitä käyttäjä halusi, taikka että kaikki olennainen tieto löytyi. Tekstitietokantahaun tulos voi erota "oikeasta" tai "halutusta" tuloksesta.

Koska tekstitietokantahaun tulos saattaa erota hyvinkin paljon "oikeasta" tuloksesta, tarvitaan mittari haun onnistumisen arviointiin. Yleisimmän käytetty mittari on haun löytämien dokumenttien relevanssi. Relevanssi määritellään yleensä tietokannan käyttäjän näkökulmasta. Käyttäjän näkökulman mukaan relevantteja dokumentteja ovat ne, joiden sisältö vastaa käyttäjän tiedontarpeeseen. Tämä näkökulma on väistämättä subjektiivinen ja vaikeasti mitattavissa: jo käyttäjän vaihtuminen vaihtaa arviota haun onnistumisesta.

Haun saannilla tarkoitetaan haun löytämien relevanttien dokumenttien lukumäärän suhdetta kaikkien tietokannassa olevien relevanttien dokumenttien lukumäärään. Ellei tietokanta ole hyvin pieni, on annetun kyselyn saannin täsmällisen arvon määrittäminen mahdotonta tai ainakin hyvin vaikeaa. Yleensä saannin arvon määrittelyssä joudutaan turvautumaan arviointiin.

Haun tarkkuudella tarkoitetaan haun löytämien relevanttien dokumenttien lukumäärän suhdetta kaikkien haun löytämien dokumenttien (siis myös epärelevanttien dokumenttien) lukumäärään.

Sekä saanti, että tarkkuus saavat arvoja nollan ja yhden väliltä. Tekstitietokannan toteutuksen ja kyselyn muodostamisen tavoitteena on saada sekä saanti, että tarkkuus mahdollisimman lähelle yhtä. Valitettavasti on tyypillistä, että sekä hyvän tarkkuuden, että hyvän saannin saavuttaminen yhtäaikaa on vaikeaa tai mahdotonta.

Kirjan [FBY92] luvussa 1.4 käsitellään hakutuloksien ja tiedonhakujärjestelmien paremmuuden arviointia.

Next: Hakukriteerit Up: tutkielma Previous: Johdanto Sisältö

Jani Jaakkola 2004-11-19