Tutustu tiedonhaun tutkimuksen osa-alueisiin allaolevien lähteiden perusteella. Valitse vähintään viisi osa-aluetta ja vertaile kutakin näistä osa-alueista luennoilla esitettyä "Tiedonhakuprosessi"-kaaviota vasten (kalvo 8). Millaisia ovat tällä osa-alueella tiedontarpeet, kyselyt, dokumentit ja dokumenttien kuvaajat? Mihin täsmäytys näyttäisi perustuvan? Mitä prosessi tuottaa tuloksena? Et välttämättä löydä jokaisesta osa-alueesta kaikkia näitä komponentteja.
K. Järvelin ja J. Kekäläinen, Tiedonhaun menetelmät -opintoaineisto: [1.4 Tiedonhaun tutkimuksen osa-alueita]
H. Uszkoreit, Language Technology, A First Overview (Lähinnä luku 3; osa näistä menetelmistä ei varsinaisesti ole tiedonhakumenetelmiä, mutta ne voivat olla komponentteja tiedonhakujärjestelmissä.)
Piirrä saanti-tarkkuuskäyrät seuraaville hauille (relevanttien dokumenttien lukumäärä ja sijainnit hakutuloksessa annettu):
(a) LKM: 5. SIJAINNIT: 2, 10, 17, 30, 45 (b) LKM: 20. SIJAINNIT: 2, 5, 8, 11, 13, 16, 19, 20, 25, 26, 31, 33, 37, 45, 55, 67, 80, 92, 111, 150.
Vertaile käyrien antamaa informaatiota, esim. montako dokumenttia hakija saa 75% saantitasolla.
Piirrä DCV-käyrät (saanti ja tarkkuus tuloksen koon funktiona) seuraaville hauille (relevanttien dokumenttien lukumäärä ja sijainnit hakutuloksessa annettu):
(a) LKM: 5. SIJAINNIT: 2, 10, 17, 30, 45 (b) LKM: 20. SIJAINNIT: 2, 5, 8, 11, 13, 16, 19, 20, 25, 26, 31, 33, 37, 45, 55, 67, 80, 92, 111, 150.
Vertaile käyrien antamaa informaatiota, esim. montako dokumenttia hakija saa 75% saantitasolla.
Mitä voit sanoa tehtävien 2 ja 3 käyrien antaman informaation suhteesta?
Hakutuloksen dokumenttien relevanssi voidaan arvioida dikotomisesti
(kaksiluokkaisesti : relevantti / epärelevantti) tai moniluokkaisesti
(olennainen / hyödyllinen / marginaalinen / epärelevantti).
Oletetaan, että tietokanta sisältää 20 dokumenttia,
joiden (moniluokkainen) relevanssiarvio on seuraava :
1 | e | 6 | e | 11 | e | 16 | e | |
2 | h | 7 | e | 12 | e | 17 | e | |
3 | e | 8 | o | 13 | e | 18 | m | |
4 | m | 9 | h | 14 | h | 19 | m | |
5 | o | 10 | m | 15 | h | 20 | h |
Haku 1 tuotti vastauksenaan dokumentit:
1, 3, 4, 7, 8, 9, 13, 15, 19, 20.
(a) Laske haun saanti ja tarkkuus, jos relevantiksi katsotaan dokumentti, joka on olennainen tai hyödyllinen (dikotominen relevanssi). Saanti = hakutuloksen relevanttien osuus tietokannan relevanteista. Tarkkuus = relevanttien osuus hakutuloksesta.
(b) Laske haun saanti ja tarkkuus muilla relevanssitasolla : vain olennaiset ovat relevantteja, kaikki vähintään marginaaliset ovat relevantteja.
Tehtävät 2-4 ovat Järvelinin ja Kekäläisen luentomateriaalista.