Tiedonhakumenetelmät, Harjoitukset 1, 25.-26.3.2004



  1. Tutustu tiedonhaun tutkimuksen osa-alueisiin allaolevien lähteiden perusteella. Valitse vähintään viisi osa-aluetta ja vertaile kutakin näistä osa-alueista luennoilla esitettyä "Tiedonhakuprosessi"-kaaviota vasten (kalvo 8). Millaisia ovat tällä osa-alueella tiedontarpeet, kyselyt, dokumentit ja dokumenttien kuvaajat? Mihin täsmäytys näyttäisi perustuvan? Mitä prosessi tuottaa tuloksena? Et välttämättä löydä jokaisesta osa-alueesta kaikkia näitä komponentteja.

  2. Piirrä saanti-tarkkuuskäyrät seuraaville hauille (relevanttien dokumenttien lukumäärä ja sijainnit hakutuloksessa annettu):

    (a) LKM: 5. SIJAINNIT: 2, 10, 17, 30, 45
    (b) LKM: 20. SIJAINNIT: 2, 5, 8, 11, 13, 16, 19, 20, 25, 26, 31, 33,
    37, 45, 55, 67, 80, 92, 111, 150.
    

    Vertaile käyrien antamaa informaatiota, esim. montako dokumenttia hakija saa 75% saantitasolla.

  3. Piirrä DCV-käyrät (saanti ja tarkkuus tuloksen koon funktiona) seuraaville hauille (relevanttien dokumenttien lukumäärä ja sijainnit hakutuloksessa annettu):

    (a) LKM: 5. SIJAINNIT: 2, 10, 17, 30, 45
    (b) LKM: 20. SIJAINNIT: 2, 5, 8, 11, 13, 16, 19, 20, 25, 26, 31, 33,
    37, 45, 55, 67, 80, 92, 111, 150.
    

    Vertaile käyrien antamaa informaatiota, esim. montako dokumenttia hakija saa 75% saantitasolla.

    Mitä voit sanoa tehtävien 2 ja 3 käyrien antaman informaation suhteesta?

  4. Hakutuloksen dokumenttien relevanssi voidaan arvioida dikotomisesti (kaksiluokkaisesti : relevantti / epärelevantti) tai moniluokkaisesti (olennainen / hyödyllinen / marginaalinen / epärelevantti). Oletetaan, että tietokanta sisältää 20 dokumenttia, joiden (moniluokkainen) relevanssiarvio on seuraava :
     
    1 e 6 e 11 e 16 e
    2h7e12e17e
    3e8o13e18m
    4m9h14h19m
    5o10m15h20h

    Haku 1 tuotti vastauksenaan dokumentit:

    1, 3, 4, 7, 8, 9, 13, 15, 19, 20.
    

    (a) Laske haun saanti ja tarkkuus, jos relevantiksi katsotaan dokumentti, joka on olennainen tai hyödyllinen (dikotominen relevanssi). Saanti = hakutuloksen relevanttien osuus tietokannan relevanteista. Tarkkuus = relevanttien osuus hakutuloksesta.

    (b) Laske haun saanti ja tarkkuus muilla relevanssitasolla : vain olennaiset ovat relevantteja, kaikki vähintään marginaaliset ovat relevantteja.

Tehtävät 2-4 ovat Järvelinin ja Kekäläisen luentomateriaalista.



Helena Ahonen-Myka
Last modified: Wed Mar 17 15:13:22 EET 2004