Tiedonhakumenetelmät, Harjoitukset 3, 15.-16.4.2004



  1. Oletetaan, että käytettävissä on dokumenttikokoelma, jota kuvaa allaoleva dokumentti-termi -matriisi (dokumentit d1-d10 ja termit frog, snake, computer, user, want ja try). Matriisin alkiot kuvaavat termin esiintymistä dokumentissa.

      frogsnakecomputeruserwanttry
    d111 111
    d2  1111
    d311   1
    d4   11 
    d5 1  11
    d6   111
    d71 11 1
    d8    1 
    d9    11
    d10  111 

    a) Millaisen Boolen kyselyn muotoilisit seuraavista hakutehtävistä?

    1. "I am interested in frogs and snakes, but not in users."

    2. "I would like to see documents which tell about some computer user trying to draw animals, like frogs and snakes."

    Mitkä dokumentit palautuisivat kyselyiden tuloksena?

    b) Selosta seuraavan kyselyn suoritus käänteistiedoston avulla.

    ((user and want) or try) and not computer

  2. Oletetaan, että käytössä on sama dokumenttikokoelma kuin tehtävässä 2.3.

      frogsnakecomputeruserwanttry
    d113 141
    d2  4151
    d321   4
    d4   17 
    d5 1  11
    d6   123
    d71  1 2
    d8    4 
    d9    31
    d10  111 

    a) Laske sisätulo ja kosini-samanlaisuusarvo seuraaville dokumenttipareille:

    1. d2 ja d6

    2. d2 ja d8

    b) Oletetaan, että käyttäjä antaa kyselytermit computer, want ja try. Anna 5 parhaan dokumentin kosini-samanlaisuusarvot kyselyn kanssa.

  3. Laske edellisen tehtävän dokumenttipareille (d2,d6) ja (d2,d8) samanlaisuusarvo käyttäen samanlaisuusmittoja Overlap, Dice ja Jaccard. Kaavat löytyvät erillisestä tiedostosta (pdf). Kunkin mitan kohdalla vasemmalla olevaa kaavaa voi käyttää, kun painot ovat binäärisiä (0 tai 1) ja oikeanpuoleista kaavaa silloin, kun painot on laskettu esim. tf.idf:llä.

    Huomaatko eroja verrattuna sisätuloon ja kosinimittaan?

  4. Oletetaan, että dokumenttien A-G keskinäiset samanlaisuusarvot ovat:

    
          A     B    C    D    E    F    G
    
    A     1   0.6  0.9  0.6  0.8  0.8  0.7
    
    B           1  0.3  0.6  0.5  0.8  0.7
    
    C                1    0  0.7  0.3  0.5
    
    D                     1  0.4  0.4  0.4
    
    E                          1  0.7  0.3
    
    F                               1  0.5
    
    G                                    1
    
    
    

    Selosta luennolla esitetyn hierarkkisen, agglomeratiivisen ryvästämismenetelmän toimintaa, kun ryppäiden samanlaisuusvertailussa käytetään yhden linkin kriteeriä.

    Jos et ollut luennolla, kannattaa ehkä katsoa Saltonin kirjan Automatic Text Processing esimerkkiä s. 329-333.



Helena Ahonen-Myka
Last modified: Tue Apr 6 16:23:39 EEST 2004