Tiedonhakumenetelmät, Harjoitukset 4, 29.4.2004



Huom! Vappuaaton (perjantain 30.4.) laskuharjoitukset on peruutettu. Perjantain ryhmäläiset voivat mennä torstain ryhmään tai lähettää sähköpostitse (tai paperilla vahtimestarien kautta) ratkaisunsa Juhalle. Juha on paikalla pe 12-13 omassa huoneessaan (D313), jos haluat kysellä tehtävistä tai harjoitustyöstä.

  1. Oletetaan, että dokumenttien A-G keskinäiset samanlaisuusarvot ovat:

    
          A     B    C    D    E    F    G
    
    A     1   0.6  0.9  0.6  0.8  0.8  0.7
    
    B           1  0.3  0.6  0.5  0.8  0.7
    
    C                1    0  0.7  0.3  0.5
    
    D                     1  0.4  0.4  0.4
    
    E                          1  0.7  0.3
    
    F                               1  0.5
    
    G                                    1
    
    
    

    Selosta luennolla esitetyn hierarkkisen, agglomeratiivisen ryvästämismenetelmän toimintaa, kun ryppäiden samanlaisuusvertailussa käytetään täydellisen linkityksen kriteeriä.

    Huomaatko eroja verrattuna viime kerralla läpikäytyyn ryvästämiseen yhden linkin kriteerin perusteella?

    Jos et ollut luennolla, kannattaa ehkä katsoa Saltonin kirjan Automatic Text Processing esimerkkiä s. 332-336.

  2. Luonnollisilla kielillä on ominaisuuksia, joilla on vaikutusta tiedonhakujärjestelmien toimintaan. Anna konkreettisia esimerkkejä näiden ominaisuuksien ilmentymistä dokumenteissa. Pohdi, miten ominaisuudet vaikuttavat tiedonhakuun ja miten mahdollisia ongelmia voidaan lieventää. Pohdi myös ongelmien yleisyyttä: tuntuvatko jotkut ongelmat ehkä vain teoreettisilta ongelmilta, joilla ei käytännössä ole suurta vaikutusta tiedonhaun tuloksiin?

    Pieni kokoelma tekstikatkelmia, joista löytynee joitakin yllämainittuja luonnollisen kielen piirteitä.

  3. a) Simuloi KMP-algoritmin toimintaa, kun

    b) Simuloi BM-algoritmin toimintaa, kun



Helena Ahonen-Myka
Last modified: Tue Apr 27 16:36:46 EEST 2004