581257-8 Tiedonhakumenetelmät - Harjoitus 3/2001 (14.2.)

Merkillä (**) varustettu tehtävä lasketaan kahden tavallisen tehtävän veroiseksi.

1. Ryhmittele luennolla esitellyllä ryvästysalgoritmilla dokumentit A, B, C, D, E, F 'single link'-periaatteella, kun dokumenttien samanlaisuusarvot ovat seuraavat:

        AD   0.9        EF   0.6        EB   0.3
        BD   0.8        AC   0.4        AF   0.2
        EC   0.8        AE   0.4        CD   0.2
        CF   0.7        BC   0.4        DE   0.1
        AB   0.7        BF   0.3        DF   0.1

Tarkastele ryppäiden muodostumista erilaisilla samanlaisuusarvoilla.

2. (**) Ryhmittele tehtävän 1 dokumentit vastaavasti 'complete link'-periaatteella ja 'group average' -periaatteella.

3. (**) Tutustu Scatter/Gather-tekniikkaa käsitteleviin julkaisuihin ja selvitä erityisesti artikkelin [2] perusteella käytetyn ryvästysmenetelmän toiminta. Artikkeli [3] sisältää täydentävää materiaalia ja artikkeli (WWW-sivu) [1] menetelmän yleistajuisen esittelyn.

4. Vertaile dokumenttien algoritmiseen ryvästämiseen (yleisesti, Scatter/Gather-tekniikalla) ja tavanomaisen luokitteluun perustuvan hakutekniikan (esim. Yahoo) ominaisuuksia (kummankin hyvät ja huonot puolet jne). Entä luokittelut jonkin 'yksinkertaisen' ominaisuuden (tekijä, julkaisuaika, kieli tms.) perusteella (mihin sopii, onko yhdistettävissä muihin tekniikkoihin)?

Lähteet:

1. Xerox PARC: About Scatter/Gather. (löytyy osoitteesta http://www.parc.xerox.com/istl/projects/ia/sg-overview.html. (yleisluontoinen johdatus tekniikkaan, esimerkkejä, viitteet uusimpiin julkaisuihin )

2. Cutting, D.R. et al., Scatter/Gather: a cluster-based approach to browsing large document collections. ACM SIGIR'92, 318-329. (ensimmäinen tekniikkaa koskeva julkaisu; periaatteet esitetään perusteellisesti)

3. Hearst, M. & Pedersen, J., Reexamining the Cluster Hypothesis: Scatter/Gather on Retrieval Results. ACM SIGIR'96, 76-84.

Artikkelit [2,3] löytyvät (kuten muutkin SIGIR-konferenssien julkaisut) ACM:n digitaalisesta kirjastosta sivulta http://www.acm.org/pubs/contents/proceedings/series/sigir/ (pääsy laitoksen työasemilta).

Hannu.Erkio@cs.Helsinki.FI