1. Ryhmittele luennolla esitellyllä ryvästysalgoritmilla dokumentit A, B, C, D, E, F 'single link'-periaatteella, kun dokumenttien samanlaisuusarvot ovat seuraavat:
AD 0.9 EF 0.6 EB 0.3 BD 0.8 AC 0.4 AF 0.2 EC 0.8 AE 0.4 CD 0.2 CF 0.7 BC 0.4 DE 0.1 AB 0.7 BF 0.3 DF 0.1
Tarkastele ryppäiden muodostumista erilaisilla samanlaisuusarvoilla.
2. (**) Ryhmittele tehtävän 1 dokumentit vastaavasti 'complete link'-periaatteella ja 'group average' -periaatteella.
3. (**) Tutustu Scatter/Gather-tekniikkaa käsitteleviin julkaisuihin ja selvitä erityisesti artikkelin [2] perusteella käytetyn ryvästysmenetelmän toiminta. Artikkeli [3] sisältää täydentävää materiaalia ja artikkeli (WWW-sivu) [1] menetelmän yleistajuisen esittelyn.
4. Vertaile dokumenttien algoritmiseen ryvästämiseen (yleisesti, Scatter/Gather-tekniikalla) ja tavanomaisen luokitteluun perustuvan hakutekniikan (esim. Yahoo) ominaisuuksia (kummankin hyvät ja huonot puolet jne). Entä luokittelut jonkin 'yksinkertaisen' ominaisuuden (tekijä, julkaisuaika, kieli tms.) perusteella (mihin sopii, onko yhdistettävissä muihin tekniikkoihin)?
Lähteet:
1. Xerox PARC: About Scatter/Gather. (löytyy osoitteesta http://www.parc.xerox.com/istl/projects/ia/sg-overview.html. (yleisluontoinen johdatus tekniikkaan, esimerkkejä, viitteet uusimpiin julkaisuihin )
2. Cutting, D.R. et al., Scatter/Gather: a cluster-based approach to browsing large document collections. ACM SIGIR'92, 318-329. (ensimmäinen tekniikkaa koskeva julkaisu; periaatteet esitetään perusteellisesti)
3. Hearst, M. & Pedersen, J., Reexamining the Cluster Hypothesis: Scatter/Gather on Retrieval Results. ACM SIGIR'96, 76-84.
Artikkelit [2,3] löytyvät (kuten muutkin SIGIR-konferenssien julkaisut)
ACM:n digitaalisesta kirjastosta sivulta
http://www.acm.org/pubs/contents/proceedings/series/sigir/ (pääsy
laitoksen työasemilta).
Hannu.Erkio@cs.Helsinki.FI