581257-8 Tiedonhakumenetelmät - Harjoitus 2/2001 (7.2.)

Merkillä (**) varustettu tehtävä lasketaan kahden tavallisen tehtävän veroiseksi.

1. (**) Alla on esitetty dokumenttikokoelma indeksitermeineen. Indeksitermejä on 10: kesä, käyttö, lapsi, materiaali, puuvilla, talvi, tuonti, tuotanto, vaate, valmistus. Dokumenttivektorien alkiot ovat indeksitermien painoja ja vektorit esitetään tässä yksinkertaisesti (?) listoina. Laske vektorimallin mukaisten samanlaisuusmittojen (sisätulo, kosinikerroin, päällekkäisyyskerroin, Dice, Jaccard) esimerkkiarvoja kyselylle

Q = (0, 0, 1.0, 0.3, 0.7, 0, 0, 0, 1.0, 0) eli 'lapsi:1.0, materiaali:0.3, puuvilla:0.7, vaate:1.0'

ja pyri niiden perusteella päättelemään mittojen ominaispiirteitä. Mieti myös muuntyyppisten kyselyjen vaikutusta eri mittoja käytettäessä.

D1 = (kesä:0.8, materiaali:0.3, tuotanto:0.9, vaate:1.0)
D2 = (lapsi:0.5, materiaali:0.3, talvi:0.8, tuotanto:0.9, vaate:0.9)
D3 = (käyttö:0.3, lapsi:1.0, materiaali:0.8, talvi:0.6, valmistus:0.2)
D4 = (kesä:0.2, lapsi:0.2, puuvilla:0.6, tuotanto:0.8, vaate:0.2)
D5 = (käyttö:0.6, lapsi:1.0, vaate:1.0, valmistus:0.1)
D6 = (lapsi:0.9, vaate.0.5)
D7 = (lapsi:0.8, vaate:0.9, valmistus:0.1)
D8 = (tuonti:0.4, vaate:0.4, valmistus:0.7)
D9 = (tuonti:1.0, vaate.0.8)
D10 = (kesä:0.5, lapsi:0.8, puuvilla:0.4, tuonti:0.8, vaate:0.7)
D11 = (lapsi:0.7, tuonti:0.9, vaate:0.2)
D12 = (puuvilla:1.0, tuotanto:0.8)

2. Selvitä vektorimallin samanlaisuusmittojen (vrt. tehtävä 1) ominaisuuksia ja eroja (normeeraustekijöiden merkitystä) laskemalla niiden arvoja sopivissa (keinotekoisissa) tilanteissa:
- dokumentissa on esim. t, t/2, t/5, 4t/5 (yleisesti t/k, 2t/k,..., (k-1)t/k) ykköstä,
- kyselyssä on esim. p kpl ykkösiä; p < t, p << t (t on termien lkm).

3. a) Mitä voidaan sanoa relevanssipalautetekniikalla muodostettavien muunnettujen kyselyjen pituudesta (termien lukumäärästä)?
b) Voidaanko relevanssipalautetekniikkaa käyttää, jos ensimmäisen kyselyn vastaus on tyhjä? (Onko mitään keinoja estää tätä?)
c) Voidaanko jotenkin yleisesti luonnehtia, millaisissa tilanteissa relevanssipalautetekniikalla on käyttöä, millaisissa ei?
d) Millaisia kyselynmuunnostekniikkoja löytyy yleisistä WWW-hakukoneista? (tarkastele yleisesti: relevanssipalautteeseen perustuvia tai muita monivaiheisia käyttötapoja)

4. (**) Tutustu artikkeliin [1] ja selvitä siinä kuvatut keskeisimmät tutkimustulokset. (Tee noin 1-2 sivun kirjallinen yhteenveto, lähetä se sähköpostitse Anna Pienimäelle viimeistään tiistaina 6.2. klo 12 mennessä ja valmistaudu esittämään sisältö harjoituksissa.)

Lähteet:
1. Magennis, M. & van Rijsbergen, C.J., The potential and actual effectiveness of interactive query expansion. Proc. ACM SIGIR97 Conf., 1997. (http://dev.acm.org/pubs/contents/proceedings/ir/258525/p324-magennis/p324-magennis.pdf; saatavissa ainakin laitoksen koneilta - kopio kurssikansiossa)



Hannu.Erkio@cs.Helsinki.FI