1. (**)
Alla on esitetty dokumenttikokoelma indeksitermeineen.
Indeksitermejä
on 10: kesä, käyttö, lapsi, materiaali, puuvilla, talvi, tuonti,
tuotanto, vaate, valmistus. Dokumenttivektorien alkiot ovat
indeksitermien
painoja ja vektorit esitetään tässä yksinkertaisesti (?) listoina.
Laske vektorimallin mukaisten samanlaisuusmittojen (sisätulo,
kosinikerroin, päällekkäisyyskerroin, Dice, Jaccard) esimerkkiarvoja
kyselylle
Q = (0, 0, 1.0, 0.3, 0.7, 0, 0, 0, 1.0, 0) eli 'lapsi:1.0,
materiaali:0.3, puuvilla:0.7, vaate:1.0'
ja pyri niiden perusteella päättelemään mittojen ominaispiirteitä.
Mieti myös muuntyyppisten kyselyjen vaikutusta eri mittoja käytettäessä.
D1 = (kesä:0.8, materiaali:0.3, tuotanto:0.9, vaate:1.0)
D2 = (lapsi:0.5, materiaali:0.3, talvi:0.8, tuotanto:0.9, vaate:0.9)
D3 = (käyttö:0.3, lapsi:1.0, materiaali:0.8, talvi:0.6, valmistus:0.2)
D4 = (kesä:0.2, lapsi:0.2, puuvilla:0.6, tuotanto:0.8, vaate:0.2)
D5 = (käyttö:0.6, lapsi:1.0, vaate:1.0, valmistus:0.1)
D6 = (lapsi:0.9, vaate.0.5)
D7 = (lapsi:0.8, vaate:0.9, valmistus:0.1)
D8 = (tuonti:0.4, vaate:0.4, valmistus:0.7)
D9 = (tuonti:1.0, vaate.0.8)
D10 = (kesä:0.5, lapsi:0.8, puuvilla:0.4, tuonti:0.8, vaate:0.7)
D11 = (lapsi:0.7, tuonti:0.9, vaate:0.2)
D12 = (puuvilla:1.0, tuotanto:0.8)
2. Selvitä vektorimallin samanlaisuusmittojen (vrt. tehtävä 1)
ominaisuuksia ja eroja (normeeraustekijöiden merkitystä) laskemalla
niiden arvoja sopivissa (keinotekoisissa) tilanteissa:
- dokumentissa on esim. t, t/2, t/5, 4t/5 (yleisesti t/k, 2t/k,...,
(k-1)t/k) ykköstä,
- kyselyssä on esim. p kpl ykkösiä; p < t, p << t (t on termien
lkm).
3. a) Mitä voidaan sanoa relevanssipalautetekniikalla muodostettavien
muunnettujen kyselyjen pituudesta (termien lukumäärästä)?
b)
Voidaanko relevanssipalautetekniikkaa käyttää, jos ensimmäisen
kyselyn vastaus on tyhjä? (Onko mitään keinoja estää tätä?)
c) Voidaanko jotenkin yleisesti luonnehtia, millaisissa tilanteissa
relevanssipalautetekniikalla on käyttöä,
millaisissa ei?
d) Millaisia kyselynmuunnostekniikkoja löytyy yleisistä
WWW-hakukoneista? (tarkastele yleisesti: relevanssipalautteeseen
perustuvia tai muita monivaiheisia käyttötapoja)
4. (**) Tutustu artikkeliin [1] ja selvitä siinä kuvatut keskeisimmät tutkimustulokset. (Tee noin 1-2 sivun kirjallinen yhteenveto, lähetä se sähköpostitse Anna Pienimäelle viimeistään tiistaina 6.2. klo 12 mennessä ja valmistaudu esittämään sisältö harjoituksissa.)
Lähteet:
1. Magennis, M. & van Rijsbergen, C.J., The potential and actual
effectiveness of interactive query expansion. Proc. ACM SIGIR97 Conf.,
1997. (http://dev.acm.org/pubs/contents/proceedings/ir/258525/p324-magennis/p324-magennis.pdf;
saatavissa ainakin laitoksen koneilta - kopio kurssikansiossa)