Tiedonhakumenetelmät kl. 2001

581257-8 Tiedonhakumenetelmät - Harjoitus 4/2001 (28.2.)

Merkillä (**) varustettu tehtävä lasketaan kahden tavallisen tehtävän veroiseksi.

1. Selvennä käänteiseen dokumenttifrekvenssiin perustuvan termien painotuksen (tf-idf) luonnetta laskemalla joitakin termipainojen esimerkkiarvoja

a) keinotekoisessa tilanteessa (esim. N = 10000; termi esiintyy 1,2, 10, 100, 1000, 10000 dokumentissa; yhdessä dokumentissa termin esiintymiä 1, 2, ... kpl),

b) joidenkin todellisten dokumenttien sisällöstä.

Täydellisen dokumentin sijasta b-kohdassa voi rajoittua esim. muutamien tieteellisten artikkelien tiivistelmiin, joita löytyy helposti esim. yliopistojen tutkimusryhmien www-sivuilta. Termifrekvenssit on tiivistelmistä mahdollista laskea jopa 'käsin', ja muutaman yleiseksi havaitun tai arvioidun termin esiintymien laskeminen ohjelmallisesti koko dokumentista ei ole vaikeaa sekään. Dokumenttifrekvenssit jäävät tietysti arvion varaan.

(Tehtävän tarkoituksena on siis antaa hieman käytännön tuntumaa esim. termien todellisiin frekvensseihin ja frekvenssisuureisiin yleensä. Laskenta sinänsä ei ole itsetarkoitus.)

2. Tf-idf-mittaa voidaan pitää aika karkeana termin merkityksen kuvaajana. Dokumentin termifrekvenssiä laskettaessa ei esimerkiksi oteta huomioon sitä, esiintyykö termi dokumentissa keskeisellä paikalla (pääotsikossa, jossain alaotsikossa, tiivistelmässä, dokumentin alussa, ...) vai ainoastaan alaviitteessä, lähdeviitteessä jne. Dokumenttifrekvenssissä ei taas oteta huomioon sitä, esiintyykö termi dokumentissa kerran vai toistuvasti.

Arvioi tf-idf-mittaan perustuvaa termien painotusta tältä kannalta: mitä painotuksen tarkentamisen mahdollisuuksia voisi (ainakin periaatteessa) olla, miten tarkennukset voitaisiin tehdä, olisivatko tarkennukset myös käytännössä käyttökelpoisia, ja millaisissa dokumenteissa? Konkretisoi tilannetta analysoimalla kahden luonteeltaan erilaisen esimerkkidokumentin sisältöä.

3. Anna kaksi esimerkkiä kyselystä (termijoukosta), jonka käsittelyssä tuntuisi olevan perustellusti hyötyä tyypillisen tesauruksen pääsanaa laajentavista (BT) tai kaventavista (NT) yhteyksistä. (Tarkoitetaan siis tilanteita, joissa hakutermi ei todennäköisesti esiinny kaikissa relevanteissa dokumenteissa, mutta jokin sen kanssa BT- tai NT-yhteydessä oleva termi esiintyy.) Mitä haittaa mainitunlaisesta tesauruksen käytöstä voi olla?

4. Etsi WWW:stä ainakin kaksi esimerkkiä hukkasanalistasta (ainakin toisen tulisi olla jokin sovellusaluekohtainen).

5. Liian yleisiä termejä ei tunnetusti kannata valita indeksitermeiksi. Unohdetaan hetkeksi tähän liittyvät yleiset perustelut. Mikä vaikutus termien yleisyydellä on käänteistiedoston, suffiksirakenteiden ja nimikirjoitustiedoston toimintaan?

Hannu.Erkio@cs.Helsinki.FI