Uusintakoe 12.6.2001 1. a) quorum-haku: luennot, s. 2/14. b) käänteinen dokumenttifrekvenssi (idf): luennot, s. 4/11. c) nimikirjoitustiedosto: luennot, s. 4/27. d) metadata ja sen käyttö tiedonhaussa: luennot, s. 8/4-7. Arvostelu: max. 3 p / kohta. 2. Erilaisia kyselyjä kaikkien tiettyyn henkilöön (esim. Urho Kaleva Kekkonen) liittyvien dokumenttien hakemiseksi; kyselyjen arviointi. 1. nimi sellaisenaan tai esim. muodossa "Urho Kekkonen" - tarkkuus hyvä, saanti huono (vain tarkat esiintymät) 2. osat AND-yhdistettyinä: Urho AND Kekkonen (tai ... AND Kaleva) - saanti parempi, tarkkuus heikkenee - antaa tulokseen esiintymät 'Kekkonen Urho' ja 'Urho Kekkonen' + kaikki dokumentit, joissa jompikumpi termi esiintyy jossain kohdassa 3. osat OR-yhdistettyinä: Urho OR Kekkonen - saanti edelleen parempi, mutta tarkkuus vielä huonompi (vain Urho-esiintymän sisältävät eivät sisällä välttämättä mitään Kekkosesta) 4. osat NEAR-yhdystettyinä: Urho NEAR Kekkonen - saanti lähellä esnimmäisiä vaihtoehtoja, tarkkuus kohtalainen - tulokseen tulee mm. 'Urho Kaleva Kekkonen' -esiintymän omaavat - tulee myös huonoja dokumentteja, esim. nimiluettelosta '... Kallio Urho, Kekkonen Antero, ...' 5. Kekkonen AND NOT (Antero OR Sylvi) eli suljetaan NOT-operaatiolla pois todennäköisiä ylimääräisiä dokumentteja - tarkkuus voi olla hyvä, mutta menetelmä ei ole yleispätevä; ainakaan aluksi ei aina tiedetä, mitä pitäisi sulkea pois 6. Kekkonen AND presidentti (tai jokin muu ominaisuus) - tarkkuus tässä hyvä, yleisessä tapauksessa riippuu ominaisuuksista Arvostelu: 1 p / kohta (max. 5 p) 3. Vektorimallin periaatteet ja merkitys Ks. luennot, luku 2 sekä harjoitustehtävä 2.1. 4. Hypertekstimuotoisen dokumenttikokoelman erityispiirteet tiedonhaussa Ks. luennot, luku 6. 5. Kopioiden havaitsemisen menetelmät Ks. luennot, kohta 8.3 tai harj. 8.4. Yleistä ratkaisuista / arvostelusta: Yleinen piirre vastauksissa oli karkea epätarkkuus: oli kerrottu vain jotain hyvin pintapuolista tehtävän aiheesta.