581257-8 Tiedonhakumenetelmät - Harjoitus 1/2001 (31.1.)


Merkillä (**) varustettu tehtävä lasketaan kahden tavallisen tehtävän veroiseksi.
Tehtävien 1 ja 2 tavoitteena on antaa käytännön pohjaa tiedonhaun ongelmien käsittelylle kurssin jatkon kannalta. Muutkin tehtävät ovat luonteeltaan aiheeseen johdattelevia.

1. Tutustu kokeilemalla kahteen erilaiseen kirjastojärjestelmään: laitoksen kirjastojärjestelmään, johon pääsee laitoksen suomenkieliseltä WWW-kotisivulta, sekä HY:n kirjastojen HELKA-tietokantaan (http://wwls.lib.helsinki.fi/)

a) Mitä käyttäjän tiedontarpeen kannalta erityyppisiä hakuja järjestelmillä voi suorittaa? Arvioi myös hakujen onnistumista.
b) Mitä puutteita tai ongelmia järjestelmissä on? (Arvioi järjestelmiä nyt enemmän tiedonhaun kuin vain käyttöliittymän kannalta.)

2. Demonstroi käsitteitä saanti, tarkkuus ja relevanssi kehittämällä kahdeksan kuvitellun dokumentin joukko (esim. tietojenkäsittelyalan tai muita kirjoja, vain nimet) ja ainakin kaksi siihen kohdistettua kyselyä. Esitä sekä dokumentit että kyselyt termien luettelona, esim.
D1 = (sorting, searching, art, computer, programming)
= D. Knuthin teos 'The Art of Computer Programming, Vol. 3: Sorting and Searching',
Q1 = (sort, program) = 'lajitteluohjelmia koskevat teokset'.
Tässä ei ole tarkoitus kiinnittää huomiota kyselyn tuloksen muodostamisen tekniikkaan; voidaan esim. olettaa, että D1 kuuluisi kyselyn Q1 vastaukseen sanamuotojen eroista huolimatta.

3. Relevanssi on olennainen käsite tiedonhaun onnistumista arvioitaessa, mutta sitä ei ole helppo määritellä yksiselitteisesti. Yksittäisen haun tuloksessa on yleensä relevantteja ja ei-relevantteja osia. Tulos vaikuttaa konkreettisesti mm. siihen, kuinka käyttäjä jatkaa toimintaansa, usein uudella kyselyllä.

a) Miten itse määrittelisit tai luonnehtisit relevanssia? Mitä ongelmia liittyy haun tuloksena saadun dokumentin relevanssin päättelyyn?

b) Relevanssin käsitteen määrittelemiseksi on esitetty (Järvelin, s. 44) jäsentely ("generaattori"), jolla saadaan erilaisia relevanssin näkökulmia esille. Jäsentelyn osat ovat (A) mittaväline, (B) relevanssin aspekti, (C) kohde, (D) tarkastelun kehys ja (E) arvioija. Osat liittyvät toisiinsa se. mittaväline mittaa jotain aspektia, jonka ajatellaan vallitsevan kohteen ja tarkastelun kehyksen (esim. hakutehtävän) välillä jonkun arvioijan kannalta. Jäsentelyn osille on esitetty seuraavat vaihtoehdot:

  1. mitta, aste, määrä, arvostelma, arvio, suhde,
  2. hyöty, täsmäys, informatiivisuus, tyytyväisyys, asianmukaisuus, hyödyllisyys, vastaavuus,
  3. dokumentti, dokumentin esitys, viite, teksti, tarjottu tieto, fakta, artikkeli,
  4. hakutehtävä, hakutehtävän esitys, tutkimusvaihe, tiedontarve, käytetty tieto, näkökulma, pyyntö,
  5. kysyjä, välittäjä, asiantuntija, käyttäjä, henkilö, tuomari, informaatikko.
Mitä jäsentelyn avulla syntyviä vaihtoehtoja pidät luonnollisimpina? (Osa kohdista voi olla 'vaikeita'. Jos/kun et ymmärrä jotain kohtaa, ohita se; kaikkia ei ole tarpeen käydä läpi.)

4. a) Missä tilanteissa käänteishakemiston laajennuksina esitetyt termien lähekkäisyyteen tai dokumentin rakenteeseen liittyvät määreet olisivat käyttökelpoisia. Mieti mahdollisimman monipuolisia konkreettisia esimerkkejä.

b) Sisältyykö näitä piirteitä yleisesti käytettyihin hakukoneisiin?

5. (**) Tarkastele quorum-menetelmällä tehtävää kyselyä:

a) Oletetaan, että kyselyn hakutermit poimitaan automaattisesti luonnollisella kielellä esitetystä tiedontarvetta kuvaavasta ilmauksesta. Tarkastele esimerkkejä
- kalakantojen säätelyyn tarkoitettujen myrkkyjen vaikutus planktoniin,
- ammattimainen kalastus Suomen järvillä.

Ovatko kaikki osakyselyt näissä tapauksissa mielekkäitä?

b) Kokeile a-kohdan jälkimmäisen esimerkin quorum-osakyselyjä Alta Vistalla tai vastaavalla hakuagentilla. Mitä tämän perusteella voisi päätellä quorum-menetelmästä yleensä?

c) Quorum-menetelmä on sellaisenaan hyvin systemaattinen, mutta raskas. Voisiko sitä muuntaa tehokkaammaksi perusidean (Boolen-tyyppisen kyselyn muodostaminen automaattisesti) kokonaan häviämättä?



Hannu.Erkio@cs.Helsinki.FI