Tiedonhakumenetelmät 18.5.01 Ratkaisut, arvostelu

1. a) Muodostetaan termivektorit esim. seuraavasti 
(termin painona esiintymien lukumäärä):

			D1	D2	D3

menu			 3	 2	 2
choice			 1 	 1	 0
operation		 2 	 0	 0
service			 1 	 0	 0
information		 3	 0	 0
recognize		 1	 0	 1
.....
selection		 0	 4	 1
item			 0	 2	 1
...
remember		 0	 0 	 1

(Muiden dokumenttien ominaisuudet vaikuttavat todellisuudessa
termipainoihin käänteisen dokumenttifrekvenssin kautta. Sitä ei ole
tässä arvioitu. Vektorimallin periaatteen selvittämiseksi ei ole
tarkkaan väliä sillä, mitkä termit otetaan mukaan; voidaan ajatella,
että jopa joitakin edellä käytettyjä esimerkkitermejä voitaisiin pitää
liian yleisinä. Alla olevat arvot on laskettu ottamalla termeiksi
dokumenteista kaikki muut paitsi aivan selvät täytesanat, 27 kpl)

Lähekkäisyys määritetään esimerkiksi kosinikertoimella (ks. luennot).
Saadaan esimerkiksi arvot 

sim(D1,D2) = 0.22, sim(D1,D3) = 0.32, sim(D2,D3) = 0.43. 

b) Esimerkiksi kysely (selection, operation) tuottaa vektorin

Q = (0,0,1,0,...,0,1,0,...), ykköset termeille 'selection', 'operation'.
Lasketaan samanlaisuudet sim(Q,Di) arvoilla i = 1,2,3. Näin saadaan 

sim(Q,D1) = 0.24, sim(Q,D2) = 0.46, sim(Q,D3) = 0.19.

Jos samanlaisuudelle asetettu kynnysarvo on esimerkiksi 0.4, vain D2
kuuluu tulokseen.

Arvostelu: 
a) 4p

2p oikea vektoriesitys + kerrottu, mistä arvot on saatu
2p läheisyys laskettu jollain järkevällä mitalla, mikä on selitetty

b) 4p

2p kysely oikeassa muodossa ja tuottaa oikean tuloksen
2p perustelu siitä, miksi tämä toimii 



2. Relevanssipalaute: luennot, ss. 2/21-23:

- kyselyä muunnetaan automaattisesti perustuen siihen, että käyttäjä
ilmaisee, mitkä edellisen tuloksen dokumenteista ovat relevantteja

- muunnos kuvaannollisesti:

  q(i+1) = q(i) + a S   Di - b S      Di    (S = summa ...)
                     rel        nonrel 

- muunnoksessa voidaan antaa erilaisia painoja relevanteille ja
ei-relevanteille 

Hakukonesovellus: Käyttäjä merkitsisi tulosdokumentteja relevanteiksi ja
ei-relevanteiksi (kun tulos on yleensä suuri, vain pienen osan).
Järjestelmä muuntaisi kyselyä tutkimalla relevanteiksi merkittyjä
dokumentteja: lisäämällä sellaisten termien painoja, jotka esiintyvät
erityisesti relevanteissa dokumenteissa, ja vähentämällä muita painoja.
Muitakin yhteyksiä voitaisiin ottaa huomioon, esim. relevanttien termien
synonyymejä. 

Eräiden hakukoneiden 'Find related pages' on samansuuntainen toiminto.
Sillä, että läheiset sivut esitetään erikseen, on hyvät ja huonot
puolensa. Relevanssipalautemenetelmien yleinen ongelma on, että samat
(relevantit) sivut näkyvät toistuvasti peräkkäisten kyselyjen tuloksessa
(kärkipäässä). 

Arvostelu: 

4p relevanssipalautteen perusidea (kuka tekee, mitä, miksi)
4p esimerkkejä, jotka osoittavat, että asia on ymmärretty käytännössä


3. Glimpse: luennot, ss. 5/7-8 (3 tasoa: mini-indeksi, pieni ja suuri)

WebGlimpse: luennot, ss. 6/37-38 (paikalliset sivut, ei-paikalliset
sivut, ympäristöjen muodostus)

Arvostelu:

6p glimpse
        2p mini/pieni/suuri
        2p miten ne indeksoivat tarkemmin
        2p toiminta
2p web-glimpse (ympäristö)


4. Dublin Coren yleinen merkitys: haku voidaan perustaa rakenteiseen
tietoon. DC-elementit:

- 'dokumentoivia': Title, Subject, ... , Language

- Coverage: dokumenttia koskeva alue tai ajanjakso (ilmaistuna
täsmällisesti tai väljemmin

- Relation: dokumentin suhde toisiin dokumentteihin (osa, viittaa,
versio, korvaa, ...). Näiden avulla voidaan hallita hypertekstimuotoisen
dokumentin kokonaisuutta (esim. aliluvut solmuina eli 'dokumentteina'
omine metatietoineen) tai dokumenttikokoelmia (dokumentti ilmaistaan
osaksi jotain laajempaa kokonaisuutta l. dokumenttia).

Arvostelu:

4p dublin core
        2p elementeistä tärkeimmät
        2p yleiskuvaus
4p esimerkkejä tiedonhaussa


5. Arvostelu:

4p / asia
1p aiheenvalinta
3p esittelytarkkuus, opettavaisuus, selkeys ja kattavuus