Tiedonhakumenetelmät 18.5.01 Ratkaisut, arvostelu 1. a) Muodostetaan termivektorit esim. seuraavasti (termin painona esiintymien lukumäärä): D1 D2 D3 menu 3 2 2 choice 1 1 0 operation 2 0 0 service 1 0 0 information 3 0 0 recognize 1 0 1 ..... selection 0 4 1 item 0 2 1 ... remember 0 0 1 (Muiden dokumenttien ominaisuudet vaikuttavat todellisuudessa termipainoihin käänteisen dokumenttifrekvenssin kautta. Sitä ei ole tässä arvioitu. Vektorimallin periaatteen selvittämiseksi ei ole tarkkaan väliä sillä, mitkä termit otetaan mukaan; voidaan ajatella, että jopa joitakin edellä käytettyjä esimerkkitermejä voitaisiin pitää liian yleisinä. Alla olevat arvot on laskettu ottamalla termeiksi dokumenteista kaikki muut paitsi aivan selvät täytesanat, 27 kpl) Lähekkäisyys määritetään esimerkiksi kosinikertoimella (ks. luennot). Saadaan esimerkiksi arvot sim(D1,D2) = 0.22, sim(D1,D3) = 0.32, sim(D2,D3) = 0.43. b) Esimerkiksi kysely (selection, operation) tuottaa vektorin Q = (0,0,1,0,...,0,1,0,...), ykköset termeille 'selection', 'operation'. Lasketaan samanlaisuudet sim(Q,Di) arvoilla i = 1,2,3. Näin saadaan sim(Q,D1) = 0.24, sim(Q,D2) = 0.46, sim(Q,D3) = 0.19. Jos samanlaisuudelle asetettu kynnysarvo on esimerkiksi 0.4, vain D2 kuuluu tulokseen. Arvostelu: a) 4p 2p oikea vektoriesitys + kerrottu, mistä arvot on saatu 2p läheisyys laskettu jollain järkevällä mitalla, mikä on selitetty b) 4p 2p kysely oikeassa muodossa ja tuottaa oikean tuloksen 2p perustelu siitä, miksi tämä toimii 2. Relevanssipalaute: luennot, ss. 2/21-23: - kyselyä muunnetaan automaattisesti perustuen siihen, että käyttäjä ilmaisee, mitkä edellisen tuloksen dokumenteista ovat relevantteja - muunnos kuvaannollisesti: q(i+1) = q(i) + a S Di - b S Di (S = summa ...) rel nonrel - muunnoksessa voidaan antaa erilaisia painoja relevanteille ja ei-relevanteille Hakukonesovellus: Käyttäjä merkitsisi tulosdokumentteja relevanteiksi ja ei-relevanteiksi (kun tulos on yleensä suuri, vain pienen osan). Järjestelmä muuntaisi kyselyä tutkimalla relevanteiksi merkittyjä dokumentteja: lisäämällä sellaisten termien painoja, jotka esiintyvät erityisesti relevanteissa dokumenteissa, ja vähentämällä muita painoja. Muitakin yhteyksiä voitaisiin ottaa huomioon, esim. relevanttien termien synonyymejä. Eräiden hakukoneiden 'Find related pages' on samansuuntainen toiminto. Sillä, että läheiset sivut esitetään erikseen, on hyvät ja huonot puolensa. Relevanssipalautemenetelmien yleinen ongelma on, että samat (relevantit) sivut näkyvät toistuvasti peräkkäisten kyselyjen tuloksessa (kärkipäässä). Arvostelu: 4p relevanssipalautteen perusidea (kuka tekee, mitä, miksi) 4p esimerkkejä, jotka osoittavat, että asia on ymmärretty käytännössä 3. Glimpse: luennot, ss. 5/7-8 (3 tasoa: mini-indeksi, pieni ja suuri) WebGlimpse: luennot, ss. 6/37-38 (paikalliset sivut, ei-paikalliset sivut, ympäristöjen muodostus) Arvostelu: 6p glimpse 2p mini/pieni/suuri 2p miten ne indeksoivat tarkemmin 2p toiminta 2p web-glimpse (ympäristö) 4. Dublin Coren yleinen merkitys: haku voidaan perustaa rakenteiseen tietoon. DC-elementit: - 'dokumentoivia': Title, Subject, ... , Language - Coverage: dokumenttia koskeva alue tai ajanjakso (ilmaistuna täsmällisesti tai väljemmin - Relation: dokumentin suhde toisiin dokumentteihin (osa, viittaa, versio, korvaa, ...). Näiden avulla voidaan hallita hypertekstimuotoisen dokumentin kokonaisuutta (esim. aliluvut solmuina eli 'dokumentteina' omine metatietoineen) tai dokumenttikokoelmia (dokumentti ilmaistaan osaksi jotain laajempaa kokonaisuutta l. dokumenttia). Arvostelu: 4p dublin core 2p elementeistä tärkeimmät 2p yleiskuvaus 4p esimerkkejä tiedonhaussa 5. Arvostelu: 4p / asia 1p aiheenvalinta 3p esittelytarkkuus, opettavaisuus, selkeys ja kattavuus