next up previous contents
Next: Avainsanat Up: Hakukriteerit Previous: Hakukriteerit   Sisältö

Luokittelu

Perinteinen tapa tukea tiedonhakua dokumenttimassoista on käyttää manuaalisesti tehtyjä dokumenttien luokituksia. Otetaan käyttöön dokumenttiluokkahierarkia. Kun tietokantaan lisätään dokumentti, dokumenttiin liitetään tieto dokumenttiluokista joihin se kuuluu. Tämän menetelmän haittapuolet ovat selvät: tarvitaan asiantuntija tekemään luokitusta, eivätkä organisaatioiden luokitukset välttämättä ole keskenään yhteensopivia.

Pelkkä dokumenttiluokka on usein huono hakukriteeri. Jos annettuun luokkaan kuuluu paljon dokumentteja, haut tyypillisesti palauttavat paljon enemmän dokumentteja, kuin hakija on valmis selaamaan läpi. Toisaalta haun tulokset voivat olla liian epätäsmällisiä; käyttäjä saattoi etsiä tietoa nimenomaan Aho-Corasick-hahmonsovitusalgoritmista, eikä kaikista tunnetuista merkkijonoihin sovellettavista algoritmeista yleensä. Lisäksi etsittäessä jotain spesifistä tietoa, saattaa olla vaikea sijoittaa hakua johonkin tiettyyn dokumenttiluokkaan.

Dokumenttien luokitteluun on kehitetty myös automaattisia dokumenttien tilastollisiin ominaisuuksiin pohjautuvia menetelmiä. Näissä menetelmissä tyypillisesti käytetään jotain menetelmää kahden dokumentin välisen samankaltaisuuden (engl. similarity) määrittelemiseen. Yleisesti käytetty menetelmä samankaltaisuuden määrittelemiseen on vertailla dokumentista muodostettujen sanavektoreiden (engl. word vector) samankaltaisuutta. Dokumentin sanavektori kertoo jokaisen dokumentissa esiintyvän sanan perusmuodon ja frekvenssin (engl. frequency), eli sanan dokumentissa olevien esiintymien lukumäärän. Dokumenttien ajatellaan olevan samankaltaisia, mikäli dokumenttien sanavektorit ovat samankaltaisia.

Keskenään samankaltaisten dokumenttien ajatellaan kuuluvaan samaan dokumenttien luokkaan ja keskenään samankaltaisten dokumenttiluokkien taas ylemmän tason dokumenttiluokkaan. Näiden menetelmien tuottamat dokumenttien luokkahierarkiat eivät ole yhtä hyviä, kuin ammattitaitoisen luokittelijan manuaalisesti tekemät luokkahierarkiat. Tyypillisesti automaattisesti generoiduista dokumenttiluokkahierarkioista on enemmän hyötyä suurten dokumenttikokoelmien selailussa, kuin itse hauissa. Dokumenttihierarkian muodostamista kutsutaan klusteroinniksi (engl. clustering). Klusteroinnin toteuttamiseen on tarjolla useita algoritmeja (artikkeleissa [CPKT92] ja [CKP93] esitellään muutama tällainen algoritmi), joiden ominaisuudet vaihtelevat toteutuksen tehokkuuden ja tuloksen hyvyyden suhteen.


next up previous contents
Next: Avainsanat Up: Hakukriteerit Previous: Hakukriteerit   Sisältö
Jani Jaakkola 2004-11-19