Tiedonhakumenetelmät, Harjoitukset 2, 1.-2.4.2004



  1. Tutki tekstejä 1 (suomenkielinen) ja 2 (englanninkielinen).

    Anna esimerkkejä mielestäsi hyvistä ja huonoista termeistä. Onko teksteissä sanoja tms., jotka jättäisit kokonaan pois dokumentin kuvaajasta? Anna esimerkkejä sanoista, joilla on korkea termifrekvenssi, ja toisaalta sanoista, joilla on keskimääräinen tai alhainen termifrekvenssi.

  2. Dokumentin kuvaajaan valittavia sanoja voidaan muokata monin tavoin. Esimerkiksi sanoja voidaan typistää (stemming): esim. sanat "etsiminen", "etsiä", "etsintä" voitaisiin typistää muotoon "etsi". Englanninkielistä tekstiä typistettäessä käytetään usein Porterin algoritmia. Tutustu Porterin algoritmiin ja selosta sen toiminnan pääperiaatteet. Miten typistys vaikuttaa hakujen tarkkuuteen ja saantiin? Mitä muita muokkaustapoja voisi käyttää? Tarkastele esim. kohdan 1 dokumentteja.

  3. Oletetaan, että käytettävissä on dokumenttikokoelma, jota kuvaa allaoleva dokumentti-termi -matriisi (dokumentit d1-d10 ja termit frog, snake, computer, user, want ja try). Matriisin alkiot kuvaavat termin termifrekvenssiä (tf) ko. dokumentissa.

      frogsnakecomputeruserwanttry
    d113 141
    d2  4151
    d321   4
    d4   17 
    d5 1  11
    d6   123
    d71  1 2
    d8    4 
    d9    31
    d10  111 

    Laske dokumenttien d1-d5 termeille (tf x idf)-paino kahdella tavalla:



Helena Ahonen-Myka
Last modified: Thu Mar 25 16:35:08 EET 2004