Anna esimerkkejä mielestäsi hyvistä ja huonoista termeistä. Onko teksteissä sanoja tms., jotka jättäisit kokonaan pois dokumentin kuvaajasta? Anna esimerkkejä sanoista, joilla on korkea termifrekvenssi, ja toisaalta sanoista, joilla on keskimääräinen tai alhainen termifrekvenssi.
Dokumentin kuvaajaan valittavia sanoja voidaan muokata monin tavoin. Esimerkiksi sanoja voidaan typistää (stemming): esim. sanat "etsiminen", "etsiä", "etsintä" voitaisiin typistää muotoon "etsi". Englanninkielistä tekstiä typistettäessä käytetään usein Porterin algoritmia. Tutustu Porterin algoritmiin ja selosta sen toiminnan pääperiaatteet. Miten typistys vaikuttaa hakujen tarkkuuteen ja saantiin? Mitä muita muokkaustapoja voisi käyttää? Tarkastele esim. kohdan 1 dokumentteja.
Oletetaan, että käytettävissä on dokumenttikokoelma, jota kuvaa allaoleva dokumentti-termi -matriisi (dokumentit d1-d10 ja termit frog, snake, computer, user, want ja try). Matriisin alkiot kuvaavat termin termifrekvenssiä (tf) ko. dokumentissa.
frog | snake | computer | user | want | try | |
---|---|---|---|---|---|---|
d1 | 1 | 3 | 1 | 4 | 1 | |
d2 | 4 | 1 | 5 | 1 | ||
d3 | 2 | 1 | 4 | |||
d4 | 1 | 7 | ||||
d5 | 1 | 1 | 1 | |||
d6 | 1 | 2 | 3 | |||
d7 | 1 | 1 | 2 | |||
d8 | 4 | |||||
d9 | 3 | 1 | ||||
d10 | 1 | 1 | 1 |
Laske dokumenttien d1-d5 termeille (tf x idf)-paino kahdella tavalla:
tf = termin esiintymien lukumäärä dokumentissa
tf = termin esiintymien lukumäärä dokumentissa jaettuna sen termin esiintymien lukumäärällä (tässä dokumentissa), joka esiintyy useimmin. Esim. dokumentissa d1 useimmin esiintyy termi "want": 4 kertaa.