Mika Timonen väittelee 25.1.2013 aiheesta Termien painotus lyhyissä dokumenteissa dokumenttien luokitteluun, avainsanojen louhimiseen ja kyselyjen laajentamiseen

FM Mika Timonen väittelee perjantaina 25.1.2013 kello 12 (Helsingin yliopiston päärakennus, Unioninkatu 34, Auditorio XIII (vanha puoli), 3. kerros) aiheesta "Term Weighting in Short Documents for Document Categorization, Keyword Extraction and Query Expansion". Tutkimus kuuluu tietojenkäsittelytieen alaan ja erityisesti lyhyiden tekstidokumenttien hallintaan. Vastaväittäjänä toimii dosentti Timo Honkela (Aalto-yliopisto) ja kustoksena professori Hannu Toivonen (Helsingin yliopisto).

Termien painotus lyhyissä dokumenteissa dokumenttien luokitteluun, avainsanojen louhimiseen ja kyselyjen laajentamiseen

Tämä väitös keskittyy termien painotuksen haasteisiin lyhyissä dokumenteissa. Työssä ehdotetaan painotusmenetelmiä kolmelle eri osa-alueelle: (1) dokumenttien kategorisointiin, jossa pyritään luokittelemaan muun muassa Twitter-viestejä, (2) avainsanojen louhintaan, jossa tavoitteena on tunnistaa ja louhia dokumentin tärkeimmät sanat, ja (3) avainsanojen assosiaatiomallinnukseen, jonka tavoitteena on tunnistaa sanojen välisiä linkkejä ja hyödyntää niitä haun laajennoksessa.

Koska tekstinlouhinta keskittyy nykyään käyttäjien luomiin dokumentteihin, kuten esimerkiksi sosiaaliseen mediaan, tekstinlouhinnassa käytetty tieto on muuttumassa. Suurin muutos on tekstin pituus, koska sosiaalisen median viestit ovat usein alle 20 sanaa pitkiä. Tästä seuraa painotuksen suurin haaste: sanat esiintyvät usein pelkästään kerran dokumentin sisällä. Me kutsumme tätä haastetta Term Frequency = 1 (Termi Frekvenssi = 1) tai TF=1 haasteeksi. Tämän haasteen vuoksi useat perinteiset menetelmät, kuten esimerkiksi TF-IDF, eivät tuota hyviä tuloksia lyhyissä dokumenteissa.

Tämän työn ensimmäinen kontribuutio on termien painotus menetelmä dokumenttien luokitteluun. Menetelmä perustuu sanan esiintymistiheyden korvaamiseen muilla komponenteille, kuten esimerkiksi sanan luokkakohtaisella jakaumalla.

Työn toinen kontribuutio on menetelmä avainsanojen louhintaan, joka perustuu sanojen hyvyyden arviointiin kolmella eri tasolla: korpus-, klusteri- ja dokumenttitasoilla. Kolmas kontribuutio keskittyy avainsanojen assosiaatiomallintamiseen. Tässä tavoitteena on löytää vahvasti toisiinsa liittyviä avainsanoja ja hyödyntää näitä linkkejä haun laajennoksessa.

Tämän väitöskirjan tärkein löydös on se, että olemassa olevat ja hyväksi havaitut menetelmät, jotka on luotu pitkille dokumenteille, eivät toimi lyhyiden dokumenttien kanssa optimaalisesti. Tässä väitöksessä esitetyt uudet menetelmät tuottavat lupaavia menetelmiä kaikilla kokeilluilla osa-alueilla.

Väitöskirjan saatavuus

Väitöskirjan elektroninen versio on saatavilla Helsingin yliopiston e-thesis-palvelussa osoitteessa http://urn.fi/URN:ISBN:978-952-10-8567-3.

Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: 050-5940002 tai mika.timonen@vtt.fi.

11.02.2013 - 12:08 Pirjo Moen
08.01.2013 - 12:29 Pirjo Moen