Yliopiston etusivulle Suomeksi På svenska In English
Helsingin yliopisto Tietojenkäsittelytieteen laitos
 

Vuosikertomus 2005

Dokumenttien hallinta, tiedonhaku ja tiedon louhinta - Doremi

Doremi-tutkimusryhmän tutkimusalueita ovat dokumenttien hallinta, tiedonhakumenetelmät, tiedon louhinta ja kieliteknologia. Ryhmä on kehittänyt menetelmiä kysymysvastausjärjestelmiin, tiedon eristämiseen, uutistapahtumien tunnistamiseen ja seuraamiseen, tiedonhakuun XML-dokumenteista ja tiedon louhintaan tekstistä.

Kysymysvastausjärjestelmien ideana on, että käyttäjä antaa kysymyksen luonnollisen kielen lauseena ja järjestelmä etsii kysymykseen vastauksen laajasta tekstikokoelmasta. Vastaus on vaatimuksista riippuen joko katkelma tekstiä, josta lukija vastauksen ymmärtää, tai tarkka vastaus, esimerkiksi erisnimi. Vuonna 2005 Doremi osallistui toista kertaa evaluointihankkeen Cross-Language Evaluation Forum (CLEF) kysymysvastaus-osioon, jonka tarkoituksena on tarjota koeaineistoja ja evaluointiympäristö kysymysvastausjärjestelmille. Ryhmä osallistui hankkeeseen kolmella järjestelmällä, kahdella yksikielisellä (suomi, ranska) ja yhdellä kaksikielisellä (kysymykset suomeksi - tekstikokoelmat englanniksi).

Useita tutkimuskysymyksiä integroi projekti Mobile and Multilingual Maintenance Man (4M), joka on laaja yhteistyöprojekti Helsingin yliopiston ja Teknillisen korkeakoulun useiden tutkimusryhmien sekä VTT Tietotekniikan välillä. 4M-projektissa tavoitteena on kehittää luonnollisella kielellä keskusteleva tietämystukijärjestelmä laitteita korjaavaa huoltomiestä varten. Doremi-ryhmän vastuualueena on kehittää menetelmiä tietämyksen tuottamiseen tekstidokumenteista, esimerkiksi erilaisten toimintaohjeiden eristämiseen laitteen käsikirjoista. Lisäksi tutkitaan pienelle näytölle sopivaa, tarkkaan tulokseen tähtäävää tiedonhakua, joka hyödyntää ontologioita ja keskusteluhistoriaa.

Pattern-based Understanding and Learning System (PULS) on hanke, jonka tavoitteena on rakentaa infektiolääkäreitä avustava järjestelmä. Järjestelmä kerää päivittäin lääkärien sähköpostilistalta uusia ilmoituksia infektiotautien esiintymisestä maailmassa, eristää ilmoituksista faktatiedot (paikkakunta, infektiotauti, sairastuneiden määrä jne.) ja tallentaa tiedot tietokantaan, josta kuka tahansa voi hakea tietoja www-sivun kautta (http://doremi.cs.helsinki.fi/puls/). Erityisenä tavoitteena projektilla on lisätä eristystuloksen luotettavuutta analysoimalla tietokantaa kokonaisuutena. Yleensä tietoa eristetään vain yhdestä dokumentista kerrallaan, joten tällainen dokumenttien rajat ylittävä tiedon eristäminen on vielä hyvin uutta.

Muita tutkimusryhmässä jatkuvia tutkimusaiheita ovat mm. tekstitiedon louhinta (text mining) ja tiedonhaku XML-dokumenteista, joihin liittyen valmistui Antoine Doucet'n väitöskirja monisanaisten termien löytämisestä ja hyödyntämisestä.

Yhteyshenkilöt: professori Helena Ahonen-Myka ja tutkija, PhD Roman Yangarber.

Kotisivu: http://www.cs.helsinki.fi/research/doremi/

Projekti

Mobile and Multilingual Maintenance Man (4M)

Julkaisuja

Aunimo L.
A Question Typology and Feature Set for QA. Proceedings of the Workshop for Knowledge and Reasoning for Answering Questions, held in conjuction with IJCAI-05, July 2005, Edinburgh , Great Britain .

Doucet A.
Advanced Document Description, a Sequential Approach. PhD Thesis. Department of Computer Science, Series of Publications A, Report A-2005-2.

Doucet A. & Ahonen-Myka H.
A Method to Calculate Probability and Expected Document Frequency of Discontinued Word Sequences. In Proceedings of ACM SIGIR 2005, ELECTRA Workshop on Methodologies and Evaluation of Lexical Cohesion Techniques in Real-world Applications (Beyond Bag of Words), Salvador, Brazil, August 15-19, 2005.

Vallin A. & Magnini B. & Giampiccolo D. & Aunimo L. & Ayache C. & Osenova P. & Penas A. & de Rijke M. & Sacaleanu B. & Santos D. & Sutcliffe R.
Overview of the CLEF 2005 Multilingual Question Answering Track. Proceedings of the 6th Workshop of the Cross-Language Evaluation Forum, CLEF 2005, Vienna , Austria , September 21-23, 2005.

Yangarber R. & Jokipii L.
Redundancy-based Correction of Automatically Extracted Facts. In Proceedings of the Human Language Technology Conference/ Conference on Empirical Methods in Natural Language Processing: HLT/EMNLP-2005, Vancouver , Canada .

Vierailut

Vierailut ryhmään:

Damien Beaudrey
INSA Lyon, Ranska, 21.2.-31.7.2005