HU / Institutionen för datavetenskap / Årsberättelse 2005

Dokumenthantering, informationsåtervinning och kunskapsutvinning – Doremi

Forskningsenheten Doremi undersöker dokumenthantering, informationssökning, kunskapsutvinning och språkteknologi. Enheten har utvecklat metoder för fråge- och svarssystem, extrahering av information, varseblivande och spårning av händelser, informationssökning ur XML-dokument samt kunskapsutvinning ur text.

På senare tid har informationssökningen ur XML-dokument rönt bred uppmärksamhet i bl.a. det internationella projektet INEX, vars testdata Miro Lehtonen från Doremi utnyttjade i sin doktorsavhandling som blev färdig år 2006. Resultaten av avhandlingsarbetet har att göra med indexeringsmetoder för XML-dokument. Genom att endast indexera de texttätaste delarna av dokumenten blir indexet mindre, vilket förbättrar kvaliteten på sökresultaten. Dessutom upptäckte man att om termernas vikter baseras på XML-markeringen kan man ytterligare förbättra precisionen i informationssökningen.

Det slutförda projektet Mobile and Multilingual Maintenance Man (4M) övergick i det nya projektet Cognitive Guidance and Knowledge Systems (CoGKS). Liksom 4M är CoGKS ett brett samarbetsprojekt där flera forskningsgrupper från Helsingfors universitet och Tekniska högskolan samt VTT Informationsteknik ingår. Syftet är att utveckla ett kommunikations- och kunskapsstödsystem för expertsamfund (t.ex. servicepersonalen vid ett företag), där 4M-systemet skall följa med människoexperternas samtal och vid behov erbjuda instruktioner och bakgrundsinformation. Doremi ansvarar för att utveckla metoder för informationssökning, vilka plockar ut de avgörande söktermerna ur konversationen och övriga källor samt utför dynamisk sökning ur bakgrundsmaterialet. Dessutom utvecklar vi metoder som särskilt baserar sig på extrahering av information. Med dem skall man kunna samla kunskap ur stora dokumentsamlingar, som t.ex. problem- och reparationsbeskrivningar som rapporterats i servicedokument.

Doremi har börjat samarbeta med EU-baserade forskningsinstitutet Joint Research Centre för att förverkliga ett system som integrerar tekniker för informationssökning och extrahering av information. Systemet samlar och analyserar internationella nyhetsrapporter om smittosamma sjukdomar. Systemet Europe Media Monitor (EMM) som JRC har utvecklat använder nyckelord för att söka i tusentals nyhetsdokument efter teman som är viktiga för många EU-enheter. Dokumenten som man finner på det här viset klustreras sedan enligt tema. Doremi-gruppen har utvecklat systemet Pattern-based Understanding and Learning System (PULS) som analyserar klustren med dokument om smittosamma sjukdomar och extraherar fakta ur dem: vilken sjukdom har upptäckts i vilket land, och hur många har drabbats av den. Det integrerade realtidssystemet Medisys kan ses på adressen medusa.jrc.it/.

Gruppen har också samarbetat med Forskningscentralen för inhemska språk (Focis) och sammanställt en etymologisk databas för de finsk-ugriska språken. Innehållet i databasen kommer från ordboken Suomen sanojen alkuperä (ursprung för finska ord, SSA) som tidigare endast funnits i tryckt form. Man kommer att använda databasen för utveckling och testning av algoritmer för beräkningsetymologi. Algoritmerna kommer att söka efter genetiska relationer mellan de finsk-ugriska språken. Databasen kommer också att vara en värdefull resurs för forskare i ugrisk etymologi.

Doremi-gruppen arbetade också med fråge- och svarssystem. Idéen med fråge- och svarssystem är att användaren ställer en fråga på ett naturligt språk och systemet söker fram ett svar på frågan ur en stor textsamling. Beroende på kraven är svaret antingen ett stycke text, ur vilket läsaren kan hitta svaret, eller ett exakt svar, som ett egennamn.

Kontaktpersoner: professor Helena Ahonen-Myka och PhD Roman Yangarber.

Webbsida: http://www.cs.helsinki.fi/research/doremi/

Projekt:

Mobile and Multilingual Maintenance Man (4M)

Publikationer:

Doucet, A. & Ahonen-Myka, H.: Fast extraction of discontiguous sequences in text: a new approach based on maximal frequent sequences. In proceedings of IS-LTC 2006, Information Society - Language Technologies Conference, Ljubljana, Slovenia, October 9-14, 2006, p. 186-191.

Doucet, A. & Ahonen-Myka, H.: Probability and Expected Document Frequency of Discontinued Word Sequences, an efficient method for their exact computation. TAL journal, special issue on "Scaling of Natural Language Processing: Complexity, Algorithms and Architectures", 46 (2): 25 pages, 2006.

Lehtonen, M.: Designing User Studies for XML Retrieval. In proceedings of the ACM SIGIR 2006 Workshop on XML Element Retrieval Methodology, Seattle , USA , 10 August 2006, pages 28-34.

Lehtonen, M.: Preparing Heterogeneous XML for Full-Text Search. ACM Transactions on Information Systems (TOIS), Special Issue on XML Retrieval, 24, 4, pages 455-474. ACM Press, October 2006.

Lehtonen, M.: When a Few Highly Relevant Answers Are Enough. Lecture Notes in Computer Science, Advances in XML Information Retrieval and Evaluation: 4th International Workshop of the Initiative for the Evaluation of XML Retrieval, INEX 2005. Volume 3977 /2006. p. 296-305.

Årsberättelse 2006

Dokumenthantering, informationsåtervinning och kunskapsutvinning – Doremi