Juha Kärkkäinen: Repetition-Based Text Indexes

Public defense of Ph.D. Dissertation December 3rd, 1999

UNIVERSITY OF HELSINKI
FACULTY OF SCIENCE
DEPARTMENT OF COMPUTER SCIENCE

Juha Kärkkäinen:
Repetition-Based Text Indexes

Department of Computer Science, Series of Publications A, Report A-1999-4

ISBN: 951-45-8917-3
ISSN: 1238-8645
106 pages

To be presented, with the permission of the Faculty of Science of the University of Helsinki, for public criticism in Auditorium, Teollisuuskatu 23, on December 3rd, 1999, at 12 o'clock noon.

Official opponent: Professor Arne Andersson, Uppsala University
Custos: Professor Esko Ukkonen, University of Helsinki

Abstract of the dissertation (PostScript)
Full text of the dissertation (gzipped PostScript, 281 KB)
Full text in compact form (two sides, two pages each side, gzipped PostScript, 285 KB)

Press release in [ English | Finnish | Swedish ]

Press release in English

Helsinki, December 3rd, 1999

Repetition-Based Text Indexes

Document archives, collections of World Wide Web pages and biological sequence databases are examples of large collections of textual data. Finding a specific piece of information in such data can take a lot of time, even by a computer. Text indexes are used for making the task faster. A familiar example of a text index is the index at the end of a book. Computerized versions of text indexes are used, for example, by Internet search engines.
An index at the end of a book lists only a selected set of words and phrases. If the relevant word or phrase is not among the selected ones, the index is of little help. This thesis studies text indexes that can find any string in the text. The size of such an index can be quite large, which is a problem with many known methods.
The thesis presents a new scheme for constructing text indexes. The idea of the scheme is to analyze the text to find information about repetitions in the text, and to use that information to build the index. An example of a repetition is a word that occurs several times in the text. All text indexes use repetition information in some form, and indeed, many known text indexes can be seen as special cases of the new scheme.
The thesis also presents new text indexes derived using the scheme. The new indexes do not use all the repetition information, only a selected subset of it. This way the size of the index is smaller. The small size comes at the cost of slower searching, but sometimes the smaller size is more important. Theoretical analysis shows that the new text indexes are better than previously known text indexes, when small size is required.

Press release in Finnish

Helsinki, 3.12.1999

Toisteisuutta hyödyntävät tekstihakemistot

Elektroniset dokumenttiarkistot, World Wide Web -sivujen kokoelmat ja biosekvenssitietokannat ovat esimerkkejä suurista tekstimuotoisista tietovarastoista. Tietyn tiedon löytäminen tällaisesta tietovarastosta on työlästä jopa tietokoneelle. Tehtävää voidaan helpottaa käyttämällä tekstihakemistoja. Tuttu esimerkki tekstihakemistosta on kirjan lopussa oleva hakemisto. Tietokoneissa tekstihakemistoja käytetään mm. Internet-hakupalveluissa.
Kirjan lopussa oleva hakemisto sisältää vain joukon valittuja sanoja. Jos kiinnostava sana ei ole valittujen joukossa, hakemistosta ei ole paljon apua. Väitöskirjassa tarkastellaan tekstihakemistoja, joiden avulla voi löytää minkä tahansa merkkijonon tekstistä. Tällaisen hakemiston koko voi olla varsin suuri, mikä onkin ongelma monien tunnettujen hakemistorakenteiden tapauksessa.
Väitöskirja esittelee uuden menetelmän tekstihakemistojen muodostamiseen. Menetelmän ideana on analysoida tekstissä esiintyvää toisteisuutta ja käyttää näin saatua tietoa hakemiston rakentamiseen. Toisteisuutta on esimerkiksi sana, joka toistuu useasti tekstissä. Kaikki hakemistot käyttävät toisteisuutta jollain lailla hyväkseen ja monet tunnetut hakemistorakenteet voidaankin nähdä uuden menetelmän erikoistapauksina.
Väitöskirjassa johdetaan menetelmää käyttäen myös uudenlaisia hakemistorakenteita. Uudet hakemistot eivät hyödynnä kaikkea mahdollista tietoa toisteisuudesta vaan ainoastaan valikoitua osaa siitä. Tämän ansiosta hakemiston koko on pienempi kuin aiemmilla hakemistorakenteilla. Pienen koon hinta on hitaampi hakuaika, mutta joskus pieni koko on tärkeämpi. Teoreettinen analyysi osoittaa, että uudet hakemistot ovat aiempia parempia, kun pieni koko on oleellinen.

Press release in Swedish

Helsingfors, 3.12.1999

Textindex baserade på upprepningar

Dokumentarkiv, samlingar med webbsidor och biologiska sekvensdatabaser är exempel på stora textbaserade datalager. Att hitta specifik information i sådana data kan vara tidskrävande även för en datamaskin. Uppgiften kan förenklas med hjälp av textindex. Ett välkänt exempel på ett textindex är registret i slutet av en bok. Datoriserade versioner av textindex används t.ex. i Internets sökmaskiner.
Ett bokregister innehåller bara en utvald mängd ord. Om det sökta ordet inte finns med i registret, har man inte mycket nytta av detta. I avhandlingen granskas index med vars hjälp man kan hitta vilken teckenföljd som helst i en text. Ett sådant index kan vara mycket stort, vilket ofta utgör ett problem vad gäller de flesta kända indexeringsmetoder.
Avhandlingen presenterar en ny metod för att konstruera textindex. Metoden går ut på att analysera de upprepningar som förekommer i texten och använda den erhållna informationen för att bygga ett index. Ett exempel på upprepning är ett ord som förekommer flera gånger i texten. Alla index använder sådan information om upprepningar på något sätt och flera kända indexstrukturer kan ses som specialfall av denna nya metod.
Avhandlingen visar även några nya textindex som konstruerats enligt den nya indexeringsmetoden. Dessa nya index baserar sig bara på en del av den information som finns om upprepningar i texten. På grund av detta är indexen mindre jämfört med äldre indexstrukturer. Priset för ett mindre index är en långsammare söktid, men ibland är den mindre storleken viktigare. Teoretisk analys visar att nya index är bättre än tidigare då storleken spelar en viktig roll.

Page created by Juha.Karkkainen@cs.Helsinki.FI on January 20th, 2000