Maailma on täynnä elektronisessa muodossa olevaa tekstiä. Kymmeneen vuoteen ei yksikään organisaatio ole vakavissaan kirjoittanut ja tallentanut organisaatiossa syntyneitä dokumentteja pelkästään paperilla. Tietokoneita on käytetty dokumenttien tallentamiseen ja käsittelyyn siitä lähtien, kun yleiskäyttöiset koneet tulivat niin tehokkaiksi, että ne pystyivät käsittelemään kokonaisen kirjan verran tekstiä.
Tämän kehityksen seurauksena maailmassa on massoittain elektronisessa muodossa olevia dokumentteja. Pelkästään Helsingin yliopiston verkosta löytyy ATK-keskuksen WWW-indeksoijan mukaan 38000 WWW-sivua. Miten tällaisista dokumenttimassoista oikein haetaan tietoa?
Koska dokumenttikokoelmia säilytetään tietokoneella tietokoneen ymmärtämässä muodossa, on eräs ratkaisu ongelmaan käyttää tietokonetta ja automaattisia menetelmiä. Järjestelmiä, jotka säilyttävät suuria dokumenttikokoelmia ja tukevat tiedonhakua dokumenteista kutsutaan tässä tutkielmassa tekstitietokannoiksi. Tässä tutkielmassa pyritään antamaan yleiskuva tekstitietokantoihin liittyvistä käsitteistä ja tekstitietokantojen toteutusmenetelmistä.