Kjell Lemström: String Matching Techniques for Music Retrieval

Public defense of Ph.D. Dissertation November 24th, 2000

UNIVERSITY OF HELSINKI
FACULTY OF SCIENCE
DEPARTMENT OF COMPUTER SCIENCE

Kjell Lemström:
String Matching Techniques
for Music Retrieval

Department of Computer Science, Series of Publications A, Report A-2000-4

ISBN: 951-45-9573-4
ISSN: 1238-8645
viii + 56 + 56 pages

To be presented, with the permission of the Faculty of Science of the University of Helsinki, for public criticism in Auditorium XIV, Main Building, on November 24th, 2000, at 12 o'clock noon.

Official opponent: Professor Pekka Kilpeläinen, University of Kuopio, Dept. of Computer Science & Applied Math
Custos: Professor Matti Mäkelä, University of Helsinki, Department of Computer Science
Advisor: Professor Esko Ukkonen, University of Helsinki, Department of Computer Science

Abstract of the dissertation (PostScript format)
Table of Contents of the dissertation (PostScript format)
Full text of the dissertation (PostScript format, 1.3 MB)
Full text (compressed) of the dissertation (PostScript format/compressed with gzip, 272 KB; to open, use gunzip)
Errata (as on April 3rd, 2001).

Press release in [ English | Finnish | Swedish ]

Press release in English

Helsinki, November 21st,2000

String Matching Techniques for Music Retrieval

This thesis examines new methods with which to retrieve music from digital, symbolically coded databases, on the basis of its contents. For long now, communications companies and music producers have stored music in large digital databases for easier handling and to save storing space. In addition, there are thousands of music files on the Internet available to the general public. Until recently, retrieval from these databases has been based on key words that have been attached to the music documents, such as the name or text of the document. However, such methods as retrieval based on the contents of image databases have been available for years.
The possibility of music document retrieval based on their contents is essential, since attaching key words to documents takes an inordinately long time, and since it is impossible to create a complete and perfect list of key words for even the smallest database. In addition, it is natural to search multimedia documents based on their content; giving the search key for music, for example, by humming, playing an instrument, or with notation symbols. With the standards, methods and devices already developed and under development, it might be possible, in the near future, to select a song from the jukebox in a bar by humming a short excerpt of it into your own mobile phone.
The methods and their implementations presented in this thesis are based on general string algorithms, which were originally designed for comparing similarities in text strings, and for finding a text patterns in long text documents. This is why the music to be processed must be symbolically coded. This kind of encoding is used in traditional Western notation, for example, and in music files using MIDI encoding. This thesis will especially concentrate on the problems of searches where the pitches of the notes and the difference between them, i.e. the intervals, are taken into account in the search pattern and in the database documents. One important feature in this kind of searches is the so-called transposition invariance, which entails that the given search pattern must be found in the database, whatever its pitch.
The thesis presents new practical methods and theoretic search models, as well as evaluates the complexity of earlier distance specification results, on which the new models are based. The methods presented in the thesis use the so-called bit parallell algorithm technique. Bit-parallell algorithms are considerably faster than traditional methods. In addition, they need far less space than the methods based on indexing, which are faster, but demand at least ten times the space that the database to be indexed needs. One of the central results presented in the thesis is a new bit-parallell transposition invariant algorithm, with which to find monophonic search patterns in databases with polyphonic music documents.
The new methods presented in the thesis have been implemented as the prototype SEMEX (Search Engine for Melodic EXcerpts), which can retrieve occurences of the transposition invariants of monophonic search patterns quickly in large mono- and polyphonic music databses.

Press release in Finnish

Helsinki, 21.11.2000

Merkkijonoalgoritmit musiikin haussa

Tämä väitöskirja käsittelee uusia menetelmiä, joiden avulla musiikkia voidaan hakea sen sisällön perusteella digitaalisista, symbolisesti koodatuista tietokannoista. Viestintäyhtiöt ja musiikintuottajat ovat jo pitkään arkistoineet musiikkia suuriin, digitaalisessa muodossa oleviin tietokantoihin käsittelyn helpottamiseksi ja arkistointitilan säästämiseksi. Lisäksi Internetissä on tuhansittain musiikkitiedostoja kaikkien ulottuvilla. Aina viime vuosiin saakka haut tällaisista tietokannoista ovat perustuneet musiikkidokumentteihin liitettyihin avainsanoihin, esimerkiksi haetun dokumentin nimeen tai sen sanoitukseen, vaikka esimerkiksi kuvatietokantojen sisältöön perustuvia hakumenetelmiä on ollut käytettävissä jo useita vuosia.
Mahdollisuus hakea multimediadokumentteja sisällön perusteella on tärkeää, koska avainsanojen liittäminen dokumentteihin vie kohtuuttomasti aikaa, ja koska täydellisen ja tyhjentävän avainsanaluettelon laatiminen on pienellekin tietokannalle mahdotonta. Lisäksi on luonnollista etsiä multimediadokumentteja niiden omassa muodossa, esimerksi musiikkia antamalla hakuavain hyräilemällä, soittamalla jotakin instrumenttia tai nuottisymboleina. Jo kehitettyjen ja parhaillaan kehitteillä olevien standardien, menetelmien ja laitteiden avulla saattaa lähitulevaisuudessa olla mahdollista esimerkiksi, että baarissa asiakas voi pyytää levyautomaattia soittamaan haluttu musiikkikappale hyräilemällä pätkän kappaleen melodiaa omaan matkapuhelimeensa.
Tässä väitöskirjassa esitettävät ja sovellettavat menetelmät perustuvat yleisiin merkkijonoalgoritmeihin, jotka on alunperin suunniteltu tekstimuotoisten merkkijonojen samankaltaisuuden vertailuun ja tekstihahmon etsimiseksi pitkästä tekstidokumentista. Siksi käsiteltävän musiikin pitää olla symbolisesti koodattua. Tällaista koodausta käytetään esimerkiksi perinteisessä länsimaisessa nuottikirjoituksessa ja MIDI-muotoisissa musiikkitiedostoissa. Väitöskirjassa keskitytään erityisesti sellaisten hakujen problematiikkaan, joissa annetusta hakuavaimesta ja tietokannassa olevista dokumenteista otetaan huomioon nuottien korkeudet ja niiden väliset korkeuserot eli intervallit. Eräs tärkeä ominaisuus tällaisissa hauissa on ns. transpositioinvarianssi, joka tarkoittaa sitä, että annetun hakuavaimen esiintymä on löydyttävä tietokannasta riippumatta sen sävelkorkeudesta.
Väitöskirja esittelee uusia käytännöllisiä menetelmiä ja teoreettisia hakumalleja, sekä arvioi niiden jo aiemmin kehitettyjen etäisyysmääritelmien kompleksisuutta, joihin uudet mallit perustuvat. Esitettävät menetelmät käyttävät ns. bittirinnakkaista algoritmitekniikkaa. Bittirinnakkaiset algoritmit ovat huomattavasti vastaavia perinteisiä mentelmiä nopeampia. Lisäksi ne vaativat selvästi vähemmän ylimääräistä tilaa kuin niitä nopeammat indeksointiin perustuvat menetelmät, joiden vaatima tila saattaa olla jopa kymmenkertainen indeksoitavaan tietokantaan verrattuna. Eräs väitöskirjan keskeisimmistä tuloksista on uusi bittirinnakkainen transpositioinvariantti hakualgoritmi, jolla voidaan hakea yksiäänisten hakuavainten esiintymiä tietokannoista, joissa musiikkidokumentit voivat olla moniäänisiä.
Vaitoskirjassa esitellyt uudet menetelmät on toteutettu ja toteutuksen tuloksena syntynyt prototyyppi SEMEX (Search Engine for Melodic Excerpts) kykenee paikallistamaan nopeasti yksiäänisten hakuavainten transpositioinvariantteja esiintymiä suuristakin yksi- ja moniäänisistä musiikkitietokannoista.

Press release in Swedish

Helsingfors, 21.11.2000

Musiksökning med strängalgoritmer

Denna avhandling utforskar nya metoder med vilka man, utgående från dess innehåll, kan söka musik i digitala, symboliskt kodade databaser. Kommunikationsföretag och musikproducenter har redan länge lagrat musik i stora databaser i digital form, för att underlätta hantering och för att spara lagerutrymme. Dessutom finns det tusentals musikfiler på Internet inom räckhåll för den stora allmänheten. Tills nyligen har sökningar i sådana databaser gjorts med hjälp av nyckelord som hänfört sig till musikdokumentets namn eller text, trots att det i flera år redan har funnits möjlighet att göra sökningar som baserar sig på t.ex. bilddatabaser.
Möjligheten att söka musikdokument på basen av innehållet är viktig, eftersom det tar onödigt mycket tid att foga nyckelord till dokumenten, och eftersom det är omöjligt att göra en fullständig lista av nyckelord till en databas, hur liten den än är. Dessutom är det mera naturligt att söka multimediedokument i deras egen form, t.ex. musikdokument genom att gnola, genom att spela något instrument eller med hjälp av notsymboler. Med hjälp av den standardisering, de metoder och de apparater som redan finns, och som håller på att utvecklas, kan det inom en snar framtid t.ex. bli möjligt, att en kund i en bar kan be en skivautomat spela det önskade stycket genom att gnola en del av stycket i sin mobiltelefon.
Metoderna och deras tillämpningar som presenteras i denna avhandling baserar sig på allmänna strängalgoritmer som ursprungligen har använts till att jämföra likheten mellan strängar och sökning av textformer i ett långt dokument. Därför måste musiken vara kodad symboliskt. Sådan kodifiering används i sådana sammanhang som traditionell västerländsk notskrivning och musikfiler i MIDI-format. Avhandlingen koncentrerar sig på problematiken hos sådana sökningar där man beaktar notläget och skillnaden mellan dem, alltså intervallerna, i söknyckeln och dokumenten i databasen. En viktig egenskap i sådana sökningar är den så kallade transpositionsinvariansen, vilket betyder att söknyckeln måste kunna hittas i tonläget oberoende av databasen.
Avhandlingen presenterar nya praktiska metoder och teoretiska sökmodeller, förutom att den utvärderar komplexiteten hos distansdefinitioner som utvecklats förut, och som de nya modellerna baserar sig på. Metoderna som presenteras här baserar sig på så kallad bitparallell algoritmteknik. De bitparallella algoritmerna är betydligt snabbare än motsvarande traditionella metoder. Dessutom krävs det mycket mindre utrymme med dem än med metoder som baserar sig på indexering, vilka är snabbare, men kan kräva upp till tio gånger mera utrymme än databasen som skall indexeras. Ett centralt resultat som presenteras i avhandlingen är den nya bitparallella transpositions-invarianta sökalgoritmen, med vilken man kan söka efter förekomsten av enstämmiga söknycklar i databaser, där musikdokumenten kan vara flerstämmiga.
De nya metoderna som presenteras i avhandlingen har implemeterats, och den implementerade prototypen SEMEX (Search Engine for Melodic Excerpts) kan snabbt hitta enstämmiga transpsitionsvarianter i stora en- och flerstämmiga musikdatabaser.

Page updated on April 4th, 2001.