Patterns in permuted binary matrices

Tapahtuman tyyppi: 
Väitöstilaisuus
Väitöstilaisuus
Väittelijä: 
FM Esa Junttila
Vastaväittäjä: 
Professori Matti Nykänen, Itä-Suomen yliopisto
Kustos: 
Professori Hannu Toivonen, Helsingin yliopisto
Aika: 
10.08.2011 - 12:15 - 18:00
Paikka: 
Helsingin yliopiston päärakennus, Fabianinkatu 33, Sali 13 (uusi puoli), 3. kerros
Kuvaus: 

FM Esa Junttila väittelee keskiviikkona 10.8.2011 kello 12 Helsingin yliopiston matemaattis-luonnontieteellisessä tiedekunnassa aiheesta "Patterns in Permuted Binary Matrices".  Tutkimus kuuluu tietojenkäsittelytieteen alaan ja erityisesti tiedonlouhintaan.

(Esa Junttila will defend his doctoral thesis on Wednesday, August 10th, at noon. Address: University of Helsinki Main Building, Fabianinkatu 33, Auditorium 13. The event will be in Finnish. See a scientific abstract below.)

Esa Junttila

Väitöskirjan saatavuus

Väitöskirjan elektroninen versio on saatavilla e-thesis-palvelussa ja väittelijän www-sivulla:

http://helda.helsinki.fi/handle/10138/27248

http://www.cs.helsinki.fi/u/ejunttil/publications/Patterns_Junttila_2011.pdf

Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään:  040-8234987, esa.junttila@alumni.helsinki.fi

 

Suomenkielinen tiivistelmä

Aineiston uudelleenjärjestäminen paljastaa sen sisäisen rakenteen

Elektroniset aineistot ovat usein suuria ja niiden sisältämät hahmot aluksi tuntemattomia, joten hahmojen löytämiseen tarvitaan tehokkaita tietokoneohjelmia. Hahmojen tunnistaminen auttaa kuvailemaan esimerkiksi nisäkäs- ja murresana-aineistojen sekä sosiaalisten verkostojen rakennetta. Parhaimmillaan tämä auttaa aineistoihin liittyvien tosimaailman ilmiöiden selittämisessä. Helsingin yliopistossa tarkastettava Esa Junttilan tietojenkäsittelytieteen alan väitöskirjatutkimus esittelee uusia automaattisia menetelmiä, jotka tunnistavat säännönmukaisuuksia aineistoissa.

Uudet menetelmät perustuvat aineiston uudelleenjärjestämiseen, joka tuo aineiston sisältämän hahmon esiin. Aineistolla tarkoitetaan taulukkomuotoista dataa, joka sisältää vain ykkösiä ja nollia. Esimerkiksi ykköset nisäkkäiden levinneisyystaulukossa merkitsevät, että tietty nisäkäs elää tietyllä seudulla. Menetelmissä taulukon rivit ja sarakkeet järjestetään niin, että hahmo erottuu ihmisille mahdollisimman selvästi. Nisäkäsaineistolle sovellettuna kuvatut menetelmät voivat tuottaa esimerkiksi nisäkkäiden hierarkian, ryhmittymiä tai muun järjestyksen.

Teoreettinen tarkastelu synnyttää hahmojen etsintään nopeita algoritmeja, jotka pystyvät käsittelemään tuhansia rivejä ja sarakkeita. Haasteena on menetelmien kyky sietää virheitä: esiintyvä hahmo on löydettävä silloinkin, kun aineiston laatu on kehno. Räätälöidyt tilastolliset testit kertovat lopulta löydetyn hahmon merkitsevyyden.

Väittelijä on etsinyt kuvatuilla menetelmillä hahmoja esimerkiksi geneettisestä aineistosta, sosiaalisista verkostoista sekä nisäkkäiden, murresanojen ja fossiilien esiintymistä. Löydetty säännönmukaisuus vahvisti käsitystä tutkittujen aineistojen sisäisestä rakenteesta ja rohkaisee jatkotutkimuksiin vastaavilla tutkimusaloilla, kuten ekologiassa ja paleontologiassa.

 

Scientific abstract

Patterns in permuted binary matrices

Reorganizing a dataset so that its hidden structure can be observed is useful in any data analysis task. For example, detecting a regularity in a dataset helps us to interpret the data, compress the data, and explain the processes behind the data. We study datasets that come in the form of binary matrices (tables with 0s and 1s). Our goal is to develop automatic methods that bring out certain patterns by permuting the rows and columns.

We concentrate on the following patterns in binary matrices: consecutive-ones (C1P), simultaneous consecutive-ones (SC1P), nestedness, k-nestedness, and bandedness. These patterns reflect specific types of interplay and variation between the rows and columns, such as continuity and hierarchies. Furthermore, their combinatorial properties are interlinked, which helps us to develop the theory of binary matrices and efficient algorithms. Indeed, we can detect all these patterns in a binary matrix efficiently, that is, in polynomial time in the size of the matrix.

Since real-world datasets often contain noise and errors, we rarely witness perfect patterns. Therefore we also need to assess how far an input matrix is from a pattern: we count the number of flips (from 0s to 1s or vice versa) needed to bring out the perfect pattern in the matrix. Unfortunately, for most patterns it is an NP-complete problem to find the minimum distance to a matrix that has the perfect pattern, which means that the existence of a polynomial-time algorithm is unlikely.

To find patterns in datasets with noise, we need methods that are noise-tolerant and work in practical time with large datasets. The theory of binary matrices gives rise to robust heuristics that have good performance with synthetic data and discover easily interpretable structures in real-world datasets: dialectical variation in the spoken Finnish language, division of European locations by the hierarchies found in mammal occurrences, and co-occuring groups in network data.

In addition to determining the distance from a dataset to a pattern, we need to determine whether the pattern is significant or a mere occurrence of a random chance. To this end, we use significance testing: we deem a dataset significant if it appears exceptional when compared to datasets generated from a certain null hypothesis. After detecting a significant pattern in a dataset, it is up to domain experts to interpret the results in the terms of the application.

04.08.2011 - 20:17 Esa J Junttila
04.08.2011 - 20:02 Esa J Junttila