Anna Kuosmanen väittelee 20.12.2017 aiheesta Kolmannen sukupolven RNA-sekvensointidatan analyysi

FM Anna Kuosmanen väittelee keskiviikkona 20.12.2017 klo 12 Helsingin yliopiston päärakennuksen auditoriossa XV (Unioninkatu 34, 4 krs.) aiheesta Third-Generation RNA-Sequencing Analysis: Graph Alignment and Transcript Assemby with Long Reads. Vastaväittäjänä toimii professori Paola Bonizzoni (Università di Milano-Bicocca, Italia) ja kustoksena professori Veli Mäkinen (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi.

Kolmannen sukupolven RNA-sekvensointidatan analyysi: verkkolinjausalgoritmit ja transkriptien kokoaminen pitkistä lukujaksoista

Transkriptiossa organismin geenien mallin mukaan luodaan RNA-molekyyleja. Lukuisat tekijät, sekä solun sisäiset että ulkoiset, määrittävät mitä geenejä transkriptoidaan, ja missä määrin. Tämän prosessin tutkiminen antaa arvokasta tietoa esimerkiksi lääketieteelliseen diagnostiikkaan.

Yksi yleisistä RNA-sekvensointidatan analyysitavoista koostuu kolmesta osasta: lukujaksojen (read sequences) linjaus referenssigenomiin, transkriptien kokoaminen, ja transkriptien ekspressiotasojen määrittäminen. Toisen sukupolven sekvensointiteknologian kehityksen myötä sekvensoinnin hinta laski huomattavasti, mikä salli RNA-sekvensointidatan käytön yhä useampaan tarkoitukseen. Nyt kolmannen sukupolven sekvensointiteknologiat tarjoavat kertaluokkaa pidempiä lukujaksoja, mikä laajentaa analysointimahdollisuuksia. Kuitenkin suurempi virhemäärä, korkeampi hinta ja pienempi määrä tuotettua dataa tuovat omat haasteensa. Toisen ja kolmannen sukupolven teknologioiden käyttäminen yhdessä, ns. hybridilähestymistapa, on tutkimussuunta joka on kerännyt paljon kiinnostusta viimeaikoina.

Tämän tutkielman ensimmäinen osa keskittyy toisen sukupolven, eli ns. lyhyiden RNA-lukujaksojen (short read), analyysiin. Näiden lyhyiden lukujaksojen linjausta referenssigenomiin on tutkittu jo 2000-luvulla, joten tällä alueella keskitymme olemassaolevaan kirjallisuuteen. Transkriptien kokoamisen alalta esittelemme metodin, joka käyttää vähimmäiskustannusvirtauksen (minimum-cost flow) mallia. Vähimmäiskustannusvirtauksen mallissa lukujaksoista luotu verkko peitetään joukolla polkuja, joiden kustannus on pienin mahdollinen. Virtausmalleja on käytetty myös muiden tutkijoiden kehittämissä analyysityökaluissa.

Tämän tutkielman suurin kontribuutio on toisessa osassa, joka keskittyy ns. pitkien RNA-lukujaksojen (long read) analysointiin. Tutkimuksemme lähtökohtana on ollut malli, jossa pienimmän polkupeitteen (Minimum Path Cover) ongelmaan lisätään alipolkurajoitus (subpath constraint). Jokainen alipolkurajoitus vastaa eksoniketjua (exon chain), jotka jokin pitkä lukujakso peittää, ja jokaisen alipolkurajoituksen täytyy sisältyä kokonaan johonkin polkupeitteen polkuun. Tämän konseptin toteuttamisen lisäksi testasimme kokeellisesti erilaisia lähestymistapoja eksoniketjujen löytämiseksi. Näihin testattaviin lähestymistapoihin kuului pitkien lukujaksojen linjaaminen suoraan lyhyistä lukujaksoista luotuun verkkoon referenssigenomin sijaan. Tämä lähestymistapa johti tämän tutkielman viimeiseen kontribuutioon: kolineaarisen ketjun (co-linear chaining) algoritmin yleistäminen kahden sekvenssin sijasta sekvenssiin ja suunnattuun syklittömään verkkoon.

Väitöskirjan saatavuus

Väitöskirjan elektroninen versio on saatavilla Helsingin yliopiston e-thesis-palvelussa osoitteessa http://urn.fi/URN:ISBN:978-951-51-3889-7.

Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: anna.kuosmanen@cs.helsinki.fi.

 

11.12.2017 - 14:02 Pirjo Moen
29.11.2017 - 16:52 Pirjo Moen