Tieteen päivät 2003 - professori Hannu Toivosen esitelmä
 

Tiedon louhinta geenikartoituksessa

Sairausgeenien kartoitus eli paikantaminen helpottaa sairauksia aiheuttavien mekanismien tutkimista ja ymmärtämistä, lääkkeiden suunnittelua sekä lääkinnän henkilökohtaista räätälöimistä. Geenikartoitus perustuu geneettisten aineistojen analysointiin. Näiden aineistojen kasvava koko ja monipuolisuus tekevät analyysitehtävästä toisaalta vaikeamman, toisaalta lisäävät sen mahdollisuuksia. Tiedon louhinnassa automaattisilla analyysialgoritmeillä pyritään löytämään laajoistakin aineistoista mielenkiintoisia säännönmukaisuuksia. Datasta tietoon -huippuyksikössä (From Data to Knowledge, FDK) on kehitetty tiedon louhintamenetelmiä mm. juuri geenikartoitukseen ja sovellettu niitä yhdessä Suomen genomikeskuksen, Kansanterveyslaitoksen ja Karolinska institutetin kanssa esimerkiksi astma- ja lukihäiriögeenien paikantamiseen.

Geenikartoitukseen käytettävä aineisto koostuu tyypillisesti tiettyä tutkittavaa perinnöllistä tautia sairastavista potilaista ja terveistä verrokeista sekä kunkin henkilön perimän eri kohdista luetuista näytteistä, geenimerkeistä. Tarkasteltavat geenimerkit eivät suoraan edusta geenejä - koska niitä ei ennen kartoitusta tunneta riittävän hyvin -, eikä aineistosta voi siis suoraan testata geenien ja sairauden välisiä yhteyksiä. Kartoitusmenetelmä perustuukin sen sijaan siihen, että mutaatioita tapahtuu geeneissä hyvin harvoin, ja siksi mutatoituneen geenin kantajat ovat usein perineet geenin samalta, ehkä hyvin kaukaiseltakin esivanhemmaltaan. Geeni on periytynyt tuolta esivanhemmalta vaihtelevan mittaisen perimän alueen osana, ja tähän alueeseen saattaa kuulua myös vaihteleva määrä geenimerkkejä. Tiedon louhintamenetelmän näennäisen yksinkertaisena tavoitteena onkin havaita, millaiset geenimerkkien yhdistelmät yhdistävät sairaita. Se perimän alue, jolta sairaat terveistä erotteleva yhdenmukaisuus löytyy, on todennäköisesti lähellä geeniä.

Vaikka ratkaisuperiaate onkin yksinkertainen, ei ongelma ole helppo. Tähän on useita syitä. Ensinnäkin geenien vaikutukset ovat usein niin heikkoja ja toisaalta monimutkaisia, että niiden havaitseminen voi olla vaikeaa: terveiden joukossa voi esimerkiksi olla geenin kantajia samoin kuin sairaiden joukossa potilaita joilla kyseistä geeniä ei ole. Toiseksi ongelman laskennallinen koko on valtava. Jos perimästä tarkastellaan näytteitä vaikkapa 100 geenimerkistä, joissa kussakin esiintyy kahta alleelia (varianttia), niin erilaisia geenimerkkien yhdistelmiä on yli 1200000000000000000000000000000. Vaikka yhdistelmiä tutkittaisiin miljoona sekunnissa, niin aikaa kaikkien tutkimiseen kuluisi 40000000000000000 vuotta. Kuitenkin vain murto-osa yhdistelmistä toistuu edes kaksi kertaa.

Yksi tiedon louhinnan tutkimuksen ydinalueita onkin toistuvien säännönmukaisuuksien tehokas etsintä. Suuresta hakuavaruuden koosta huolimatta ongelma on ratkaistavissa tehokkaasti: sairaita mahdollisesti yhdistävät geenimerkkiyhdistelmät testataan sopivassa järjestyksessä ja etsintää karsitaan aiemmista testeistä saadun tiedon perusteella. Jos esimerkiksi geenimerkki X ei esiinny juuri kenelläkään sairaalla, niin mikään X:n sisältävä merkkiyhdistelmä ei myöskään voi esiintyä usealla sairaalla. Täman sinänsä yksinkertaisen havainnon avulla on kehitetty algoritmeja, jotka löytävät hetkessä sairaita terveistä erottelevat geenimerkkiyhdistelmät, ja paikantavat geenejä niiden avulla.

Toinen samanlaista aineistoa hyödyntävä lähestymistapa perustuu mahdollisten sukulaisuussuhteiden arviointiin geenimerkkidatasta. Kullakin kohdalla perimässä on oma sukuhistoriansa - ketju isovanhempia joilta kohta on peritty -, ja mutaation kantajilla siis geenikohdan historiat johtavat usein yhteisiin esivanhempiin ja muodostavat eräänlaisia sukupuita. Näitä sukupuita voidaan muodostaa geenimerkkidatasta tunnetuilla tehokkailla merkkijonoalgoritmeilla. Geenejä voidaan nyt kartoittaa seuraavasti. Kullekin perimän kohdalle muodostetaan paras mahdollinen "sukupuu" ja kussakin sukupuussa tarkastellaan sitä, ovatko sairaat läheisempää sukua keskenään kuin terveet. Sairaudelle altistava geeni sijaitsee todennäköisesti lähellä kohtaa, jossa sairaat ovat selvimmin sukua keskenään.

Geenikartoitus on tärkeä ja ajankohtainen ongelma. Edellä kuvatussa geenimerkkien louhinnassa käytetään hyväksi tietojenkäsittelytieteen käsitteitä ja algoritmeja, mm. hahmonsovituksesta ja koneoppimisesta. Menetelmiä voidaan käyttää valtavien etsintä- tai hypoteesiavaruuksien seulontaan. Lähestymistavan etuja ovat laskennallinen tehokkuus, erityisesti soveltuvuus laajoihinkin aineistoihin, parametrittomuus, sekä kokeellisesti osoitettu hyvä kartoitustarkkuus.

Ylös