Tiedon
louhinta geenikartoituksessa
Sairausgeenien kartoitus eli paikantaminen helpottaa sairauksia
aiheuttavien mekanismien tutkimista ja ymmärtämistä,
lääkkeiden suunnittelua sekä lääkinnän
henkilökohtaista räätälöimistä. Geenikartoitus
perustuu geneettisten aineistojen analysointiin. Näiden aineistojen
kasvava koko ja monipuolisuus tekevät analyysitehtävästä
toisaalta vaikeamman, toisaalta lisäävät sen mahdollisuuksia.
Tiedon louhinnassa automaattisilla analyysialgoritmeillä pyritään
löytämään laajoistakin aineistoista mielenkiintoisia
säännönmukaisuuksia. Datasta tietoon -huippuyksikössä
(From Data to Knowledge, FDK) on kehitetty tiedon louhintamenetelmiä
mm. juuri geenikartoitukseen ja sovellettu niitä yhdessä
Suomen genomikeskuksen, Kansanterveyslaitoksen ja Karolinska institutetin
kanssa esimerkiksi astma- ja lukihäiriögeenien paikantamiseen.
Geenikartoitukseen käytettävä aineisto koostuu tyypillisesti
tiettyä tutkittavaa perinnöllistä tautia sairastavista
potilaista ja terveistä verrokeista sekä kunkin henkilön
perimän eri kohdista luetuista näytteistä, geenimerkeistä.
Tarkasteltavat geenimerkit eivät suoraan edusta geenejä
- koska niitä ei ennen kartoitusta tunneta riittävän
hyvin -, eikä aineistosta voi siis suoraan testata geenien
ja sairauden välisiä yhteyksiä. Kartoitusmenetelmä
perustuukin sen sijaan siihen, että mutaatioita tapahtuu geeneissä
hyvin harvoin, ja siksi mutatoituneen geenin kantajat ovat usein
perineet geenin samalta, ehkä hyvin kaukaiseltakin esivanhemmaltaan.
Geeni on periytynyt tuolta esivanhemmalta vaihtelevan mittaisen
perimän alueen osana, ja tähän alueeseen saattaa
kuulua myös vaihteleva määrä geenimerkkejä.
Tiedon louhintamenetelmän näennäisen yksinkertaisena
tavoitteena onkin havaita, millaiset geenimerkkien yhdistelmät
yhdistävät sairaita. Se perimän alue, jolta sairaat
terveistä erotteleva yhdenmukaisuus löytyy, on todennäköisesti
lähellä geeniä.
Vaikka ratkaisuperiaate onkin yksinkertainen, ei ongelma ole helppo.
Tähän on useita syitä. Ensinnäkin geenien vaikutukset
ovat usein niin heikkoja ja toisaalta monimutkaisia, että niiden
havaitseminen voi olla vaikeaa: terveiden joukossa voi esimerkiksi
olla geenin kantajia samoin kuin sairaiden joukossa potilaita joilla
kyseistä geeniä ei ole. Toiseksi ongelman laskennallinen
koko on valtava. Jos perimästä tarkastellaan näytteitä
vaikkapa 100 geenimerkistä, joissa kussakin esiintyy kahta
alleelia (varianttia), niin erilaisia geenimerkkien yhdistelmiä
on yli 1200000000000000000000000000000. Vaikka yhdistelmiä
tutkittaisiin miljoona sekunnissa, niin aikaa kaikkien tutkimiseen
kuluisi 40000000000000000 vuotta. Kuitenkin vain murto-osa yhdistelmistä
toistuu edes kaksi kertaa.
Yksi tiedon louhinnan tutkimuksen ydinalueita onkin toistuvien
säännönmukaisuuksien tehokas etsintä. Suuresta
hakuavaruuden koosta huolimatta ongelma on ratkaistavissa tehokkaasti:
sairaita mahdollisesti yhdistävät geenimerkkiyhdistelmät
testataan sopivassa järjestyksessä ja etsintää
karsitaan aiemmista testeistä saadun tiedon perusteella. Jos
esimerkiksi geenimerkki X ei esiinny juuri kenelläkään
sairaalla, niin mikään X:n sisältävä merkkiyhdistelmä
ei myöskään voi esiintyä usealla sairaalla.
Täman sinänsä yksinkertaisen havainnon avulla on
kehitetty algoritmeja, jotka löytävät hetkessä
sairaita terveistä erottelevat geenimerkkiyhdistelmät,
ja paikantavat geenejä niiden avulla.
Toinen samanlaista aineistoa hyödyntävä lähestymistapa
perustuu mahdollisten sukulaisuussuhteiden arviointiin geenimerkkidatasta.
Kullakin kohdalla perimässä on oma sukuhistoriansa - ketju
isovanhempia joilta kohta on peritty -, ja mutaation kantajilla
siis geenikohdan historiat johtavat usein yhteisiin esivanhempiin
ja muodostavat eräänlaisia sukupuita. Näitä
sukupuita voidaan muodostaa geenimerkkidatasta tunnetuilla tehokkailla
merkkijonoalgoritmeilla. Geenejä voidaan nyt kartoittaa seuraavasti.
Kullekin perimän kohdalle muodostetaan paras mahdollinen "sukupuu"
ja kussakin sukupuussa tarkastellaan sitä, ovatko sairaat läheisempää
sukua keskenään kuin terveet. Sairaudelle altistava geeni
sijaitsee todennäköisesti lähellä kohtaa, jossa
sairaat ovat selvimmin sukua keskenään.
Geenikartoitus on tärkeä ja ajankohtainen ongelma. Edellä
kuvatussa geenimerkkien louhinnassa käytetään hyväksi
tietojenkäsittelytieteen käsitteitä ja algoritmeja,
mm. hahmonsovituksesta ja koneoppimisesta. Menetelmiä voidaan
käyttää valtavien etsintä- tai hypoteesiavaruuksien
seulontaan. Lähestymistavan etuja ovat laskennallinen tehokkuus,
erityisesti soveltuvuus laajoihinkin aineistoihin, parametrittomuus,
sekä kokeellisesti osoitettu hyvä kartoitustarkkuus.
Ylös |