See
the course home page and
course overview slides for English information
about the course.
The course is lectured in Finnish.
Non-Finnish speaking students are nevertheless able to take the course:
all course material is in English and the Tuesday (8-10)
exercise group is held in English.
(Also Finnish students are encouraged to attend the Tuesday
exercise group, to prevent overfilling the Friday group.
Discussions in that group can be partially in Finnish, too,
when necessary.)
Kurssin kotisivu
http://www.cs.helsinki.fi/hannu.toivonen/teaching/timuS02/
Kurssikuvaus
Tietämyksen muodostaminen tai tiedon louhinta
(data mining, knowledge discovery) on
tietojenkäsittelytieteen osa-alue, jolla tutkitaan ja kehitetään
menetelmiä hyödyllisen tietämyksen muodostamiseksi suurista
datamassoista. Alalla on läheiset yhteydet koneoppimiseen,
tekoälyyn, tilastotieteeseen ja tietokantoihin.
Lähtökohdan tiedon louhinnalle muodostavat monet suuret tietovarastot.
Esimerkkejä tällaisista ovat biologiset tietokannat,
erilaisten teollisuusprosessien
seurantatietokannat, kaupan myyntitietokannat sekä teleliikenteen
verkonhallinnan vikatietokannat. Tyypillisesti niissä olisi paljon
tutkimukselle tai liiketoiminnalle arvokkaita tietoja ja kehityssuuntia,
mutta tärkeiden tietojen seulonta tavallisten tilastollisten
ohjelmistojen avulla on hidasta ja kallista.
Kurssin asema opetuksessa ja esitietovaatimukset
Tietämyksen muodostamisen kurssi on laudaturin valinnainen kurssi.
Kurssin voi sisällyttää ainakin informaatiojärjestelmien linjan
vapaavalintaisiin kursseihin.
Esitiedoiksi riittävät tietojenkäsittelytieteen cum lauden tiedot.
Algoritmien suunnittelu ja analyysi tai Tiedonhallinta II -kurssin
tiedoista on tosin hyötyä.
Kurssin tavoite
Kurssin tavoitteena on antaa yleiskuva tietämyksen muodostamisen
keskeisimmistä menetelmistä ja
erityisesti sen algoritmisista kysymyksistä. Kurssi sisältää osin myös
varsin teoreettista ainesta.
Kurssin alustava sisältö
Kurssi painopiste on toistuvien hahmojen etsinnässä.
Alustavat aiheet:
-
Johdanto tiedon louhintaan
-
Assosiaatiosäännöt ja Apriori-algoritmi
-
Esimerkkisovellus: televerkon hälytysanalyysi
-
Tapahtumajonoissa toistuvat episodit
-
Ongelman yleistys, hahmojen tasoittainen haku ja rajat
-
Ongelman kompleksisuus, algoritmimalleja
-
Suljetut joukot ja generaattorit
-
Suljettujen joukkojen ja generaattorien etsintä
-
Otosten käyttö
-
Tietokantojen eheysrajoitteiden etsintä
Kurssin opetus ja suoritus
Kurssiin sisältyy luentoja, harjoituksia sekä erillinen
harjoitustyö. Harjoitustyö on pakollinen, harjoituksista
saa lisäpisteitä.
Kurssin luennot pidetään 10.9. - 17.10.2002
tiistaisin ja torstaisin klo 10-12 salissa A414
(Teollisuuskatu 23, Vallila).
Harjoitusryhmät: 17.9. - 24.10.2002
-
TI 8-10 A320, ensisijaisesti englanniksi (prof. Hannu Toivonen)
-
PE 14-16 B450, suomeksi (tuntiop. Taneli Mielikäinen)
Kurssiin kuuluva harjoitustyö voi olla
kirjallisuuteen perustuva raportti,
kurssilla opetetun algoritmin toteutus ja testaaminen
tai valmiin toteutuksen soveltaminen todelliseen aineistoon.
Harjoitustyöt tehdään pääsääntöisesti yksin.
Tarkemmat ohjeet annetaan kurssin alkupuolella.
Alustava aika kurssin tentille:
pe 1.11. klo 14-18 Auditorio
Kurssin voi suorittaa loppukokeella ilman harjoitustyötä.
Silloin tentittävä sisältö on vastaavasti n. 50% kurssilla luennoitua
laajempi. Loppukokeeseen tuleva lisämateriaali ilmoitetaan
erikseen.
Kurssimateriaali
Luennot perustuvat kurssimonisteeseen
Heikki Mannila, Hannu Toivonen: "Knowledge
Discovery in Databases: Search for Frequent Patterns"
(saatavissa sähköisenä sekä kopioitavissa kurssimapista;
ei monistemyynnissä) sekä alkuperäisartikkeleihin.
Luennoija
Prof. Hannu TT Toivonen, Helsingin yliopisto
|