University of Helsinki - Department of Computer Science


581550 Tietämyksen muodostaminen (3 ov)

Syksy 2002: 10.9.- 17.10., ti ja to klo 10-12
Sali A414, Teollisuuskatu 23, Vallila

http://www.cs.helsinki.fi/hannu.toivonen/teaching/timuS02/



See the course home page and course overview slides for English information about the course.

The course is lectured in Finnish. Non-Finnish speaking students are nevertheless able to take the course: all course material is in English and the Tuesday (8-10) exercise group is held in English. (Also Finnish students are encouraged to attend the Tuesday exercise group, to prevent overfilling the Friday group. Discussions in that group can be partially in Finnish, too, when necessary.)

Kurssin kotisivu

http://www.cs.helsinki.fi/hannu.toivonen/teaching/timuS02/

Kurssikuvaus

Tietämyksen muodostaminen tai tiedon louhinta (data mining, knowledge discovery) on tietojenkäsittelytieteen osa-alue, jolla tutkitaan ja kehitetään menetelmiä hyödyllisen tietämyksen muodostamiseksi suurista datamassoista. Alalla on läheiset yhteydet koneoppimiseen, tekoälyyn, tilastotieteeseen ja tietokantoihin.

Lähtökohdan tiedon louhinnalle muodostavat monet suuret tietovarastot. Esimerkkejä tällaisista ovat biologiset tietokannat, erilaisten teollisuusprosessien seurantatietokannat, kaupan myyntitietokannat sekä teleliikenteen verkonhallinnan vikatietokannat. Tyypillisesti niissä olisi paljon tutkimukselle tai liiketoiminnalle arvokkaita tietoja ja kehityssuuntia, mutta tärkeiden tietojen seulonta tavallisten tilastollisten ohjelmistojen avulla on hidasta ja kallista.

Kurssin asema opetuksessa ja esitietovaatimukset

Tietämyksen muodostamisen kurssi on laudaturin valinnainen kurssi. Kurssin voi sisällyttää ainakin informaatiojärjestelmien linjan vapaavalintaisiin kursseihin.

Esitiedoiksi riittävät tietojenkäsittelytieteen cum lauden tiedot. Algoritmien suunnittelu ja analyysi tai Tiedonhallinta II -kurssin tiedoista on tosin hyötyä.

Kurssin tavoite

Kurssin tavoitteena on antaa yleiskuva tietämyksen muodostamisen keskeisimmistä menetelmistä ja erityisesti sen algoritmisista kysymyksistä. Kurssi sisältää osin myös varsin teoreettista ainesta.

Kurssin alustava sisältö

Kurssi painopiste on toistuvien hahmojen etsinnässä. Alustavat aiheet:

  • Johdanto tiedon louhintaan
  • Assosiaatiosäännöt ja Apriori-algoritmi
  • Esimerkkisovellus: televerkon hälytysanalyysi
  • Tapahtumajonoissa toistuvat episodit
  • Ongelman yleistys, hahmojen tasoittainen haku ja rajat
  • Ongelman kompleksisuus, algoritmimalleja
  • Suljetut joukot ja generaattorit
  • Suljettujen joukkojen ja generaattorien etsintä
  • Otosten käyttö
  • Tietokantojen eheysrajoitteiden etsintä

Kurssin opetus ja suoritus

Kurssiin sisältyy luentoja, harjoituksia sekä erillinen harjoitustyö. Harjoitustyö on pakollinen, harjoituksista saa lisäpisteitä.

Kurssin luennot pidetään 10.9. - 17.10.2002 tiistaisin ja torstaisin klo 10-12 salissa A414 (Teollisuuskatu 23, Vallila).

Harjoitusryhmät: 17.9. - 24.10.2002

  • TI 8-10 A320, ensisijaisesti englanniksi (prof. Hannu Toivonen)
  • PE 14-16 B450, suomeksi (tuntiop. Taneli Mielikäinen)

Kurssiin kuuluva harjoitustyö voi olla kirjallisuuteen perustuva raportti, kurssilla opetetun algoritmin toteutus ja testaaminen tai valmiin toteutuksen soveltaminen todelliseen aineistoon. Harjoitustyöt tehdään pääsääntöisesti yksin. Tarkemmat ohjeet annetaan kurssin alkupuolella.

Alustava aika kurssin tentille: pe 1.11. klo 14-18 Auditorio

Kurssin voi suorittaa loppukokeella ilman harjoitustyötä. Silloin tentittävä sisältö on vastaavasti n. 50% kurssilla luennoitua laajempi. Loppukokeeseen tuleva lisämateriaali ilmoitetaan erikseen.

Kurssimateriaali

Luennot perustuvat kurssimonisteeseen Heikki Mannila, Hannu Toivonen: "Knowledge Discovery in Databases: Search for Frequent Patterns" (saatavissa sähköisenä sekä kopioitavissa kurssimapista; ei monistemyynnissä) sekä alkuperäisartikkeleihin.

Luennoija

Prof. Hannu TT Toivonen, Helsingin yliopisto