582448 Tiedon louhinnan menetelmät (6 op, 3 ov), syksy 2005
Tämä sivu: http://www.cs.helsinki.fi/hannu.toivonen/teaching/tilomes05/
Kotikoe + esimerkkivastauksia (18.1.2006).
Kurssilla tutustaan tiedon louhinnan keskeisiin käsitteisiin ja menetelmiin sekä tiedon louhintaprosessiin. Tiedon louhinta tai tietämyksen muodostaminen tietokannoista (knowledge discovery from databases, data mining, database mining) on tietojenkäsittelytieteen osa-alue, jossa pyritään löytämään mielenkiintoisia säännönmukaisuuksia laajoista tietokokoelmista.
Kurssilla sovelletaan ns. tutkivan oppimisen menetelmää, jossa pääosa työskentelystä tapahtuu ryhmissä omatoimisesti ongelmia ratkomalla. Siksi kurssin suorittaminen vaatii tavallista enemmän omatoimisuutta sekä aktiivista osallistumista harjoitusryhmän toimintaan. Työmäärä ei kuitenkaan ole sen suurempi kuin muissa opintopistemääriltään vastaavissa kursseissa. Kurssi sisältää sekä teoreettista että käytännöllistä materiaalia.
Oppimistavoitteet
Kurssin käytyään opiskelija
- tunnistaa tiedon louhintaongelmasta, soveltuuko siihen klusterointi
- ymmärtää yhden klusterointialgoritmin niin hyvin, että pystyy soveltamaan sitä mielekkäästi ja tarvittaessa toteuttamaan sen
- osaa arvioida kriittisesti klusteroinnin laatua ja ymmärtää käytettyjen muuttujien vaikutuksen saatuun tulokseen
- tunnistaa tiedon louhintaongelmasta, soveltuuko siihen luokittelijan oppiminen tai yleisemmin ennustaminen
- ymmärtää yhden luokittelualgoritmin niin hyvin, että pystyy soveltamaan sitä mielekkäästi ja tarvittaessa toteuttamaan sen
- osaa arvioida luokittelijan tarkkuuden luotettavasti kokeellisesti
- tunnistaa tiedon louhintaongelmasta, soveltuuko siihen toistuvien hahmojen etsintä
- ymmärtää Apriori-algoritmin niin hyvin, että pystyy soveltamaan sitä mielekkäästi toistuvien hahmojen etsintään ja tarvittaessa toteuttamaan sen
- ymmärtää assosiaatiosäännöt ja niiden tuottamisen Apriori-algoritmilla
- tunnistaa pääpiirteissään joitain muita tiedon louhinnan ongelmatyyppejä
- osaa soveltaa tiedon louhintaprosessia todellisiin louhintaongelmiin
Opetus
Luennot: 5.9.-28.11. MA 9-12 B222 (Exactum, Gustaf Hällströmin katu 2b, Kumpula)
Harjoitusryhmät: 8.9.-2.12. TO 9-12 BK107 (huom: paikka vaihtuu 22.9. alkaen) (Exactum, Gustaf Hällströmin katu 2b, Kumpula)
Huom: Kurssi sijoittuu syksyn molemmille periodeille. Opetusta ei pidetä koe- ja väliviikoilla 17.10.- 30.10.
Huom: Luentojen ja harjoitusryhmätyöskentelyn raja on häilyvä. Ryhmätöitä käsitellään (esitellään) myös luentoaikoina, ja harjoituksiin varatulla ajalla käydään läpi myös yleistä materiaalia. Osa opetukseen varatusta kuudesta viikkotunnista on ryhmien vapaassa käytössä. Ryhmätyöhön ryhtyvillä on läsnäolovelvollisuus erikseen sovittavissa ohjaus- ja esittelytilaisuuksissa (yllä kurssin opetukseen varattuina aikoina).
Kurssikokeen voi suorittaa joko kotikokeena tai perinteisenä tenttinä 16.12. Suoritustavaksi saa valita vapaasti jomman kumman. Kotikoe on soveltavampi, tentti teknisempi. Kurssi on mahdollista suorittaa myös pelkällä kokeella ilman harjoitustöitä. Koemateriaali: ks. "Course material" alla.
Opettaja: prof. Hannu Toivonen
Harjoitustehtävät/ongelmat
Course material
The contents of the course are covered by the book
Jiawei Han and Micheline Kamber: Data Mining: Concepts and Techniques,
Morgan Kaufmann Publishers, August 2000. 550 pages. ISBN 1-55860-489-8.
Course contents by book chapters:
- 1. Introduction (whole chapter)
- 8. Cluster analysis
sections -8.5.1 - 7. Classification and prediction
sections -7.4.2, 7.7.1, 7.9, 7.10 - 6. Mining association rules
sections -6.2.2, 6.5.1, 6.7 - 4. Data mining primitives
sections -4.1 - 3. Data preprocessing (whole chapter)
Kalvoja (Huom: kalvoilla käsitellään vain pieni osa kurssin sisällöstä. Kalvoista EI saa oikeaa kuvaa kurssin sisällöstä tai vaatimuksista!)
(Slides below are not intended to cover all course material. The book and the list above are the definite contents of the course for the exam.)
- Johdantoluento 5.9.
- Tiedon louhinnan esittely 5.9.
- Luokittelu 23.9. (Pirjo Moenin luentokalvot); lisäkalvoja lähinaapuriluokittelusta
- Assosiaatiosäännöt 7.10. (Pirjo Moenin luentokalvot);
- Tiedon louhintaprosessi (ml. datan esikäsittely) 7.11. (Pirjo Moenin luentokalvot);
Aineistoja, ohjelmistoja, muita hyödyllisiä lähteitä
- autot.csv: Suomessa myytävät henkilöautot (kiitos Mika Tanniselle!)
- autot1.csv: ensimmäistä harjoitusta varten lievästi muokattu aineisto (ks. tehtävän kuvaus)
- autoaineiston kuvaus (ote Mikan gradusta)
- tiedon louhinnan englanti-suomi-sanastoa
- Weka: suosittu Java-kirjasto hyviä tiedon louhintamenetelmiä
- Cluto: monipuolinen klusterointiohjelma
- See5 ja C5.0: päätöspuuluokitteluohjelma
- firm: Apriorin toteutus assosiaatiosääntöjen louhintaan (Juho Muhonen)
- FIMI: toistuvien hahmojen (joukkojen) etsintämenetelmien julkisia toteutuksia
- KDnuggets: laaja tiedon louhinta -aiheinen sivusto, jolla myös listattu ohjelmistoja
- A.K. Jain, M.N. Murty, and P.J. Flynn: Data Clustering: A Review. ACM Computing Surveys 31(3): 264-323, September 1999.
- Rui Xu and Wunsch, D., II: Survey of Clustering Algorithms. IEEE Transactions on Neural Networks 16(3): 645-678, May 2005. (Pdf ladattavissa ainakin yliopiston koneilta.)
- Harjoitusryhmien omia, toisten käyttöön tarjoamia ohjelmia
- Han ja Kamber -kirjan kotisivu, jossa mm. laajat kalvosetit koko kirjasta (23.9.2005)
- A Short Introduction to Boosting (täysin ylimääräistä materiaalia; 21.11.2005)
In English
An English group will be set up by Fri 16 Nov. Contact Petteri Sevon (petteri.sevon@cs.helsinki.fi) as soon as possible if you want to participate.
It is also possible to only take the exam, also in English, and get the full credits. This is the same exam that the students from the course will take. The material to be examined is listed above ("Kurssimateriaali", sections of the Han et Kamber book). See the course map for the material.