582448 Tiedon louhinnan menetelmät
Kotikoe, 21.11.2005

Hannu Toivonen
(In English: see below)

Tämä on kotikoe. Tehtävät saa tehdä omalla ajallaan ja lähdemateriaalia hyväksi käyttäen. Jokaisen täytyy kuitenkin tehdä koe yksin. Yhteistyö muiden kanssa on kielletty, samoin valmiiden ratkaisujen ja tekstien kopioiminen mistään muualtakaan. Vastaa tiiviisti mutta perustellen.

Vastaukset palautetaan sähköisesti (txt, pdf, ps tai doc) osoitteeseen hannu.toivonen.xxx.cs.helsinki.fi viimeistään 5.12.2005. Myöhästyneitä töitä ei arvostella. Kotikoetta ei voi uusia, sen sijaan tavallisia tenttejä tullaan järjestämään.

Tämän kokeen maksimipistemäärä on 60 p. Syksyllä 2005 harjoitustyöt suorittaneet saavat kokeeseen lisäksi kymmenen pisteen ylittäneet harjoitustyöpisteet (siis esim. 18 harjoitustyöpisteellä saa 8 lisäpistettä kokeeseen).

  1. Vertaile koko tiedonlouhintaprosessia klusteroinnissa, luokittelussa ja assosiaatiosääntöjen etsinnässä. Mitä asioita kannattaa suorittaa eri tavalla, miten ja miksi? (19 p)
  2. Seuraavissa tehtävissä kurssilla käsiteltyjä menetelmiä sovelletaan käsin pieniin aineistoihin. Ohjelmia voi halutessaan käyttää tulosten tarkistamiseen. (21 p)
  3. Helsingin yliopiston opintosuoritusrekisteri sisältää opiskelijoittain tiedot heidän suorittamistaan kursseista, niiden opintoviikkolaajuuksista, suoritusten päivämääristä ja arvosanoista sekä valmistumisajankohdan. Tarkastele kutakin seuraavista hypoteettisista ideoista tämän aineiston hyödyntämiseksi. Kerro perustellen, millaisella menetelmällä lähtisit kussakin tilanteessa tietoa ensisijaisesti louhimaan, millaisia ratkaisuja tekisit aineiston käsittelyssä ja menetelmän soveltamisessa, millaisia ongelmia lähestymistapaan tai dataan saattaa liittyä, jne. (20 p)

Lisää vastaukseesi teksti "Olen tehnyt vastaukset itse ilman kenenkään apua." ja vakuudeksi kirjoita alle nimesi. (Koska vastaukset palautetaan sähköisesti, tätä ei tarvitse allekirjoittaa käsin.)

Koe arvostellaan vain niiltä, jotka ovat ilmoittautuneet kurssille. Ilmoittaudu siis tarvittaessa.

582448 Data mining methods
Take-home exam, 21st November 2005

Hannu Toivonen

This a take-home exam. You may answer the questions in your own time using reference material. However, you must take the exam alone. Co-operation with other students is forbidden, and so is copying of answers of material from any sources. Be concise in your answers, but remember to justify them.

Return your answers by email to hannu.toivonen.xxx.cs.helsinki.fi (txt, pdf, ps, and doc are acceptable formats), on 5th Dec 2005 at the latest. Late answers are not graded. You cannot take a take-home exam again. However, normal exams will be organized later.

The maximum number of points is 60.

  1. Compare the whole knowledge discovery process when doing clustering, classification or association rule mining. Which parts of the process should be done in different ways, how, and why? (19 p)
  2. In the next tasks, methods covered in the course are manually applied to small datasets. You may use software to check your results. (21 p)
  3. The Study Register of the University of Helsinki maintains information about courses taken by students. For each student it contains the courses he or she has taken, the numbers of credit units, the dates of completion of the courses, the grades, and the date of MSc graduation, if graduated. Consider the following hypothetical ideas for utilizing this data. Explain which method you would primarily use to mine the data, the choices you would make when handling the data or applying the algorithm, what kind of problems could be associated to the data or method, etc. Justify your answers. (20 p)

Add the following text to your answer: "I certify that the submitted work was done by me without help from any other person", and add your name below this text. (Since the answers are returned electronically, there is no need to sign by hand.)

For taking this exam, you need to register for the course using the course registration system. Please, register if needed.