581264 Tutkimustiedonhallinnan peruskurssi, 3 ov, kevät 2004
Tämä sivu: http://www.cs.helsinki.fi/hannu.toivonen/teaching/tutihaK04/
Kurssi käsittelee tutkimusaineistojen käsittelyä ja niiden analysoimista laskennallisin menetelmin. Nimestään huolimatta kurssi ei keskity tiedonhallintaan, vaan tiedon analysoinnilla on myös suuri osuus. Osallistujilta edellytetään perustietoja ja -taitoja ohjelmoinnissa. Kurssiin kuuluu olennaisena osana harjoitustyö, joka on tarkoitus tehdä omasta aineistosta.
Luennot 16.3.-29.4. ti 10-12, to 12-14 (huom: torstain aika muuttunut opinto-oppaassa ilmoitetusta) sali A217, Teollisuuskatu 23, Vallila
(Lasku)harjoitusryhmät: 22.3.-7.5.
- Ti 12-14 B453 (tuntiop. Olaf Laczak)
- To 14-16 B453 (tuntiop. Olaf Laczak)
Harjoitustyöohjausta (harjoitustyöohjeet):
- välittömästi harjoitusryhmien kokoontumisten jälkeen
- to 18.3. klo 14-15 B233
- 24.3.-28.4.: ke 16.15-16.45 B233 (ke 14.4. ei päivystystä)
Kurssipalaute
Ole hyvä ja täytä kurssipalaute. Autat kehittämään laitoksen opetusta!
Ajankohtaista
- Kurssikoe: ke 12.5. klo 16-20 päärakennus sali 1
- Uusintakokeet:
- ti 8.6. klo 16-20 auditorio
- ti 21.9. klo 16-20 A111 (Kumpula)
- ti 9.11. klo 16-20 A111 (Kumpula)
- ti 8.2. klo 16-20 A111 (Kumpula) [ei hyväksyttyjä]
- ti 8.6. klo 16-20 auditorio
Muista ilmottautua tenttiin. Tarkista kokeen aika ja paikka tenttilistasta.
Luentokalvot (täydentyvät kurssin aikana)
Luentokalvoista on kolme samansisältöistä versiota:
- tulostettavaksi mustavalkoinen versio, 4 kalvoa/sivu
- ruudulta katselemista varten iso värillinen versio pdf- ja ps-muodoissa
Luentokalvot yms. materiaali:
- kurssin esittely, erityispiirteet, eksploratiivinen data-analyysi,
datan visualisointi
(kalvot 1-116):
tulostettavaksi | iso pdf | iso ps (lisätty 15.3.2004, kalvoja korjattu ja täydennetty 23.3. sivulta 73 alkaen) - gnuplot pikaohje ps, pdf (lisätty 15.3.2004)
- johdatus Monte Carloon
(kalvot 117-132):
tulostettavaksi | iso pdf | iso ps (lisätty 25.3.2004) - satunnaistamistestaus, parametrin estimointi ja bootstrap-otanta
(kalvot 133-177):
tulostettavaksi | iso pdf | iso ps (lisätty 29.3.2004) - metadata, tiedon mallitus ja talletus
(kalvot 178-221):
tulostettavaksi | iso pdf | iso ps (lisätty 5.4.2004) - tieteellinen visualisointi (Jarmo Pirhonen, CSC)
uusi www-materiaali (animaatiot yms. toiminevat parhaiten windowsissa)
edellisvuoden kalvokopiot (mv, 6 kalvoa/sivu) (Matti Gröhn, CSC) (lisätty 19.4.2004) - satunnaislukujen generointi, otosten ottaminen
(kalvot 222-275):
tulostettavaksi | iso pdf | iso ps (lisätty 21.4.2004, kalvoja korjattu ja täydennetty 26.4. otosten osalta))
Laskuharjoitustehtävät
- Laskuharjoitustehtävät (ti 23.3., to 25.3.)
- Laskuharjoitustehtävät (ti 30.3., to 1.4.)
- Laskuharjoitustehtävät (ti 6.4., to 15.4.)
- Laskuharjoitustehtävät (ti 20.4., to 22.4.)
- (ei laskareita ti 27.4., to 29.4.)
- Laskuharjoitustehtävät (ti 4.5., to 6.5.)
Laskareita pidetään viidet. Vähintään kolmessa on oltava läsnä.
Kurssille ilmottautuville
Kurssiin kuuluu pakollinen harjoitustyö, jonka osuus on kurssista on noin kolmannes. Harjoitustyössä tehdään suunnitelma jonkin aineiston tiedonhallinnasta sekä toteutetaan ja testataan laskennallisia analyysimenetelmiä samalla aineistolla. Harjoitustyö tehdään pareittain tai yksin.
Jokainen opiskelija(pari) on vastuussa oman aineistonsa hankkimisesta. Aineisto voi liittyä esim. omaan tutkimukseen, opiskeluun, työhön tai harrastuksiin. Aineiston etsiminen kannattaa aloittaa jo ennen kurssin alkua. Jos et pysty hankkimaan "omaa" aineistoa, voit etsiä aineistoja esim. tämän kurssin aiemmista harjoitusaineistoista tai internetistä UCI KDD Archivesta tai Machine Learning Repositorysta. Sopiva aineisto on sellainen, jonka sisällön ymmärrät, ja joka käsittelee sinua kiinnostavaa asiaa. Aineistossa olisi hyvä olla vähintään satoja havaintoja (rivejä) ja kymmenen attribuuttia (saraketta).
Kurssiin kuuluvasta pakollisesta harjoitustyöstä tulee erilliset ohjeet. Tarkemmat ohjeet voi katsoa kurssin harjoitustyöohjeista.
Kurssin (suunniteltu) luentoaikataulu
- ti 16.3.: kurssin esittely, tutkimustiedonhallinnan erityispiirteet [1, luku 2], kalvot 1-24
- to 18.3.: eksploratiivinen data-analyysi [2, luku 2], kalvot 25-53
- ti 23.3. datan visualisointi [2, luku 2], kalvot 54-90, 97-98
-
to 25.3.:
visualisointi, 2 muuttujan tunnusluvut,
kalvot 91-116
johdatus Monte Carlo -menetelmiin, kalvot 117-132 - ti 30.3.: hypoteesin testaus, p-arvo ja satunnaistamistestaus, bootstrap [2, luvut 4 ja 5], kalvot 132-159
- to 1.4.: harjoitustöiden esittelyjä (ryhmäjako); estimointi, luottamusväli ja bootstrapping [2, luvut 4 ja 5], kalvot 160-177
- ti 6.4.: tutkimustiedon metadata [1, luku 4], kalvot 178-195
- (pääsiäisloma: ei opetusta to 8.4. eikä ti 13.4.)
- to 15.4.: tiedon mallitus ja tallennus, esimerkkisovellus [3], kalvot 196-221
- ti 20.4.: tieteellinen visualisointi (vierailuluento: Jarmo Pirhonen, CSC); harjoitustöiden esittelyjä
- to 22.4.: satunnaislukujen generointi [4], kalvot 222-249
- ma 26.4. klo 12-14, A217: otosten ottaminen tietokannoista [5], kalvot 250-275
- to 29.4.: harjoitustöiden esittelyjä; kurssin kertaus
- ke 12.5. klo 16-20 tentti (päärakennus sali 1)
Kurssin tärkeät päivämäärät:
- ti 23.3. (vk 13): harjoitustyön aineiston valinta ja kuvaus
- to 1.4. (vk 14): harjoitustyön ensimmäisen raportin palautus (eksploratiivinen analyysi, visualisointi)
- ti 20.4. (vk 17): harjoitustyön toisen raportin palautus (satunnaistamistestaus, bootstrapping)
- to 29.4. (vk 18): harjoitustyön kolmannen raportin palautus (tiedonhallinta, metadata)
- ma 10.5. harjoitustyön viimeinen mahdollinen jättöpäivä
- ke 12.5. klo 16-20 tentti (päärakennus sali 1)
- (ti 8.6. 16-20 uusintakuulustelu tentin uusijoille (auditorio))
Laskuharjoitustehtävistä
Harjoitustehtävät ovat ylempänä kohdassa "Laskuharjoitustehtävät"
Laskuharjoituksiin osallistuminen on pakollista. Laskuharjoituksia on viidet, joista vähintään kolmessa on oltava läsnä. Läsnäoloksi lasketaan osallistumiskerta, jona opiskelija on tehnyt vähintään puolet harjoituskerran kotitehtävistä.
Laskuharjoitustehtävät tehdään kotiläksynä ennen harjoitusryhmän kokoontumista; opiskelijoiden esittämiä ratkaisuja käsitellään sitten kokoontumisissa. Hyväksi lasketaan vain tehtävät, jotka opiskelija ilmoittaa tehneensä harjoitusten aluksi kiertävällä listalla. Tehtävän merkintä listalle tarkoittaa, että opiskelija on valmis esittämään ratkaisuehdotuksensa laskuharjoituksissa. [Muutos 6.4.04:] Kurssin assistentti (tai tehtävän tekijä) toimittaa malliratkaisun kurssimappiin sekä mielellään verkkoon.
Kurssimateriaali
Kaikki kurssin materiaali on kurssimapissa. Lähteitä [1,2,5] lukuun ottamatta kaikki muu materiaali tullee olemaan saatavilla sähköisesti alla olevasta listasta.
Tenttiin sisältyvä materiaali (täsmennetty 30.4.2004):
- luentokalvot (ks. yllä)
- lähteet [1, 2]
- lähteet [4, 5] luennoilla ja laskuharjoituksissa käsitellyiltä osiltaan
- tentissä ei kysytä awkista tai gnuplotista tai unix-komennoista
Lähteet:
- [1] Z. Michalewicz (toim): Statistical and Scientific Databases; Ellis Horwood Ltd., 1991, luvut 2, 4
- [2] Paul R. Cohen: Empirical Methods for Artificial Intelligence; MIT Press 1995, luvut 2,4-5
- [3] Pubudu Wariyapola et al.: Ontology and Metadata Creation for the Poseidon Distributed Coastal Zone Management System, Advances in Digital Libraries, 1999, 180-189
- [4] Numerical Recipes in C: The Art of Scientific Computing, luvut 7.0-7.3
- [5] Jeffrey S. Vitter: Faster Methods for Random Sampling. Communications of ACM 27, 7, 703-718, 1984.
Muuta hyödyllistä oheismateriaalia (ei tule tenttiin)
- awk-materiaalia, mm. windows-versio
- Harri Laine: Johdatus sovellussuunnitteluun; TKTL:n kurssimoniste D419, 2002
- Harri Laine: Tietokantojen perusteet; TKTL:n kurssimoniste D404, 2000
- Hannu Karttunen: Datan käsittely. CSC 1994, 2001
- Juha Ruokolainen ja Matti Gröhn: Tieteellinen visualisointi. CSC 1996
- Tilastotieteen sanastoa
- Gnuplot home page
-
Donald E. Knuth: Seminumerical Algorithms (luku 3: Random Numbers),
Vol.2 sarjassa The Art of Computer Programming. 3.painos. Addison Wesley, 1998, 2001.