581264 Tutkimustiedonhallinnan peruskurssi, 3 ov, kevät 2003
Tämä sivu: http://www.cs.helsinki.fi/hannu.toivonen/teaching/tutihaK03/
Kurssi käsittelee tutkimusaineistojen käsittelyä ja niiden analysoimista laskennallisin menetelmin. Nimestään huolimatta kurssi ei keskity tiedonhallintaan, vaan tiedon analysoinnilla on myös suuri osuus. Osallistujilta edellytetään perustietoja ja -taitoja ohjelmoinnissa. Kurssiin kuuluu olennaisena osana harjoitustyö, joka on tarkoitus tehdä omasta aineistosta.
Luennot 11.3.-24.4. ti, to 10-12, sali A217, Teollisuuskatu 23, Vallila
Harjoitusryhmät: 17.3.-2.5.
- TI 8-10 A320 (Prof. Hannu Toivonen, FT Marko Salmenkivi)
- TO 12-14 A217 (tuntiop. Mikko Olin)
Harjoitustyöohjausta 13.3.-29.4. ti 9-10 ja to 14-15 C477 Tuntiop. Mikko Olin (HUOM: to 13.3. klo 12-13 huone A203 ja klo 14-15 sali C476)
Kurssiin kuuluvasta pakollisesta harjoitustyöstä on erilliset ohjeet.
Ajankohtaista
- Tulokset 10.10.03 tentistä
- Omista pisteistään sekä arvostelusta voi kysyä Hannu Toivoselta.
- Viimeinen uusintakuulustelu on 30.1.2004. Kurssi pidetään seuraavan kerran loppukeväällä 2004.
Kurssipalaute
Ole hyvä ja täytä kurssipalaute. Autat kehittämään laitoksen opetusta!
Kurssin luentoaikataulu
- ti 11.3.: kurssin esittely, tutkimustiedonhallinnan erityispiirteet [1, luku 2] (Hannu Toivonen)
- to 13.3.: tutkimustiedon metadata [1, luku 4] (HT)
- ti 18.3.: tiedon mallitus ja tallennus, esimerkkisovellus [3] (HT)
- to 20.3.: eksploratiivinen data-analyysi [2, luku 2] (Marko Salmenkivi)
- ti 25.3.: datan visualisointi [2, luku 2] (MS)
- to 27.3.: case study: kyselytutkimus ja SPSS-tilasto-ohjelma (Mikko Olin); johdatus Monte Carlo -menetelmien käyttöön tutkimustiedon analysoinnissa [2, luku 5] (HT)
- ti 1.4.: hypoteesin testaus, p-arvo ja satunnaistamistestaus [2, luvut 4 ja 5] (HT)
- to 3.4.: estimointi, luottamusväli ja bootstrapping [2, luvut 4 ja 5] (MS)
- ti 8.4.: satunnaislukujen generointi (MS)
- to 10.4.: otosten ottaminen tietokannoista (MS)
- ti 15.4.: tieteellinen visualisointi (Matti Gröhn, CSC - tieteellinen laskenta); (harjoitustöiden esittelyjä*)
- (pääsiäisloma: ei opetusta to 17.4. eikä ti 22.4.)
- to 24.4.: harjoitustöiden esittelyä*, kurssin kertaus (MS)
- ti 6.5. klo 16-20: tentti auditoriossa
* Harjoitustöiden vapaaehtoiset esittelijät saavat harjoitustyöstä muutaman lisäpisteen.
Kurssin tärkeät päivämäärät:
- ti 18.3.: harjoitustyön aineiston kuvauksen takaraja
- ma 7.4.: harjoitustyön ensimmäisen raportin palautus
- ti 29.4.: harjoitustyön toisen raportin palautus
- ti 6.5.: tentti klo 16-20, auditorio
- ti 10.6. uusintakuulustelu klo 16-20, auditorio
Laskuharjoitustehtävät
Laskuharjoitustehtävät tehdään kotiläksynä ennen harjoitusryhmän kokoontumista. Opiskelijoiden esittämiä ratkaisuja käsitellään sitten kokoontumisissa. Opiskelija, joka esittää ratkaisun laskuharjoituksissa ja toimittaa sen (tarvittaessa puhtaaksikirjoitettuna) mallivastauksena kurssimappiin saman viikon torstaina tai perjantaina, saa yhden ylimääräisen pisteen. (Lisäksi sähköisen version voi toimittaa Mikko Olinille verkkoon laitettavaksi.)
- Laskuharjoitus 1 (18.3., 20.3)
- Laskuharjoitus 2 (25.3., 27.3.)
- Laskuharjoitus 3 (1.4., 3.4.)
- Laskuharjoitus 4 (10.4.)
- Laskuharjoitus 5 (24.4.)
Kurssimateriaali
Kaikki kurssin materiaali on kurssimapissa. Lähteitä [1,2,5] lukuun ottamatta kaikki muu materiaali tullee olemaan saatavilla sähköisesti alla olevasta listasta.
Kurssiin (ja tenttiin) sisältyvä materiaali:
-
luentokalvot:
- erityispiirteet, metadata, mallitus: katsottavaksi (värillinen, pdf) | tulostettavaksi (mv, 4 kalvoa/sivu)
- eksploratiivinen data-analyysi: katsottavaksi (värillinen, pdf) | tulostettavaksi (mv, 4 kalvoa/sivu)
- gnuplot pikaohje, ps, pdf
- tilaston peruskäsitteitä, Monte Carlo: katsottavaksi (värillinen, pdf) | tulostettavaksi (mv, 4 kalvoa/sivu)
- satunnaistamistestaus: katsottavaksi (värillinen, pdf) | tulostettavaksi (mv, 4 kalvoa/sivu)
- bootstrap, estimointi ja luottamusvälit katsottavaksi (värillinen, pdf) | tulostettavaksi (mv, 4 kalvoa/sivu)
- satunnaislukujen generointi katsottavaksi (värillinen, pdf) | tulostettavaksi (mv, 4 kalvoa/sivu)
- otokset tietokannasta katsottavaksi (värillinen, pdf) | tulostettavaksi (mv, 4 kalvoa/sivu)
- tieteellinen visualisointi (Matti Gröhn) tulostettavaksi (mv, 6 kalvoa/sivu) (ei tule tenttiin)
- [1] Z. Michalewicz (toim): Statistical and Scientific Databases; Ellis Horwood Ltd., 1991, luvut 2, 4
- [2] Paul R. Cohen: Empirical Methods for Artificial Intelligence; MIT Press 1995, luvut 2,4-5
- [3] Pubudu Wariyapola et al.: Ontology and Metadata Creation for the Poseidon Distributed Coastal Zone Management System, Advances in Digital Libraries, 1999, 180-189
- [4] Numerical Recipes in C: The Art of Scientific Computing, luvut 7.0-7.3
- [5] Jeffrey S. Vitter: Faster Methods for Random Sampling. Communications of ACM 27, 7, 703-718, 1984.
Muuta hyödyllistä oheismateriaalia (ei tule tenttiin)
- Harri Laine: Johdatus sovellussuunnitteluun; TKTL:n kurssimoniste D419, 2002
- Harri Laine: Tietokantojen perusteet; TKTL:n kurssimoniste D404, 2000
- Hannu Karttunen: Datan käsittely. CSC 1994, 2001
- Juha Ruokolainen ja Matti Gröhn: Tieteellinen visualisointi. CSC 1996
- Tilastotieteen sanastoa
- Gnuplot home page
-
Donald E. Knuth: Seminumerical Algorithms (luku 3: Random Numbers),
Vol.2 sarjassa The Art of Computer Programming. 3.painos. Addison Wesley, 1998, 2001.

