Yliopiston etusivulle Suomeksi Inte på svenska No english version available
Helsingin yliopisto Tietojenkäsittelytieteen laitos
 

Tietojenkäsittelytieteen laitos

581264 Tutkimustiedonhallinnan peruskurssi, 3 ov, kevät 2004

Tämä sivu: http://www.cs.helsinki.fi/hannu.toivonen/teaching/tutihaK04/

Kurssi käsittelee tutkimusaineistojen käsittelyä ja niiden analysoimista laskennallisin menetelmin. Nimestään huolimatta kurssi ei keskity tiedonhallintaan, vaan tiedon analysoinnilla on myös suuri osuus. Osallistujilta edellytetään perustietoja ja -taitoja ohjelmoinnissa. Kurssiin kuuluu olennaisena osana harjoitustyö, joka on tarkoitus tehdä omasta aineistosta.

Kurssikuvaus

Luennot 16.3.-29.4. ti 10-12, to 12-14 (huom: torstain aika muuttunut opinto-oppaassa ilmoitetusta) sali A217, Teollisuuskatu 23, Vallila

(Lasku)harjoitusryhmät: 22.3.-7.5.

  1. Ti 12-14 B453 (tuntiop. Olaf Laczak)
  2. To 14-16 B453 (tuntiop. Olaf Laczak)

Harjoitustyöohjausta (harjoitustyöohjeet):

  • välittömästi harjoitusryhmien kokoontumisten jälkeen
  • to 18.3. klo 14-15 B233
  • 24.3.-28.4.: ke 16.15-16.45 B233 (ke 14.4. ei päivystystä)

Kurssipalaute

Ole hyvä ja täytä kurssipalaute. Autat kehittämään laitoksen opetusta!

Ajankohtaista

  • Kurssikoe: ke 12.5. klo 16-20 päärakennus sali 1
  • Uusintakokeet:
    • ti 8.6. klo 16-20 auditorio
    • ti 21.9. klo 16-20 A111 (Kumpula)
    • ti 9.11. klo 16-20 A111 (Kumpula)
    • ti 8.2. klo 16-20 A111 (Kumpula) [ei hyväksyttyjä]

Muista ilmottautua tenttiin. Tarkista kokeen aika ja paikka tenttilistasta.

Luentokalvot (täydentyvät kurssin aikana)

Luentokalvoista on kolme samansisältöistä versiota:

  • tulostettavaksi mustavalkoinen versio, 4 kalvoa/sivu
  • ruudulta katselemista varten iso värillinen versio pdf- ja ps-muodoissa

Luentokalvot yms. materiaali:

Laskuharjoitustehtävät

  1. Laskuharjoitustehtävät (ti 23.3., to 25.3.)
  2. Laskuharjoitustehtävät (ti 30.3., to 1.4.)
  3. Laskuharjoitustehtävät (ti 6.4., to 15.4.)
  4. Laskuharjoitustehtävät (ti 20.4., to 22.4.)
  5. (ei laskareita ti 27.4., to 29.4.)
  6. Laskuharjoitustehtävät (ti 4.5., to 6.5.)

Laskareita pidetään viidet. Vähintään kolmessa on oltava läsnä.

Mallivastauksia

Kurssille ilmottautuville

Kurssiin kuuluu pakollinen harjoitustyö, jonka osuus on kurssista on noin kolmannes. Harjoitustyössä tehdään suunnitelma jonkin aineiston tiedonhallinnasta sekä toteutetaan ja testataan laskennallisia analyysimenetelmiä samalla aineistolla. Harjoitustyö tehdään pareittain tai yksin.

Jokainen opiskelija(pari) on vastuussa oman aineistonsa hankkimisesta. Aineisto voi liittyä esim. omaan tutkimukseen, opiskeluun, työhön tai harrastuksiin. Aineiston etsiminen kannattaa aloittaa jo ennen kurssin alkua. Jos et pysty hankkimaan "omaa" aineistoa, voit etsiä aineistoja esim. tämän kurssin aiemmista harjoitusaineistoista tai internetistä UCI KDD Archivesta tai Machine Learning Repositorysta. Sopiva aineisto on sellainen, jonka sisällön ymmärrät, ja joka käsittelee sinua kiinnostavaa asiaa. Aineistossa olisi hyvä olla vähintään satoja havaintoja (rivejä) ja kymmenen attribuuttia (saraketta).

Kurssiin kuuluvasta pakollisesta harjoitustyöstä tulee erilliset ohjeet. Tarkemmat ohjeet voi katsoa kurssin harjoitustyöohjeista.

Kurssin (suunniteltu) luentoaikataulu

  • ti 16.3.: kurssin esittely, tutkimustiedonhallinnan erityispiirteet [1, luku 2], kalvot 1-24
  • to 18.3.: eksploratiivinen data-analyysi [2, luku 2], kalvot 25-53
  • ti 23.3. datan visualisointi [2, luku 2], kalvot 54-90, 97-98
  • to 25.3.: visualisointi, 2 muuttujan tunnusluvut, kalvot 91-116
    johdatus Monte Carlo -menetelmiin, kalvot 117-132
  • ti 30.3.: hypoteesin testaus, p-arvo ja satunnaistamistestaus, bootstrap [2, luvut 4 ja 5], kalvot 132-159
  • to 1.4.: harjoitustöiden esittelyjä (ryhmäjako); estimointi, luottamusväli ja bootstrapping [2, luvut 4 ja 5], kalvot 160-177
  • ti 6.4.: tutkimustiedon metadata [1, luku 4], kalvot 178-195
  • (pääsiäisloma: ei opetusta to 8.4. eikä ti 13.4.)
  • to 15.4.: tiedon mallitus ja tallennus, esimerkkisovellus [3], kalvot 196-221
  • ti 20.4.: tieteellinen visualisointi (vierailuluento: Jarmo Pirhonen, CSC); harjoitustöiden esittelyjä
  • to 22.4.: satunnaislukujen generointi [4], kalvot 222-249
  • ma 26.4. klo 12-14, A217: otosten ottaminen tietokannoista [5], kalvot 250-275
  • to 29.4.: harjoitustöiden esittelyjä; kurssin kertaus
  • ke 12.5. klo 16-20 tentti (päärakennus sali 1)

Kurssin tärkeät päivämäärät:

  • ti 23.3. (vk 13): harjoitustyön aineiston valinta ja kuvaus
  • to 1.4. (vk 14): harjoitustyön ensimmäisen raportin palautus (eksploratiivinen analyysi, visualisointi)
  • ti 20.4. (vk 17): harjoitustyön toisen raportin palautus (satunnaistamistestaus, bootstrapping)
  • to 29.4. (vk 18): harjoitustyön kolmannen raportin palautus (tiedonhallinta, metadata)
  • ma 10.5. harjoitustyön viimeinen mahdollinen jättöpäivä
  • ke 12.5. klo 16-20 tentti (päärakennus sali 1)
  • (ti 8.6. 16-20 uusintakuulustelu tentin uusijoille (auditorio))

Laskuharjoitustehtävistä

Harjoitustehtävät ovat ylempänä kohdassa "Laskuharjoitustehtävät"

Laskuharjoituksiin osallistuminen on pakollista. Laskuharjoituksia on viidet, joista vähintään kolmessa on oltava läsnä. Läsnäoloksi lasketaan osallistumiskerta, jona opiskelija on tehnyt vähintään puolet harjoituskerran kotitehtävistä.

Laskuharjoitustehtävät tehdään kotiläksynä ennen harjoitusryhmän kokoontumista; opiskelijoiden esittämiä ratkaisuja käsitellään sitten kokoontumisissa. Hyväksi lasketaan vain tehtävät, jotka opiskelija ilmoittaa tehneensä harjoitusten aluksi kiertävällä listalla. Tehtävän merkintä listalle tarkoittaa, että opiskelija on valmis esittämään ratkaisuehdotuksensa laskuharjoituksissa. [Muutos 6.4.04:] Kurssin assistentti (tai tehtävän tekijä) toimittaa malliratkaisun kurssimappiin sekä mielellään verkkoon.

Kurssimateriaali

Kaikki kurssin materiaali on kurssimapissa. Lähteitä [1,2,5] lukuun ottamatta kaikki muu materiaali tullee olemaan saatavilla sähköisesti alla olevasta listasta.

Tenttiin sisältyvä materiaali (täsmennetty 30.4.2004):

  • luentokalvot (ks. yllä)
  • lähteet [1, 2]
  • lähteet [4, 5] luennoilla ja laskuharjoituksissa käsitellyiltä osiltaan
  • tentissä ei kysytä awkista tai gnuplotista tai unix-komennoista

Lähteet:

Muuta hyödyllistä oheismateriaalia (ei tule tenttiin)

  • awk-materiaalia, mm. windows-versio
  • Harri Laine: Johdatus sovellussuunnitteluun; TKTL:n kurssimoniste D419, 2002
  • Harri Laine: Tietokantojen perusteet; TKTL:n kurssimoniste D404, 2000
  • Hannu Karttunen: Datan käsittely. CSC 1994, 2001
  • Juha Ruokolainen ja Matti Gröhn: Tieteellinen visualisointi. CSC 1996
  • Tilastotieteen sanastoa
  • Gnuplot home page
  • Donald E. Knuth: Seminumerical Algorithms (luku 3: Random Numbers),
    Vol.2 sarjassa The Art of Computer Programming. 3.painos. Addison Wesley, 1998, 2001.