Yliopiston etusivulle Suomeksi Inte på svenska No english version available
Helsingin yliopisto Tietojenkäsittelytieteen laitos
 

Tietojenkäsittelytieteen laitos


http://www.cs.helsinki.fi/~linden/opetus/tthall00/

581264-6 Tutkimustiedonhallinnan peruskurssi (3 ov)

Kurssi on tietojenkäsittelytieteen cum lauden ja laudaturin valinnainen kurssi, joka käsittelee tietokantojen käyttöä tutkimusaineistojen hallinnassa ja data-analyysin laskennallisten menetelmien perusteita. Kurssi soveltuu myös muiden aineiden pääaineopiskelijoille, jotka joutuvat tekemisiin laajojen tutkimustietoaineistojen kanssa. Osallistujilta edellytetään tietojenkäsittelytieteen approbaturin (nyk. cum laude) tasoisia perustietoja ja -taitoja ohjelmoinnissa. Tietojenkäsittelytieteen pakollisista cum laude -kursseista Tietokantojen perusteet (tai Tiedonhallinta I) -kurssilla käsitellään osittain samoja asioita kuin tämän kurssin alkuosassa. Kurssin yhteydessä tehdään harjoitustyö.

Tarkempia tietoja kurssin sisällöstä löytyy kurssikuvauksesta.
Kurssin vastuuhenkilö on Greger Lindén.

Kurssi perustuu prof. A. Inkeri Verkamon aikaisemmin pitämiin kursseihin syyslukukaudella 1997 ja keväätlukukaudella 1999.


Kevätlukukaudella 2000 kurssin luennot ovat tiistaisin klo 16-18 ja torstaisin klo 12-14 salissa A217 (7.3.-4.5.) ja harjoitukset torstaisin klo 14-16 salissa A319 (16.3.-4.5.). Tavanomaisten harjoitusten ohessa kokoontumisissa esitellään kurssilla tehtäviä harjoitustöitä eri vaiheissaan; tätä varten järjestetään myös yksi kokoontuminen lukukauden lopulla ennen harjoitustöiden jättämistä tarkastettavaksi.

Kurssia koskevia päivämääriä:

  • Harjoitustyön aiheet, tekijät (työparit) ja työn lopullinen aikataulu sovitaan to 16.3. Kaikkien kurssille osallistuvien on tällöin syytä olla paikalla.
  • Harjoitustöiden ensimmäisen vaiheen esittely (tutustuminen dataan) to 30.3. harjoituksissa.
  • Harjoitustöiden toisen vaiheen esittely (datan kuvaus ja tietokantaratkaisu) to 13.4. salissa B450 harjoituksissa (aloitetaan klo 15.15)
  • to 13.4 ja ti 18.4. ei luentoa (eikä to 20.4 tai ti 25.4; pääsiäisviikko).
  • Kurssin kertauskoe on perjantaina 12.5. klo 10-14 Porthaniassa I.
  • Kurssista voi antaa palautetta vastaamalla kurssikyselyyn.
  • Harjoitustöiden kolmannen vaiheen esittely (datan analysointi ja visualisointi) ti 9.5. klo 8-10(12) (6-7 työtä) ja ke 10.5. klo 8-10 (6-7 työtä) salissa A217 (ilmoittakaa aikatoivomuksenne sähköpostitse).
  • Harjoitustyöt on jätettävä tarkastukseen viimeistään ma 15.5.

- Kurssin sisällysluettelo

  1. Johdanto
    • Mikä tutkimustiedossa ja sen hallinnassa on erityistä? (7-9.3)
    • Metadata (14.-16.3.)
  2. Tiedon esitys ja talletus
    • Tiedostot (21.3.)
    • B-puut (21.3.)
    • Tietokannat
      • Peruskäsitteistöä (23.3.)
      • Tietokannan suunnittelu (28.3.)
      • Isohko esimerkki? (TIPU?) (4.4.)
  3. Data-analyysi
    • Eksploratiivinen data-analyysi (30.3.)
    • Yksi-, kaksi-, moniulotteinen data (4.-6.4.)
    • Tilasto-ohjelmistot (6.4.)
    • Satunnaisluvut, otokset (11.4.)
    • Paikkatiedon käsittely (27.4.)
    • Jackknife, bootstrapping, satunnaistaminen (27.4.)
    • Isohko esimerkki (Metsäkuviot) (27.4.)
  4. Visualisointi (2.-4.5.)

    - Laskuharjoitukset


    - Harjoitustyöt

    Harjoitustöiden aiheet ja tekijät (työparit) sovitaan luennolla to 16.3. Harjoitustyö on mahdollista (ja suositeltavaakin!) tehdä omasta aineistosta, jos sellainen on käytettävissä. Ks. harjoitustyötä ja sen dokumentointia koskevia ohjeita.

    Harjoitustöitä esitellään kurssilla seuraavasti:

    1. Tutustuminen dataan:
      • mistä tässä datassa on kysymys
      • datan osat, metadata
      • to 30.3. laskuharjoitukset
      • lyhyt esittely: yksi kalvo ~ 7 minuuttia per datajoukko
      • esiteltävät datajoukot:
    2. Datan kuvaus ja tietokantaratkaisu:
      • datajoukkoa kuvaava tietomalli
      • esitys tiedonhallintaratkaisuksi
      • to 13.4. salissa B450 laskuharjoitukset (klo 15.15 eteenpäin)
      • esittely: 10-12 minuuttia per datajoukko
      • esiteltävät datajoukot ja alustava aikataulu:
    3. Datan analysointi ja visualisointi:
      • keskeiset muuttujat ja niiden väliset riippuvuudet
      • kysymykset ja vastaukset
      • ti 9.5. klo 8-10(12) ja ke 10.5. (6-7 työtä) klo 8-10 (6-7 työtä) salissa A217
      • esittely: 15-20 minuuttia per ryhmä
      • esiteltävät datajoukot ja (viitteellinen) aikataulu:
        • ti 9.5 klo 8.15-8.30: WWW - WWW-käyttäjät Yhdysvalloissa
        • ti 9.5 klo 8.30-8.45: PUU - Puusolukon entsyymin aktiviivisudet
        • ti 9.5 klo 8.45-9.00: TIPU - lintujen rengastus
        • ti 9.5 klo 9.00-9.15:
        • ti 9.5 klo 9.15-9.30:
        • ti 9.5 klo 9.30-9.45:

        • ke 10.5 klo 8.15-8.30: ILMO - TKTL:n kurssi-ilmoittautumiset
        • ke 10.5 klo 8.30-8.45: FINA - Projektihallinta
        • ke 10.5 klo 8.45-9.00: OPE - tietokoneen opetuskäyttöön liittyvät asenteet
        • ke 10.5 klo 9.00-9.15: KASVINSUOJELU - kasvinsuojeluaineiden käyttö lähinnä USA:n rannikkoalueilla
        • ke 10.5 klo 9.15-9.30: GEENI - Geeniekspressiodataa
        • ke 10.5 klo 9.30-9.45: TALOT - Helsingin kaupungin taloja, asuntoja ja asukkaita koskevaa dataa
        • ke 10.5 klo 9.45-10.00: SÄÄ - säämittaukset
        • ke 10.5 klo 10.00-10.15: PÖRSSI - pörssikurssit

    Harjoitustöiden esimerkkiaineistoja (alustava)


    - Kirjallisuus


    - Kertauskoe

    • pe 12.5.2000 klo 10-14 Porthania I: Tulokset (myös ilmoitustaululla)
    • ti 16.5.2000 klo 14-18 Auditorio: Tulokset (myös ilmoitustaululla)

    • Luentomuistiinpanot
    • Laskuharjoitukset
    • Kirja John M. Chambers, William S. Cleveland, Beat Kleiner, Paul A. Tukey, Graphical Methods for Data Analysis; The Wadsworth Statistics/Probability Series, Wadsworth 1983. Luvut 2-5 (aliluvut 2.1-2.8, 3.1-3.3, 4.1-4.9, 5.1-5.5), sen verran, että pystytte kertomaan mitä eri menetelmät/käsitteet tarkoittavat (sen verran mitä luennoilla esitettiin; kopiot kirjasta luentomapissa)

    - Arvostelu

    • Kertauskoe max 40 pistettä; hyväksyttyyn suoritukseen kokeesta on saatava vähintään 10 pistettä.
    • Harjoitustyö max 20 pistettä; hyväksyttyyn suoritukseen työstä on saatava vähintään 5 pistettä.
    • Harjoitukset ovat vapaaehtoisia, mutta niistä voi saada max 5 lisäpistettä.
    • Kurssin suorittamiseen tarvitaan vähintään 30 pistettä.
    Lisää arvostelusta

    - Loppukoe (lisätty 11.10.2000)

    Niin kuin kurssikuvauksesta käy ilmi, kurssin suorittamiseen kuuluu sekä kertauskuulustelu (loppukoe) ja harjoitustyö. Loppukokeesta on saatava vähintään 10 pistettä (maks. 40 pistettä). Pakollisesta harjoitustyöstä on saatava vähintään 5 pistettä (maks. 20 pistettä).

    • ti 22.8.2000 (ei osallistujia)
    • ti 10.10.2000 klo 16-20 Auditorio: Tulokset (myös ilmoitustaululla)
    • ti 14.11.2000 klo 16-20 Auditorio

    Kokeet perustuvat

    • luentomuistiinpanoihin
    • laskuharjoituksiin
    • Kirjaan John M. Chambers, William S. Cleveland, Beat Kleiner, Paul A. Tukey, Graphical Methods for Data Analysis; The Wadsworth Statistics/Probability Series, Wadsworth 1983. Luvut 2-5 (aliluvut 2.1-2.8, 3.1-3.3, 4.1-4.9, 5.1-5.5), sen verran, että pystyy kertomaan mitä eri menetelmät/käsitteet tarkoittavat (sen verran mitä luennoilla esitettiin; kopiot kirjasta luentomapissa)

    - Tilastopakkauksia ym. apuvälineitä:


    Greger Lindén