581264 Tutkimustiedonhallinnan peruskurssi, 3 ov
Kurssi käsittelee tutkimusaineistojen käsittelyä ja niiden analysoimista laskennallisin menetelmin.
Asema opetuksessa
Kurssi on tietojenkäsittelytieteen cum lauden valinnainen kurssi. Se soveltuu myös muiden aineiden pääaineopiskelijoille, jotka joutuvat tekemisiin laajojen tutkimustietoaineistojen kanssa. Osallistujilta edellytetään tietojenkäsittelytieteen approbaturin tasoisia perustietoja ja -taitoja ohjelmoinnissa. Näitä taitoja tarvitaan kurssiin kuuluvan harjoitustyön tekemiseen. Perustiedot tilastotieteestä tai todennäköisyyslaskennasta ovat eduksi.
Kurssin sisältö
Luennot
- Johdanto: mikä tutkimustiedossa ja sen käsittelyssä on erityistä
- Tiedon esittäminen ja tallettaminen: tiedostot, puut, tietokannat, metadata
- Datan visualisointi: yksi-, kaksi- ja moniulotteinen data, ohjelmistoja, kuvien käyttö datan analysoinnissa, kuvien rakentaminen ja tulkitseminen
- Datan laskennallinen analysointi: Monte Carlo -lähestymistapa, estimointi, luottamusväli ja bootstrapping, testaus, p-arvo ja satunnaistaminen
- Analyyseissä tarpeellisia tekniikoita: satunnaislukujen generointi, otokset tietokannoista
Harjoistyö Kurssiin kuuluu pakollinen harjoitustyö, jonka osuus on kurssista on noin kolmannes. Harjoitustyössä tehdään suunnitelma jonkin aineiston tiedonhallinnasta sekä toteutetaan ja testataan laskennallisia analyysimenetelmiä samalla aineistolla. Opiskelijat hankkivat omat aineistonsa esim. opiskeluun, työhön tai harrastuksiin liittyen. Harjoitustyön voi tehdä pareittain.
Harjoitustyö on pakollinen ja kurssia ei voi suorittaa ilman sitä. Harjoitustyön voi suorittaa vai kurssin yhteydessä. Kurssin uusintakuulusteluun voi osallistua vain, jos harjoitustyö on tehty hyväksyttävästi.
Kurssimateriaali
Valikoituja tekstikirjojen kappaleita sekä alkuperäisartikkeleita (ilmoitetaan tarkemmin kurssilla).
Esimerkkejä kurssiin liittyvästä kirjallisuudesta:
- Paul R. Cohen: Empirical Methods for Artificial Intelligence; MIT Press 1995, luvut 2-5
- Z. Michalewicz (toim): Statistical and Scientific Databases; Ellis Horwood Ltd., 1991, luvut 2,4.
- John M. Chambers, William S. Cleveland, Beat Kleiner, Paul A. Tukey, Graphical Methods for Data Analysis; The Wadsworth Statistics/Probability Series, Wadsworth 1983, luvut 2-5, 8.
- William S. Cleveland, The Elements of Graphing Data; Wadsworth Advanced Books and Software, Wadsworth 1985, luvut 2 ja 4.
- Bradford Efron, The jackknife, the bootstrap and other resampling plans; Society for Industrial and Applied Mathematics (SIAM), 1983.
- Jeffrey Scott Vitter, Faster Methods for Random Sampling; Commun. ACM 27, 7 (1984), 703-718.
- Frank Olken, Doron Rotem, Sampling from Spatial Databases; 9th Int. Conference on Data Engineering (1993), 199-208.
- Jeffrey D. Ullman, Jennifer Widom, A First Course in Database Systems; Prentice-Hall 1997, luvut 1-3.
- Francis P. Bretherton, Paul T. Singley, Metadata: a User's View; 7th Int. Working Conference on Scientific and Statistical Database Management (1994), 166-174.
- Mark C. K. Yang, David H. Robinson, Understanding and Learning Statistics by Computer; World Scientific 1986, luvut 2 ja 7.
Suoritustavat
Kertauskuulustelu, viikottaiset harjoitukset sekä harjoitustyö, jonka osuus kurssista on n. kolmasosa.