581264 Tutkimustiedonhallinnan peruskurssi, 3 ov, kevät 2004
Laskuharjoitus 4 (20.4., 22.4)
-
Tarkastele Strollers.txt-aineistoa.
Havaintoja aineistoon ovat koonneet useat ihmiset (kenttä Observer).
Pohdi keinoja arvioida sitä, onko havainnoissa havainnoitsijoista johtuvia eroja.
Millaisia hypoteeseja ja nollahypoteeseja voisi käyttää, ja miten niitä testattaisiin
satunnaistamalla?
(Aineistoon liittyvää sanastoa: stroller=lastenrattaat, toddler=napero) - Miten arvioisit Strollers-aineistosta lastenrattaiden työntämiseen liittyviä sukupuolirooleja, esim. sopivista kentistä johdetuilla arvoilla? Kannattaisiko tässä yhteydessä käyttää bootstrap-menetelmää? Miksi kyllä tai ei?
- Tarkastele Strollers.txt-aineistoa nyt metadatan näkökulmasta.
- Minkätyyppistä metadataa tiedostoon sisältyy?
- Tiedoston sisältämä metadata on tarkoitettu ihmisten luettavaksi - kuinka helppoa sen käyttö on?
- Kuinka helppo tätä metadataa olisi käsitellä automaattisesti? Mitä muutoksia tekisit automatisoitavuuden parantamiseksi?
- Aineistoihin liittyvät README-tiedostot ovat yleensä tyypillistä metadataa. Ensimmäisissä harjoitusksissa esillä ollut tiedosto NNDD.html on itse asiassa aineistoon NNDD liittyvä README-tiedosto, joka sisältää pelkkää metadataa.
- Entä ne tiedostot jotka tässä README-tiedostossa mainitaan: millaista raakadataa, makrodataa ja metadataa ne sisältävät README-tiedostosta päätellen?
- Mitä mieltä olet tämän datajoukon käytön automatisoinnista näiden tietojen perusteella?
- Seismologian
laitoksen
luettelossa oleva vanhin pohjoismainen
maanjäristyshavainto on vuodelta 1375! Mittausmenetelmät ja
-tarkkuus ovat yli 600 vuoden aikana varmasti muuttuneet aika lailla.
Nykyisin maanjäristysdataa kerätään
rekisteröimällä maankuoren värähtelyjä
jatkuvasti useissa eri tarkkailupisteissä; samanaikaisten
havaintojen perusteella voidaan laskea mm. järistyskeskuksen
sijainti ja järistyksen voimakkuutta kuvaavia suureita.
- Mikä oikeastaan on seismologista raakadataa, mikä makrodataa?
- Mitä erityisongelmia seuraa pitkästä aikaskaalasta havaintojen määrän, tarkkuuden ym. vertailukelpoisuuden suhteen?
- Minkätyyppistä metadataa aineistoihin sisältyy?
- Tarkastele metadatan näkökulmasta Australian
viittomakieleen liittyvää aineistoa.
- Minkätyyppistä metadataa aineistoon sisältyy?
- Aineiston metadata on tarkoitettu ihmisten luettavaksi - kuinka helppoa sen käyttö on?
- Ehdotuksia metadatan esitystavan parantamiseksi?
- Kuinka helppo tätä metadataa olisi käsitellä automaattisesti? Mitä muutoksia tekisit automatisoitavuuden parantamiseksi?
Lähteet:
- http://www.cs.helsinki.fi/hannu.toivonen/teaching/tutihaK04/laskarit/Strollers.txt
- http://www.cs.helsinki.fi/hannu.toivonen/teaching/tutihaK04/laskarit/NNDD.html
- http://www.seismo.helsinki.fi/fi/maanjaristykset.htm
- http://kdd.ics.uci.edu/databases/auslan2/auslan.html