Helsingin yliopisto Tietojenkäsittelytieteen laitos
 

Tietojenkäsittelytieteen laitos

Tietoa laitoksesta:

 

581264 Tutkimustiedonhallinnan peruskurssi, 3 ov, kevät 2004

Laskuharjoitus 4 (20.4., 22.4)

  1. Tarkastele Strollers.txt-aineistoa. Havaintoja aineistoon ovat koonneet useat ihmiset (kenttä Observer). Pohdi keinoja arvioida sitä, onko havainnoissa havainnoitsijoista johtuvia eroja. Millaisia hypoteeseja ja nollahypoteeseja voisi käyttää, ja miten niitä testattaisiin satunnaistamalla?
    (Aineistoon liittyvää sanastoa: stroller=lastenrattaat, toddler=napero)
  2. Miten arvioisit Strollers-aineistosta lastenrattaiden työntämiseen liittyviä sukupuolirooleja, esim. sopivista kentistä johdetuilla arvoilla? Kannattaisiko tässä yhteydessä käyttää bootstrap-menetelmää? Miksi kyllä tai ei?
  3. Tarkastele Strollers.txt-aineistoa nyt metadatan näkökulmasta.
    • Minkätyyppistä metadataa tiedostoon sisältyy?
    • Tiedoston sisältämä metadata on tarkoitettu ihmisten luettavaksi - kuinka helppoa sen käyttö on?
    • Kuinka helppo tätä metadataa olisi käsitellä automaattisesti? Mitä muutoksia tekisit automatisoitavuuden parantamiseksi?
  4. Aineistoihin liittyvät README-tiedostot ovat yleensä tyypillistä metadataa. Ensimmäisissä harjoitusksissa esillä ollut tiedosto NNDD.html on itse asiassa aineistoon NNDD liittyvä README-tiedosto, joka sisältää pelkkää metadataa.
    • Entä ne tiedostot jotka tässä README-tiedostossa mainitaan: millaista raakadataa, makrodataa ja metadataa ne sisältävät README-tiedostosta päätellen?
    • Mitä mieltä olet tämän datajoukon käytön automatisoinnista näiden tietojen perusteella?
  5. Seismologian laitoksen luettelossa  oleva vanhin pohjoismainen maanjäristyshavainto on vuodelta 1375! Mittausmenetelmät ja -tarkkuus ovat yli 600 vuoden aikana varmasti muuttuneet aika lailla. Nykyisin maanjäristysdataa kerätään rekisteröimällä maankuoren värähtelyjä jatkuvasti useissa eri tarkkailupisteissä; samanaikaisten havaintojen perusteella voidaan laskea mm. järistyskeskuksen sijainti ja järistyksen voimakkuutta kuvaavia suureita.
    • Mikä oikeastaan on seismologista raakadataa, mikä makrodataa?
    • Mitä erityisongelmia seuraa pitkästä aikaskaalasta havaintojen määrän, tarkkuuden ym. vertailukelpoisuuden suhteen?
    • Minkätyyppistä metadataa aineistoihin sisältyy?
  6. Tarkastele metadatan näkökulmasta Australian viittomakieleen liittyvää aineistoa.
    • Minkätyyppistä metadataa aineistoon sisältyy?
    • Aineiston metadata on tarkoitettu ihmisten luettavaksi - kuinka helppoa sen käyttö on?
    • Ehdotuksia metadatan esitystavan parantamiseksi?
    • Kuinka helppo tätä metadataa olisi käsitellä automaattisesti? Mitä muutoksia tekisit automatisoitavuuden parantamiseksi?

Lähteet: