Laskuharjoitus 1 (18.3., 20.3)
Huom:
Muutos laskuharjoitusjärjestelmään.
Opiskelija, joka esittää ratkaisun laskuharjoituksissa
ja toimittaa sen (tarvittaessa puhtaaksikirjoitettuna)
mallivastauksena kurssimappiin saman viikon torstaina tai
perjantaina, saa yhden ylimääräisen pisteen.
(Lisäksi sähköisen version voi toimittaa Mikko Olinille
verkkoon laitettavaksi.)
Tehtävissä tarkastellaan muutamia eri sovelluksia, joiden yhteydessä
kohdataan tutkimustiedonhallinnan ongelmia.
Tehtävät voivat tuntua epämääräisiltä -
tyypillinen ongelma tutkimustiedon käsittelyssä onkin
oikeiden kysymysten etsiminen.
Tehtäviiin ei välttämättä ole yksiselitteisiä oikeita vastauksia.
-
Tarkastele Strollers.txt-aineistoa.
- Keksi muutamia mahdollisimman erilaisia kysymyksiä,
joihin tästä aineistosta voisi etsiä vastausta.
- Keksi ainakin pari eri tutkimusaluetta, joihin kuuluvassa
tutkimuksessa tätä tietokokoelmaa voisi käyttää.
- Keksi ainakin yksi (kuviteltu) tietokokoelma, jota voisi olla
mielekästä käyttää tämän aineiston yhteydessä, ja muutamia kysymyksiä,
joiden ratkaisemiseksi ehdottamasi tietokokoelman sisältämät tiedot
olisivat tarpeen.
-
Tiedostossa NNDD.html kuvattu
aineisto sisältää useita erillisiä tiedostoja,
jotka ovat tarpeen tuberkuloosi- ja
sikotautitapauksia koskevaa tietoa käsiteltäessä.
- Keksi tuberkuloositapauksiin liittyviä kysymyksiä, joiden
vastaamiseen tarvitaan muitakin tiedostoja kuin tb-tiedostoa.
- Miksi nämä tiedot ovat eri tiedostoissa?
- Vertaa toisiinsa tuberkuloositapauksista (tb-tiedosto) ja
sikotautitapauksista (kolme mumps-tiedostoa) koottuja
tietokokoelmia. Olisiko näiden perusteella mahdollista tehdä vertailuja
ko. tautien esiintymisestä - miten/miksi ei?
-
Millaisia vaatimuksia edellisen tehtävän tutkimusaineisto
ja sen (oletettu tai kuviteltu) käytto asettaa tiedonhallintajärjestelmälle
(vrt. luentokalvot)?
-
Tarkastele Strollers.txt-aineistoa
metadatan näkökulmasta?
- Minkätyyppistä metadataa tiedostoon sisältyy?
- Tiedoston sisältämä metadata on tarkoitettu ihmisten luettavaksi -
kuinka helppoa sen käyttö on?
- Kuinka helppo tätä metadataa olisi käsitellä automaattisesti?
Mitä muutoksia tekisit automatisoitavuuden parantamiseksi?
-
Aineistoihin liittyvät README-tiedostot ovat yleensä tyypillistä metadataa.
Aiemmassa harjoituksessa esillä ollut tiedosto
NNDD.html on itse asiassa aineistoon NNDD
liittyvä README-tiedosto, joka sisältää pelkkää metadataa.
- Entä ne tiedostot jotka tässä README-tiedostossa mainitaan:
millaista raakadataa, makrodataa ja metadataa ne sisältävät
README-tiedostosta päätellen?
- Mitä mieltä olet tämän datajoukon käytön automatisoinnista näiden
tietojen perusteella?
Lähteet:
- http://www.cs.helsinki.fi/hannu.toivonen/tutihaK03/laskarit/Strollers.txt
- http://www.cs.helsinki.fi/hannu.toivonen/tutihaK03/laskarit/NNDD.html