Helsingin yliopisto Tietojenkäsittelytieteen laitos
 

Tietojenkäsittelytieteen laitos

Tietoa laitoksesta:

 

581264 Tutkimustiedonhallinnan peruskurssi, 3 ov, kevät 2004

Laskuharjoitus 2 (30.3., 1.4.)

Tehtäviin sisältyy visualisointia. Laskuharjoitustilaisuudessa on käytössä dataprojektori eli "videotykki" - laita kuvasi saataville ssh:lla saavutettavaan paikkaan (esim. TKTL:n kotihakemistosi alle). Tulosta kuvat myös paperille. Kiinnitä kaikissa kuvissa huomiota visuaalisen esityksen laatuun: kuvan täytyy palvella ilmiön havainnollistamista mahdollisimman hyvin! Muista myös kuvien otsikot, x- ja y-akselien nimeämiset, sopivat pistetyypit ja -koot, viivanleveydet jne.

  1. Tarkastele tiedostossa Kunnat.txt olevaa aineistoa. Piirrä histogrammi, jossa tarkastelet kuntien maa- ja vesistöalan prosentuaalisia osuuksia koko pinta-alasta. Arvioi histogrammin hyviä ja huonoja puolia kyseisessä tehtävässä. Millaisia muita mielekkäitä visualisointimahdollisuuksia keksit? Vertaa histogrammiesitykseen.
    (Vinkki: käytä edellisissä laskuharjoituksissa tehtyä awk-ohjelmaa, joka tuottaa tietoja histogrammin piirtämistä varten gnuplotilla. Muokkaa awk-ohjelmaa esim. siten, että se tulostaa myös pylväiden paikat ((n+0.5)*b) eikä vain niiden korkeuksia.)
  2. Tarkastele samaa aineistoa kuin edellisessä tehtävässä. Laske muuttujien pinta-ala ja asukasluku (naiset + miehet) minimi, maksimi, keskiarvo, mediaani, keskihajonta ja kvartiiliväli. Kuvaa muuttujat histogrammeilla. Mitä nämä tunnusluvut ja visualisointi kertovat aineistosta?
  3. Tarkastele samaa aineistoa kuin tehtävissä 1 ja 2.
    • Piirrä sirontakuvio, jossa tarkastelet kuntien pinta-alan ja asukasluvun suhdetta. Vertaile maalaiskuntia ja kaupunkikuntia piirtämällä ne samaan kuvaan erilaisilla pistetyypeillä.
    • Laske korrelaatiokerroin näille muuttujille koko aineistosta ja erikseen kaupungeille ja maalaiskunnille.
    • Arvioi tulosta: mitä se kertoo muuttujien riippuvuuksista, onko aineistossa poikkeavia arvoja, jotka vaikuttavat tulokseen jne.
  4. Tarkastele tiedostoissa EEG.t1.txt ja EEG.t2.txt olevia kahta aikasarjaa (t1 ja t2). Ne ovat koehenkilön päänahalle asetetun kahden elektrodin samanaikaiset mittaukset yhden sekunnin aikana (2 x 256 arvoa). Kyse on laajasta tutkimuksesta, jossa on tutkittu aivosähkökäyrien (EEG) yhteyttä ihmisen geneettiseen alttiuteen alkoholismille.
    • Esitä t1 ja t2 samassa kuvassa. Piirrä kaksi kuvaa, joista ensimmäisessä koko ajanjakso, toisessa vain ensimmäinen 0.5 sekunnin ajanjakso.
    • Autokorrelaatiolla tarkoitetaan saman aikasarjan mittausten x ja x+d välistä korrelaatiota, missä d on viive (lag). Laske aikasarjoille t1 ja t2 autokorrelaatio arvoilla d=1 ja d=25.
    • Laske aikasarjojen välinen korrelaatio (cross correlation), ts. tarkastele pareja t1(i),t2(i), 0<=i<256.
    (Tarkemmin autokorrelaatiosta ja aikasarjojen välisestä korrelaatiosta on kerrottu Cohenin kirjassa, luvussa 2.5.3 Statistics for Time Series.)
  5. Toteuta ohjelma, jolla voi testata luennolla esitetyn hypoteesin shakkiohjelman A paremmuudesta. Ohjelmalle annetaan parametrina simuloitavien turnausten lukumäärä sekä kussakin turnauksessa pelattavien pelien lukumäärä. Tuloksena se antaa otosjakauman A:n voittamien pelien osuudelle ([0,1]) per turnaus (merkitään tätä tunnusluvulla t).
    (Vinkki: awkin funktio rand() tuottaa tasaisesti jakautuneen satunnaisluvun välillä [0,1].)
    1. Aja ohjelma seuraavilla parametreilla: 100 turnausta, kussakin 15 ottelua.
    2. Piirrä saadusta t:n otosjakaumasta histogrammi.
    3. Mikä on t:n 95%-fraktiiliväli?
    4. Mikä on otoksen perusteella todennäköisyys p sille, että t >= 0.67?
    5. Toista kaikki edelliset vaiheet, mutta käytä turnauksia joissa on 30 ottelua. Miten t:n jakauma muuttuu?
  6. Tarkastellaan edellisen tehtävän p:n jakaumaa. P on itse asiassa satunnaismuuttuja t:n tunnusluku, ja kyseessä on p:n otosjakauma. Tee seuraava vertailu t:n otoskoon vaikutuksesta p:n tuloksiin.
    • Toista alkuperäisen tehtävän (100 turnausta, 15 ottelua) ensimmäinen ja viimeinen vaihe 100 kertaa.
      [Täsmennys 30.3.03:] Varmista, että satunnaislukugeneraattorilla on aina eri siemenluvut, ettet saa samoja tuloksia monta kertaa. Awkissa alustus tapahtuu srand()-funktiolla, jolle voi antaa siemenluvun parametrina. Jos siemenlukua ei anna tai srandia ei kutsuta lainkaan, siemenluku otetaan kellonajasta sekunnin tarkkuudella: samalla sekunnilla tapahtuvat alustukset tuottavat identtiset satunnaislukujonot.
    • Kuten edellä, mutta generoi edellisen tehtävän ensimmäisessä vaiheessa 1000 turnauksen otos (15 ottelua kussakin).
    Vertaile yllä saamiasi p:n otosjakaumia histogrammien avulla. Mitä niistä voi päätellä?

Linkit materiaaliin: