581264 Tutkimustiedonhallinnan peruskurssi, 3 ov, kevät 2004
Laskuharjoitus 2 (30.3., 1.4.)
Tehtäviin sisältyy visualisointia. Laskuharjoitustilaisuudessa on käytössä dataprojektori eli "videotykki" - laita kuvasi saataville ssh:lla saavutettavaan paikkaan (esim. TKTL:n kotihakemistosi alle). Tulosta kuvat myös paperille. Kiinnitä kaikissa kuvissa huomiota visuaalisen esityksen laatuun: kuvan täytyy palvella ilmiön havainnollistamista mahdollisimman hyvin! Muista myös kuvien otsikot, x- ja y-akselien nimeämiset, sopivat pistetyypit ja -koot, viivanleveydet jne.
-
Tarkastele tiedostossa Kunnat.txt
olevaa aineistoa. Piirrä histogrammi, jossa tarkastelet kuntien
maa- ja vesistöalan prosentuaalisia osuuksia koko pinta-alasta.
Arvioi histogrammin hyviä ja huonoja puolia kyseisessä
tehtävässä. Millaisia muita mielekkäitä
visualisointimahdollisuuksia keksit? Vertaa histogrammiesitykseen.
(Vinkki: käytä edellisissä laskuharjoituksissa tehtyä awk-ohjelmaa, joka tuottaa tietoja histogrammin piirtämistä varten gnuplotilla. Muokkaa awk-ohjelmaa esim. siten, että se tulostaa myös pylväiden paikat ((n+0.5)*b) eikä vain niiden korkeuksia.) - Tarkastele samaa aineistoa kuin edellisessä tehtävässä. Laske muuttujien pinta-ala ja asukasluku (naiset + miehet) minimi, maksimi, keskiarvo, mediaani, keskihajonta ja kvartiiliväli. Kuvaa muuttujat histogrammeilla. Mitä nämä tunnusluvut ja visualisointi kertovat aineistosta?
-
Tarkastele samaa aineistoa kuin tehtävissä 1 ja 2.
- Piirrä sirontakuvio, jossa tarkastelet kuntien pinta-alan ja asukasluvun suhdetta. Vertaile maalaiskuntia ja kaupunkikuntia piirtämällä ne samaan kuvaan erilaisilla pistetyypeillä.
- Laske korrelaatiokerroin näille muuttujille koko aineistosta ja erikseen kaupungeille ja maalaiskunnille.
- Arvioi tulosta: mitä se kertoo muuttujien riippuvuuksista, onko aineistossa poikkeavia arvoja, jotka vaikuttavat tulokseen jne.
- Tarkastele tiedostoissa EEG.t1.txt
ja EEG.t2.txt
olevia kahta aikasarjaa (t1 ja t2). Ne ovat koehenkilön
päänahalle asetetun kahden elektrodin samanaikaiset
mittaukset yhden sekunnin aikana (2 x 256 arvoa).
Kyse on laajasta tutkimuksesta, jossa on tutkittu
aivosähkökäyrien (EEG) yhteyttä ihmisen
geneettiseen alttiuteen alkoholismille.
- Esitä t1 ja t2 samassa kuvassa. Piirrä kaksi kuvaa, joista ensimmäisessä koko ajanjakso, toisessa vain ensimmäinen 0.5 sekunnin ajanjakso.
- Autokorrelaatiolla tarkoitetaan saman aikasarjan mittausten x ja x+d välistä korrelaatiota, missä d on viive (lag). Laske aikasarjoille t1 ja t2 autokorrelaatio arvoilla d=1 ja d=25.
- Laske aikasarjojen välinen korrelaatio (cross correlation), ts. tarkastele pareja t1(i),t2(i), 0<=i<256.
-
Toteuta ohjelma, jolla voi testata luennolla esitetyn hypoteesin
shakkiohjelman A paremmuudesta. Ohjelmalle annetaan parametrina
simuloitavien turnausten lukumäärä sekä kussakin turnauksessa
pelattavien pelien lukumäärä. Tuloksena se antaa otosjakauman
A:n voittamien pelien osuudelle ([0,1]) per turnaus (merkitään tätä
tunnusluvulla t).
(Vinkki: awkin funktio rand() tuottaa tasaisesti jakautuneen satunnaisluvun välillä [0,1].)- Aja ohjelma seuraavilla parametreilla: 100 turnausta, kussakin 15 ottelua.
- Piirrä saadusta t:n otosjakaumasta histogrammi.
- Mikä on t:n 95%-fraktiiliväli?
- Mikä on otoksen perusteella todennäköisyys p sille, että t >= 0.67?
- Toista kaikki edelliset vaiheet, mutta käytä turnauksia joissa on 30 ottelua. Miten t:n jakauma muuttuu?
-
Tarkastellaan edellisen tehtävän p:n jakaumaa.
P on itse asiassa satunnaismuuttuja t:n tunnusluku, ja kyseessä
on p:n otosjakauma.
Tee seuraava vertailu t:n otoskoon vaikutuksesta p:n tuloksiin.
-
Toista alkuperäisen tehtävän (100 turnausta, 15 ottelua)
ensimmäinen ja viimeinen vaihe 100 kertaa.
[Täsmennys 30.3.03:] Varmista, että satunnaislukugeneraattorilla on aina eri siemenluvut, ettet saa samoja tuloksia monta kertaa. Awkissa alustus tapahtuu srand()-funktiolla, jolle voi antaa siemenluvun parametrina. Jos siemenlukua ei anna tai srandia ei kutsuta lainkaan, siemenluku otetaan kellonajasta sekunnin tarkkuudella: samalla sekunnilla tapahtuvat alustukset tuottavat identtiset satunnaislukujonot. - Kuten edellä, mutta generoi edellisen tehtävän ensimmäisessä vaiheessa 1000 turnauksen otos (15 ottelua kussakin).
-
Toista alkuperäisen tehtävän (100 turnausta, 15 ottelua)
ensimmäinen ja viimeinen vaihe 100 kertaa.
Linkit materiaaliin:
- http://www.cs.helsinki.fi/u/htoivone/teaching/tutihaK04/laskarit/Kunnat.txt
- http://www.cs.helsinki.fi/u/htoivone/teaching/tutihaK04/laskarit/EEG.t1.txt
- http://www.cs.helsinki.fi/u/htoivone/teaching/tutihaK04/laskarit/EEG.t2.txt
- alkuperäinen eeg-lähde: http://kdd.ics.uci.edu/databases/eeg/eeg.html