Laskuharjoitus 4 (10.4)
HUOM: Tiistain ryhmä on peruttu vähäisen osallistumisen vuoksi.
Tiistairyhmäläiset voivat osallistua torstain harjoituksiin.
-
Testaa hypoteesi "kunnan maa-ala ja vesistöala korreloivat positiivisesti" aineistossa
Kunnat.txt.
- Mikä on muuttujien korrelaatio aineistossa?
- Mikä on nollahypoteesi?
- Miten aineistoa pitää satunnaistaa, jotta saadaan nollahypoteesin mukaisia havaintoja?
- Toteuta satunnaistamistestaus. Mikä on havainnon p-arvo? Mitä se tarkoittaa?
-
Saadun p-arvon tarkkuus riippuu satunnaisiteraatioiden lukumäärästä.
-
Suorita edellinen tehtävä useilla erilaisilla iteraatiomäärillä, esim.
K=10, 20, 30, ..., 100, 500, 1000, 10000 ja piirrä näistä kuvaaja (p-arvo K:n funktiona).
-
Mitä arvelet p-arvon oikeasti olevan?
-
Jos arvaamasi p-arvo olisi oikein, niin miten virhe p-arvon estimaatissa käyttäytyy
K:n funktiona?
- Edellisissä harjoituksissa oli seuraava tehtävä:
Toteuta ohjelma, joka testaa luennoilla esitetyn hypoteesin
shakkiohjelman A paremmuudesta. Ohjelmalle annetaan parametrina simuloitavien
turnausten lukumäärä, ja tuloksena se antaa arvoidun p-arvon tulokselle f=10/15.
Satunnaistamalla saatu p-arvon arvio on satunnaismuuttuja, jolla on oma otosjakaumansa.
Toista edellinen tehtävä 1000 kertaa siten, että turnausten lukumäärä on K=1000
ja talleta p-arvot (varmista, että satunnaislukugeneraattorilla on joka kerralla eri siemenluku).
Piirrä saadulle p-arvojakaumalle histogrammi. Mikä näyttää olevan p-arvon odotusarvo?
-
Oletetaan, että halutaan satunnaistamalla tutkia
ovatko otokset A ja B samasta jakaumasta tunnuslukuna
keskiarvojen erotus. Otoksessa A on 3 lukua ja otoksessa B 8
lukua.
- Mikä on otosten yhdisteen mahdollisten permutaatioiden
lukumäärä?
- Mikä on pienin p-arvo, joka voidaan saavuttaa, kun
vaihtoehtoinen hypoteesi on muotoa (i) "A:n ja B:n arvot
eivät ole samasta jakaumasta"; (ii) "A:n arvot ovat
pienempiä kuin B"
- Olkoon A={28.3, 29.2,30.0} ja B={29.3,30.1,30.8,30.9,31.2,32.1,32.9,33.3}.
Testaa yllä mainittuja hypoteeseja näille joukoille
merkitsevyysarvoille p=0.05,p=0.01,p=0.001.
- Oletetaan, että edellisessä tehtävässä annettu joukko B on edustava otos koko
populaatiosta.
- Käytä otoskeskiarvoa estimoimaan
populaation odotusarvoa ja muodosta 50000
bootstrap-otoksen avulla sille 95 %, 99 % ja 99.9 %
luottamusvälit. Vertaa tuloksia edellisen tehtävän tuloksiin.
- Oletetaan, että otoksessa on samat arvot kuin B:ssä
mutta kaksi kappaletta kutakin. Laske nyt
luottamusvälit. Toimi samoin kun kutakin alkiota on
4,8,16 ja 32 kpl.
- Esitä tulokset visuaalisesti käyttäen
hajontapylväitä (errorbars). X-akselilla otoksen koko
(log-asteikko) ja y-asteikolla estimaatti ja sen luottamusväli.