581264 Tutkimustiedonhallinnan peruskurssi, 3 ov, kevät 2004
Laskuharjoitus 3 (6.4., 15.4.)
Laskuharjoitustilaisuudessa on taas käytössä dataprojektori. Laita ratkaisusi saataville ssh:lla saavutettavaan paikkaan (esim. TKTL:n kotihakemistosi alle). Ota kuvat mukaan myös paperilla.
-
Tarkastele hypoteesia "kunnan maa-ala ja vesistöala korreloivat positiivisesti" aineistossa
Kunnat.txt.
- Mikä on nollahypoteesi?
- Miten aineistoa pitää satunnaistaa, jotta saadaan nollahypoteesin mukaisia havaintoja?
- Toteuta edellisen tehtävän satunnaistamistestaus. Mikä on muuttujien korrelaatio aineistossa? Mikä on havainnon p-arvo? (Monellako iteraatiolla?) Mitä se tarkoittaa?
-
Muutos 6.4.: tämä tehtävä on ylimääräinen.
Laskuharjoituksissa läsnäoloon riittää tällä kertaa
kaksi tehtävää.
Oletetaan, että halutaan satunnaistamalla tutkia ovatko otokset A ja B samasta jakaumasta (tunnuslukuna vaikka keskiarvojen erotus). Otoksessa A on 3 lukua ja otoksessa B 7 lukua.- Mikä on otosten yhdisteen mahdollisten permutaatioiden lukumäärä?
- Kuinka moni niistä antaa kerrallaan saman tunnusluvun? (Eli mitkä ovat 3 ja 7 luvun permutaatioiden lukumäärät?)
- Mikä siis on pienin mahdollinen p-arvo (joka voidaan saavuttaa täydellisellä permutoinnilla), kun vaihtoehtoinen hypoteesi on muotoa (i) "A:n arvot ovat pienempiä kuin B"; (ii) "A:n ja B:n arvot eivät ole samasta jakaumasta"?
-
Tarkastellaan taas ensimmäisen tehtävän aineistoa Kunnat.txt ja
kuntien maa-alaa. Ota otokseksi tiedoston 100 ensimmäistä tai viimeistä
kuntaa.
Käytä otoskeskiarvoa estimoimaan koko aineiston odotusarvoa maa-alalle ja muodosta 10000 bootstrap-otoksen avulla sille 95 %, 99 % ja 99.9 % luottamusvälit. -
Jatketaan edellistä tehtävää.
- Laske koko aineistosta maa-alan keskiarvo ja hajonta. Miten keskiarvo sijoittuu edellisen tehtävän luottamusväleille?
- Laske otoksestasi otoskeskiarvo ja otoskeskihajonta ja niiden avulla normaalijakaumaoletukseen perustuva otoskeskiarvon 95 %:n luottamusväli (otoskeskiarvo +- 1.96*otoskeskihajonta/sqrt(100)). Vertaa tulosta bootstrap-otoksen 95 %:n luottamusväliin.
- Laske myös koko aineiston tunnuslukuja käyttäen normaalijakaumaoletukseen perustuva otoskeskiarvon 95 %:n luottamusväli (keskiarvo +- 1.96*keskihajonta/sqrt(100)). Vertaa tulosta edelliseen luottamusväliin.
- Satunnaistamalla saatava p-arvo on estimaatti populaation "todelliselle" p-arvolle. Kuvaa pseudoalgoritmin muodossa, miten otoksesta arvioidun p-arvon luottamusväliä voisi arvioida bootstrapin avulla. (Sovella siis luennolla annettua luottamusvälejä arvioivaa algoritmia, kun tunnuslukuna onkin p-arvo. Huomaa, että nyt tunnusluvun laskeminen vaatii satunnaistamistestin.)
Linkit materiaaliin:
- http://www.cs.helsinki.fi/u/htoivone/teaching/tutihaK04/laskarit/Kunnat.txt