Helsingin yliopisto Tietojenkäsittelytieteen laitos
 

Tietojenkäsittelytieteen laitos

Tietoa laitoksesta:

 

581264 Tutkimustiedonhallinnan peruskurssi, 3 ov, kevät 2004

Laskuharjoitus 3 (6.4., 15.4.)

Laskuharjoitustilaisuudessa on taas käytössä dataprojektori. Laita ratkaisusi saataville ssh:lla saavutettavaan paikkaan (esim. TKTL:n kotihakemistosi alle). Ota kuvat mukaan myös paperilla.

  1. Tarkastele hypoteesia "kunnan maa-ala ja vesistöala korreloivat positiivisesti" aineistossa Kunnat.txt.
    • Mikä on nollahypoteesi?
    • Miten aineistoa pitää satunnaistaa, jotta saadaan nollahypoteesin mukaisia havaintoja?
  2. Toteuta edellisen tehtävän satunnaistamistestaus. Mikä on muuttujien korrelaatio aineistossa? Mikä on havainnon p-arvo? (Monellako iteraatiolla?) Mitä se tarkoittaa?
  3. Muutos 6.4.: tämä tehtävä on ylimääräinen. Laskuharjoituksissa läsnäoloon riittää tällä kertaa kaksi tehtävää.
    Oletetaan, että halutaan satunnaistamalla tutkia ovatko otokset A ja B samasta jakaumasta (tunnuslukuna vaikka keskiarvojen erotus). Otoksessa A on 3 lukua ja otoksessa B 7 lukua.
    • Mikä on otosten yhdisteen mahdollisten permutaatioiden lukumäärä?
    • Kuinka moni niistä antaa kerrallaan saman tunnusluvun? (Eli mitkä ovat 3 ja 7 luvun permutaatioiden lukumäärät?)
    • Mikä siis on pienin mahdollinen p-arvo (joka voidaan saavuttaa täydellisellä permutoinnilla), kun vaihtoehtoinen hypoteesi on muotoa (i) "A:n arvot ovat pienempiä kuin B"; (ii) "A:n ja B:n arvot eivät ole samasta jakaumasta"?
  4. Tarkastellaan taas ensimmäisen tehtävän aineistoa Kunnat.txt ja kuntien maa-alaa. Ota otokseksi tiedoston 100 ensimmäistä tai viimeistä kuntaa.
    Käytä otoskeskiarvoa estimoimaan koko aineiston odotusarvoa maa-alalle ja muodosta 10000 bootstrap-otoksen avulla sille 95 %, 99 % ja 99.9 % luottamusvälit.
  5. Jatketaan edellistä tehtävää.
    • Laske koko aineistosta maa-alan keskiarvo ja hajonta. Miten keskiarvo sijoittuu edellisen tehtävän luottamusväleille?
    • Laske otoksestasi otoskeskiarvo ja otoskeskihajonta ja niiden avulla normaalijakaumaoletukseen perustuva otoskeskiarvon 95 %:n luottamusväli (otoskeskiarvo +- 1.96*otoskeskihajonta/sqrt(100)). Vertaa tulosta bootstrap-otoksen 95 %:n luottamusväliin.
    • Laske myös koko aineiston tunnuslukuja käyttäen normaalijakaumaoletukseen perustuva otoskeskiarvon 95 %:n luottamusväli (keskiarvo +- 1.96*keskihajonta/sqrt(100)). Vertaa tulosta edelliseen luottamusväliin.
  6. Satunnaistamalla saatava p-arvo on estimaatti populaation "todelliselle" p-arvolle. Kuvaa pseudoalgoritmin muodossa, miten otoksesta arvioidun p-arvon luottamusväliä voisi arvioida bootstrapin avulla. (Sovella siis luennolla annettua luottamusvälejä arvioivaa algoritmia, kun tunnuslukuna onkin p-arvo. Huomaa, että nyt tunnusluvun laskeminen vaatii satunnaistamistestin.)

Linkit materiaaliin: