Laskuharjoitus 5 (24.4)
HUOM: Tiistain ryhmä on peruttu vähäisen osallistumisen vuoksi.
Tiistairyhmäläiset voivat osallistua torstain harjoituksiin.
-
Kunta-aineisto Kunnat.txt ei ole otos, joten sitä voidaan käyttää parametrin estimoinnin
havainnollistamiseen, kun parametrina on esim. Suomen väestöntiheys,
jonka oikean arvon voimme laskea aineistosta.
- Laske Suomen väestontiheys aineiston perusteella.
- Muodosta 1000 kappaletta 30 kunnan otoksia aineistosta ja
laske niiden perusteella otosjakauma väestöntiheydelle (mieti kuinka
tunnusluvun laskenta on suoritettava). Talleta kukin
otos ja sen perusteella laskettu väestöntiheyden estimaatti. Piirrä
histogrammi otosjakaumasta.
- Toimi kuten edellä mutta käyta 100 kunnan otoksia.
- Valitse yksi 30 kunnan otoksista, josta laskettu estimaatti
on jakauman odotusarvon "lähistöllä" ja yksi 100 kunnan otos josta
laskettu estimaatti on kauempana vastaavan jakauman odotusarvosta. Muodosta kummallekin
estimaatille 50, 90 ja 95 % -luottamusvälit. Kuinka ne suhtautuvat
toisiinsa ja parametrin todelliseen arvoon? Miksi tulokset ovat
sellaiset kuin ovat?
-
Kolmiojakauma on jatkuva jakauma, jonka tiheysfunktio muodostaa
(geometrisesti tulkittuna) tasakylkisen kolmion kyljet.
Kirjoita ohjelma joka generoi satunnaislukuja kolmiojakaumasta, joka saa
arvoja väliltä
-
Toteuta Vitterin artikkelissa (ja luennoilla) esitetty algoritmi
A otantaan tietokannasta. Kokeile algoritmia jollakin sopivalla
aineistolla (sen ei tarvitse olla tietokannassa).
-
Toteuta Vitterin artikkelissa (ja luennoilla) esitetty
hylkäämismenetelmään perustuva algoritmi otantaan tietokannasta (ilman
litistystä). Käytä apufunktiona g ja vakiona c artikkelissa (ja luennoilla) esitettyjä
arvoja. Kokeile algoritmia jollakin aineistolla (sen ei tarvitse olla tietokannassa).
-
Jos ei tarvitse välittää tietueiden järjestyksestä, voidaan
edellisten tehtävien otanta luonnollisesti toteuttaa arpomalla
satunnaisesti n kpl tietueita N kpl joukosta. Testaa
edellisessä/edellisissä tehtävissä toteuttamiasi algoritmeja
ajamalla suurehko määrä testiajoja jollakin
sopivalla testidatalla ja vertaamalla tulosteita mainitulla
yksinkertaisella menetelmällä tuotettuihin tuloksiin.
Kuinka mittaat sitä, ovatko tulokset samoja?