581264 Tutkimustiedonhallinnan peruskurssi, 3 ov, kevät 2003

Laskuharjoitus 5 (24.4)

HUOM: Tiistain ryhmä on peruttu vähäisen osallistumisen vuoksi. Tiistairyhmäläiset voivat osallistua torstain harjoituksiin.

  1. Kunta-aineisto Kunnat.txt ei ole otos, joten sitä voidaan käyttää parametrin estimoinnin havainnollistamiseen, kun parametrina on esim. Suomen väestöntiheys, jonka oikean arvon voimme laskea aineistosta.
  2. Kolmiojakauma on jatkuva jakauma, jonka tiheysfunktio muodostaa (geometrisesti tulkittuna) tasakylkisen kolmion kyljet. Kirjoita ohjelma joka generoi satunnaislukuja kolmiojakaumasta, joka saa arvoja väliltä
  3. Toteuta Vitterin artikkelissa (ja luennoilla) esitetty algoritmi A otantaan tietokannasta. Kokeile algoritmia jollakin sopivalla aineistolla (sen ei tarvitse olla tietokannassa).
  4. Toteuta Vitterin artikkelissa (ja luennoilla) esitetty hylkäämismenetelmään perustuva algoritmi otantaan tietokannasta (ilman litistystä). Käytä apufunktiona g ja vakiona c artikkelissa (ja luennoilla) esitettyjä arvoja. Kokeile algoritmia jollakin aineistolla (sen ei tarvitse olla tietokannassa).
  5. Jos ei tarvitse välittää tietueiden järjestyksestä, voidaan edellisten tehtävien otanta luonnollisesti toteuttaa arpomalla satunnaisesti n kpl tietueita N kpl joukosta. Testaa edellisessä/edellisissä tehtävissä toteuttamiasi algoritmeja ajamalla suurehko määrä testiajoja jollakin sopivalla testidatalla ja vertaamalla tulosteita mainitulla yksinkertaisella menetelmällä tuotettuihin tuloksiin. Kuinka mittaat sitä, ovatko tulokset samoja?