Helsingin yliopisto Tietojenkäsittelytieteen laitos
 

Tietojenkäsittelytieteen laitos

Tietoa laitoksesta:

 

58309101 Seminaari: Tiedon louhinta verkoista (3 op), kevät 09

Tämä sivu: http://www.cs.helsinki.fi/hannu.toivonen/teaching/seminaariK09/

Seminaari kokoontuu kevätlukukaudella 2009 tiistaisin (ja maanantaisin) klo 10-12 salissa C220.

Huom: seminaarin 1. kokoontuminen on ti 13.1. Kaikille osallistujille läsnäolo pakollinen.

Seminaarin aihepiiri

Tiedon louhinnassa (data mining, knowledge discovery) tutkitaan ja kehitetään algoritmeja suurten tietoaineistojen analysointiin. Tässä seminaarissa käsitellään erityisesti verkkomuotoisen datan louhintaan kehitettyjä menetelmiä tutkimuskirjallisuuteen perustuen. Verkko (graph, network) on yleismuotoinen ja joustava tiedon esitystapa ja louhintamenetelmien kannalta hyvin erilainen kuin esimerkiksi taulukkomuoto. Analysoinnin kohteita voivat olla esim. ihmisten muodostamat sosiaaliset verkostot, hypertekstidokumenttien verkko kuten www tai biologiset verkot (esim. proteiinien interaktiot).

Ohjelma

Aiheet ovat alustavia.

13.1. Hannu Toivonen: Seminaarin järjestäytyminen
(20.1. ei seminaaria)
(27.1. ei seminaaria)
(3.2. ei seminaaria)
(10.2. ei seminaaria)
17.2. Teemu N.: Samanlaisuuden ja sosiaalisen vaikuttamisen mallintaminen ja ennustaminen verkkoyhteisöissä
(raportti 3.2.; Tuomas ja Samuli)
24.2. Pekka M.: Keskusaliverkkojen etsiminen kyselysolmujen välillä laajoista verkoista
(raportti 3.2.; Laura ja Teemu H.)
(3.3. väliviikko, ei seminaaria)
Huom: kurssi "Graph Mining" (3 cr), 2.-6.3. ma-pe 9-15 B222
(10.3. ei seminaaria)
17.3. Tuomas T.: Verkon solmujen tehokas luokittelu
(raportti 24.2.; Ari, Jurkka)
24.3. Janne K.: Reitinhaku pienissä maailmoissa
(raportti 3.3.; Laura, Hannu)
(MA 30.3.
10-12 C220
Olli B.: Ohjelmistovirheet PERUTTU)
(raportti 10.3.: Ari ja Janne)
31.3. Ari R.: (k, 2)-jakoisiin verkkoihin perustuva klusterointimenetelmä ohjelmistojen takaisinmallinnuksessa
(raportti 10.3.; Pekka, Teemu H., Olli)
MA 6.4.
10-12 C220
Jurkka N.: Tiedon etsintä verkkotietokannoista alirakenteiden avulla
(raportti 17.3.; Janne, Hannu)
7.4. Laura L.: K-medoids in a heterogeneous biological network
(raportti 17.3.; Teemu N., Ari, Olli)
(14.4. pääsiäisloma, ei seminaaria)
21.4. Teemu H.: Verkkodatan koostaminen SNAP- ja k-SNAP-menetelmillä
(raportti 31.3.; Tuomas, Samuli, Janne)
28.4. Hannu M.: Klusterointi ja pienimmän leikkauksen virittävät puut
(raportti 7.4.; Teemu N., Pekka)
KE 29.4.
10-12 C220
Samuli S.: Tiedon louhintaa viraalimarkkinoinnin tarpeisiin
(raportti 3.3.; Teemu H., Jurkka)

Esitiedot

Osallistujilta edellytetään tieteellisen kirjoittamisen kurssin suorittamista. Tiedon louhinnan menetelmät -kurssin suorittaminen on merkittävästi eduksi. Muita hyödyllisiä kursseja ovat mm. tiedon louhinnan erikoiskurssi, koneoppiminen, data-analyysi, kolme käsitettä -kurssit sekä algoritmien suunnittelu ja analyysi.

Seminaariin valitaan maks. 12 osallistujaa opintojen edistymisen ja suoritettujen kurssien sopivuuden perusteella.

Seminaarin suorittaminen

Seminaari suoritetaan osallistumalla aktiivisesti seminaarin työskentelyyn: työskentelymuotoja ovat tieteelliseen lähdemateriaaliin perehtyminen, raportin kirjoittaminen ja esitelmän pitäminen, toisten osallistujien raporttien lukeminen ja arviointi sekä esitelmien aktiivinen seuraaminen.

Arvostelu perustuu omaan kirjalliseen työskentelyyn (1/3), omaan suulliseen esitykseen (1/3), sekä toisten raporttien kommentointiin ja muuhun aktiivisuuteen (1/3).

Tarkemmista toimintamuodoista sovitaan ensimmäisessä tapaamisessa. Alla alustava ehdotus.

Seminaarin kahteen ensimmäiseen esitelmään (Olli, Teemu N.) aikataulua sovelletaan joustavasti.

Seminaarikokoontumisen kulku:

Ohjeita

Kannattaa muistaa, että kirjallisella raportilla ja suullisella esitelmällä on osin erilaiset tarkoitukset.

Esitelmässä kuulijoille välitetään sisällön keskeiset ajatukset, tarvittaessa sopivasti asioita yksinkertaistaen. Hyvä esitelmä sisältää -- tietysti aiheesta riippuen -- runsaasti esimerkkejä, jotka havainnollistavat aihetta, ja vain sellaisia valikoituja teknisiä yksityiskohtia, jotka ovat tärkeitä ja joita ehditään käsitellä riittävästi esitelmän aikana. Suullisen esitelmän pituus on n. 45 minuuttia.

Raportissa korostuu esitelmää enemmän täsmällisyys ja tieteellinen ilmaisu. Raporttikin on usein tiivistelmä käytetystä lähdemateriaalista, joten valintaa ja karsintaa täytyy tehdä. Valitut asiat tulee sitten kuvata raportissa riittävällä tarkkuudella; karsittujen asioiden kohdalla voi tarvittaessa viitata lyhyemmin lähdemateriaaliin. Raportin sopiva pituus on 10-15 sivua (valmisteluohjeita esim. tieteellisen kirjoittamisen kurssin sivuilla). Lisää ohjeita myös laitoksen seminaariohjeissa.

Lähdekirjallisuutta

Alla seminaariin sopivaa lähdekirjallisuutta. Taustatietovaatimukset vaihtelevat runsaasti. Osa artikkeleista on luettavissa sähköisessä muodossa vain yliopiston verkossa olevilta koneilta (sekä sopivilla selaimen proxy-asetuksilla tai VPN-yhdyskäytävän yli). Muutakin kirjallisuutta saa käyttää. Käytettävästä kirjallisuudesta on joka tapauksessa sovittava hyvissä ajoin seminaarin pitäjän kanssa.

Opiskelijapalaute

Seminaarin viimeisellä kerralla kerättiin anonyymisti palautetta seminaarista ja sen toiminnasta. Palaute kokonaisuudessaan on täällä.

Yhteenveto
Yleisesti palaute oli hyvin positiivista. Eniten opiskelijat kokivat oppineensa seminaarin aihealueen sisältöä sekä kirjoittamista, vähemmän esiintymistä. Seminaarin sisälsi useita minimistä poikkeavia työtäpoja: lyhyen seminaarisuunnitelman palauttaminen seminaarin alussa, raporttien ristiinarviointi, harjoitustehtävät, keskustelu, kirjallinen vertaispalaute esitelmästä sekä itsearviointi. Näitä työtapoja pidettiin johdonmukaisesti hyödyllisinä, erityisesti ristiinarviointia ja keskustelua. Toisaalta harjoitustehtävistä annettiin ristiriitaista palautetta. Toimivaksi seminaarissa koettiin myös mm. joustava aikataulu.

Palautteen saaminen raportista ja esitelmästä oli selvästi yksi toimintatapojen vahvuus. Toisaalta palautekäytäntöihin esitettiin myös parannusehdotuksia: raporttipalautteesta voisi keskustella ja palautekierroksia voisi olla useampia, ja yhteinen palautekeskustelu esitelmästä voisi olla opettavampaa. Harjoitustehtäviin toivottiin enemmän teknistä sisältöä ja parempaa ohjeistusta niiden laatimiseen. Ehdotettiin tiiviimpää aikataulua. Seminaarin sivu voisi olla selvempi.

Yhteenveto edellisen seminaarin palautteesta

Kevään 2008 tiedon louhinnan seminaarin viimeisen kokoontumiskerran lopulla kerättiin (anonyymisti) kirjallista palautetta siitä, miten seminaarin ensimmäisessä kokoontumisessa asetetut tavoitteet saavutettiin, ja mistä työskentelymuodoista oli hyötyä. Lisäksi palautetta toimitettiin sähköpostitse. Tässä yhteenveto palautteesta.

Muita palautteissa olleita kommentteja ja ideoita:

Seminaarin vetäjä

Prof. Hannu Toivonen, Helsingin yliopisto