581257-8 TIEDONHAKUMENETELMÄT
Kurssin lopputulokset (välikoe) - intranet
Harjoitustyön pisteet
Arvosteluperusteet
Huom. Harjoitus- ja harjoitustyöpisteet ovat voimassa myös
uusintakokeissa.
Uusintakoe 12.6.2001
Tulokset
Ratkaisut
Uusintakoe 2.10.2001
Tulokset
Uusintakoe 1.2.2002
Tulokset
Uusintakoe 22.3.2002
Tulokset
Kurssin asema ja tavoite
Kurssi on tietojenkäsittelytieteen laudaturin valinnainen erikoiskurssi,
joka sopii ainakin informaatiojärjestelmien erikoistumislinjan
valinnaiseksi kurssiksi myös uusissa (1999-) tutkintovaatimuksissa.
Kurssin tavoitteena on perehdyttää tiedonhaun (information retrieval, IR)
perinteisiin menetelmiin sekä näiden menetelmien soveltamiseen
Internet-ympäristössä. Näkökulma on laaja-alainen: kyselyihin ja
selaukseen perustuva tiedonhaku; 'automaattinen' haku eli informaation
suodatus; menetelmien tekniset ominaisuudet ja käytettävyys;
erityyppisen informaation käsittely.
Ajankohtaista
Huom. Vanhat ilmoitukset on siirretty sivun loppuun kohtaan 'Historia'.
Luentokalvot
Yleistä (sisältö, materiaali)
1.Johdanto
2. Tiedonhaun perusmallit
2. Tiedonhaun perusmallit (jatkoa; 31.1.)
3. Dokumenttien ryhmittely (7.2.
- lisämateriaalia kansiossa)
4. Dokumenttien indeksointi (14.2.)
4. Dokumenttien indeksointi (jatkoa:
indeksien toteuttaminen (21.2.)
5. Merkkijonohakuun perustuvat menetelmät (28.2.)
6. Hyperteksti ja tiedonhaku, ss. 1-23 (7.3.)
6. Hyperteksti ja tiedonhaku, ss. 25-42 (14.3.)
7. Informaation suodatus (21.3.)
8. Digitaaliset kirjastot (28.3.)
9. Visuaalinen tiedonhaku (4.4.)
9. Visuaalinen tiedonhaku (11.4. - lisätty s. 13-22)
10. WWW-tiedonhaku (25.4.)
Kertausta (Anna Pienimäki)
Harjoitustehtävät
Harjoitus 1 (31.1.)
Exercise 1
Ratkaisuja
Harjoitus 2 (7.2.)
Exercise 2
Ratkaisuja
Harjoitus 3 (14.2.)
Exercise 3
Ratkaisuja
Harjoitus 4 (28.2.)
Exercise 4
Ratkaisuja
Harjoitus 5 (7.3.)
Exercise 5
Ratkaisuja
KMP-simulaatio
Harjoitus 6 (14.3.)
Exercise 6
Ratkaisuja
Harjoitus 7 (28.3.)
Exercise 7
Ratkaisuja
Harjoitus 8 (4.4.)
Exercise 8
Ratkaisuja
Harjoitus 9 (11.4.)
Exercise 9
Harjoitus 10 (25.4.)
Exercise 10
Ratkaisuja
Kurssin sisältökohtia
- Johdanto (tiedonhaun eri näkökulmista)
- Dokumentin perusmallit
- Kyselyt: Boolen malli, vektorimalli, muut
- Dokumenttien indeksointi
- Dokumenttien ryhmittely
- Menetelmiä: merkkijonohaku, nimikirjoitustiedostot
- Informaation suodatus (filtering)
- Hyperteksti ja tiedonhaku
- Digitaaliset kirjastot
- Dokumentin metatiedot
- Multimedia ja tiedonhaku
- Hakukoneet
Kurssimateriaali
Kurssi ei perustu mihinkään yhtenäiseen oppikirjaan. Seuraavat teokset
sisältävät kurssin aihepiirin keskeistä aineistoa:
- Baeza-Yates, R. & Ribeiro-Neto, B., Modern information retrieval.
Addison-Wesley, 1999.
- Salton, G., Automatic text processing. Addison-Wesley, 1989 (part 3
eli sivut 227-373 pääpiirteissään sisältävät tärkeimmät perinteiset
IR-menetelmät)
- Korfhage, R., Information storage and retrieval. Wiley, 1997.
- Sparck Jones, K. & Willett, P., Readings in information retrieval.
Morgan Kaufmann, 1997. (klassisten IR-artikkelien kokoelma)
- Järvelin, K., Tekstitiedonhaku tietokannoista. Suomen ATK-Kustannus
Oy, 1995. (yleistä taustaa)
Erityisesti kurssin loppupuolella käytetään enimmäkseen
alkuperäisartikkeleita ja WWW-materiaalia.
Luentomateriaali ja harjoitustehtävät pyritään julkaisemaan tällä
kurssisivulla kurssin etenemisen myötä.
Harjoitukset
Tavanomaisia harjoituksia tehtävineen pidetään noin 10 viikolla.
Viikottaista harjoitusaikaa käytetään myös harjoitustyön opastamiseen
sekä kurssin
lopussa töiden esittelyyn. Siksi koko lukukauden harjoitus- ja
luentoajat (keskiviikkoaamupäivät) on syytä varata tähän käyttöön.
Harjoitustyö
Harjoitustyöt käynnistetään ke 24.1. harjoituksissa klo 8-10. Alustavat
ohjeet ovat alla:
Harjoitustyöohje
Harjoitustyöaiheet
Kurssin suoritus
Suoritus perustuu yhteen kokeeseen (alustavasti noin 60 %),
harjoituksissa osoitettuun aktiivisuuteen (noin 10 %) ja
harjoitustyöhön (noin 30 %). Kurssin varsinainen koe ("välikoe") on
pe 18.5.klo 10-14 Auditoriossa, ja uusintakokeita aikanaan.
Uusintakokeeseen voivat
osallistua vain kurssilla mukana olleet ja harjoitustyön tehneet.
Historiaa (vanhoja ajankohtaisia ...)
17.1.: Keskiviikkona 24.1. käytetään harjoitusaika (8-10) harjoitustyön
käynnistämiseen. (Ei 22.1., kuten kalvojen sivulla 5 mainitaan.)
17.1.: Kurssikansiossa on osallistujien tiedonhakua koskevia
taustatietoja lyhyesti luotaava lomake (niille, jotka eivät olleet
ensimmäisellä luennolla). Palautus keskiviikkona 24.1.
24.1.: Harjoituksen 1 tehtävässä 4 viitataan käänteistiedoston
laajennuksiin. Luentokalvoissa nämä on esitetty Boolen mallin
laajennuksina (ss. 14-15, kohdat 3 ja 4).
7.2.:
Harjoitustehtävien 3 yhteydessä mainitut
Scatter/Gather-artikkelit tulostuvat WWW:stä noudettuina kovin hitaasti.
Toimitan kurssikansioon paperiversiot kopioitaviksi.
14.2.:
Ensi viikon harjoituksissa (21.2.)
käydään läpi harjoitustöiden tilanne
(väliraportit - vrt. työohje; ei muita tehtäviä).
7.3.:
Luvun 6 luentokalvoissa on hieman layout-sotkua sivuilla 11 ja 14 sekä virhe
sivulla 13: sisäisten painojen mukainen järjestys on B;G;E;C,D,F;A ja
kokonaispainojen mukainen järjestys A;B;G;D;E;C,F. Pyrin korjaamaan
nämä vielä myöhemmin.
7.3.: Kohdan 6.2 lähteenä mainitun Kleinbergin artikkelin lopullisen
version viite: Journal of the ACM 46,5(1999), 604-632.
(löytyy ACM:n digitaalisesta kirjastosta).
14.3.: Viikolla 12 (21.3.) ei ole harjoitusta.
Edistäkää harjoitustyötänne ...
28.3.:
Pääsiäisen aikaan ke 11.4. on normaalisti luennot ja harjoitukset, ke
18.4. ei kumpaakaan.
9.4.:
Muistutus harjoitustyöstä! Harjoitustyöt esitellään 2.5. tai 9.5. (klo
8-12). Jokaisen työryhmän tulisi sopia aikataulusta sähköpostitse Annan kanssa
mahdollisimman pian. Harjoitustöiden esittelystä voi kysyä mm.
harjoitustilaisuudessa 11.4. tai 25.4.
8.5.:
Luentomateriaalin perään on linkitetty Annan kirjoittama teksti kurssin
pääkohtien kertauksesta. Samoin muutamien viimeisten harjoitusten
ratkaisuja koskevat sivut ovat nyt paikallaan.
11.5.:
Olen unohtanut merkitä viimeiseen harjoitustehtäväpaperiin - ja myös
aikanaan kurssisivulle - kurssin kokeen vaatimukset. Joka tapauksessa
määritys on normaali: luennoilla ja harjoituksissa käsitellyt asiat.
17.5.:
Kurssin kokeen paikka on puuttunut tähän asti tältä kurssisivulta (mutta
ollut näkyvissä laitoksen yleisellä koeaikataulusivulla). Koe on
Auditoriossa ja aika on siis perjantai 18.5. klo 10-14.
Hannu.Erkio@cs.Helsinki.FI