Seminaari: kielitieteelliset aineistot
Kuvaus
Seminaarissa tarkastellaan dokumenttien koodausta ja käsittelyä erityisesti silloin, kun kyse on kielentutkimuksen aineistosta. Tämän yleisen teeman puitteissa seminaariesitelmien aiheet voivat liittyä esimerkiksi kieliaineistojen XML-koodaukseen ja rakennesuunnitteluun, hakuihin ja tiedon louhintaan taikka tiedonhallintaan.
Työmuodot
Seminaari on työmuotona pohjimmiltaan alustukseen pohjautuvaa keskustelua. Tästä seuraa ensinnäkin, että kukin osallistuja laatii vuorollaan noin 10--15 sivun mittaisen kirjallisen esityksen valitsemastaan aiheesta, toimittaa sen muiden luettavaksi viikkoa ennen kokoontumista ja pitää itse kokoontumisen aluksi aiheesta lyhyehkön esityksen. Toiseksi työskentelyn peruslähtökohdasta seuraa, että muut osallistujat valmistautuvat kokoukseen lukemalla esityksen ja osallistuvat sen pohjalta käytävään keskusteluun.
Hyväksyttävään suoritukseen edellytetään läsnäoloa vähintään kolmeen neljäsosaan kokouskerroista, kirjallista ja suullista esitystä omasta aiheesta sekä aktiivista osallistumista muuhun keskusteluun. Kirjallinen ja suullinen esitys sekä keskusteluun osallistuminen määräävät kukin kolmanneksen arvosanasta.
Esitiedot
Seminaari on osa maisterintutkintoon tähtäävää opetusta, joten esitietoina oletetaan kandidaatintutkinto tietojenkäsittelytieteessä tai vastaavat opinnot. Tieteellisen kirjoittamisen kurssin oppisisältö on erityisen hyvä hallita.
Kirjallisuutta
-
Aineistojen kokoaminen
- Meyer -- Grabowski -- Han -- Mantzouranis -- Moses 2003, The World Wide Web as Linguistic Corpus. Language and Computers 46, s. 241--254.
- Chen -- Chau -- Yeh 2004, Discovering parallel text from the World Wide Web. Proceedings of the second workshop on Australasian information security, Data Mining and Web Intelligence, and Software Internationalisation.
- Evert -- Kilgarriff -- Sharoff (toim.) 2008, Can we beat Google? Proceedings of the 4th Web as Corpus Workshop (WAC-4).
- Biemann -- Bordag -- Heyer -- Quasthoff -- Wolff 2004: Language-Independent Methods for Compiling Monolingual Lexical Data. Computational Linguistics and Intelligent Text Processing: Proceedings of the 5th International CICLing Conference, s. 217--228
-
Rakenteen suunnittelu
- Ide -- Bonhomme -- Romary 2000: XCES: An XML-based Encoding Standard for Linguistic Corpora. Proceedings of the Second International Language Resources and Evaluation Conference, 2:825--830.
- Lounela 2002: Aiming Towards Best Practices in XML Techniques for Text Corpora Annotation: City of Helsinki Public Works Department - A Case Study. Towards the Semantic Web and Web Services. Proceedings of the XML Finland 2002 Conference, s. 123--135.
- Ide -- Romary 2004: A Registry of Standard Data Categories for Linguistic Annotation. Proceedings of the Fourth Language Resources and Evaluation Conference, s. 135--139.
- Ide -- Romary 2007: Towards International Standards for Language Resources. Dybkjaer -- Hemsen -- Minker (toim.), Evaluation of Text and Speech Systems, s. 263--284.
- TEI: Text Encoding Initiative
- Lehtinen 2008: Rakenteiset sanakirjat. Pro gradu -tutkielma, Helsingin yliopiston tietojenkäsittelytieteen laitos.
-
Aineistojen hallinta ja käyttö
- Lounela 2005: Exploring Morphologically Analysed Text Material. Inquiries into Words, Constraints and Contexts Festschrift for Kimmo Koskenniemi on his 60th Birthday, s. 259--267.
- Lindén -- Tuovila 2009, Corpus-based Lexeme Ranking for Morphological Guessers. Proceedings of the Workshop on Systems and Frameworks for Computational Morphology 2009.
- Lounela 2007: Tekstien kvantitatiivisia piirteitä: teksti ja tekstijoukko määrällisten muuttujien valossa. Kotimaisten kielten tutkimuskeskus.
- Lounela 2007: Anatomy of an XML-based Text Corpus Server. Proceedings of the 16th Nordic Conference of Computational Linguistics, Nodalida 2007.
- Rehm -- Eckart -- Chiarcos. 2007: An OWL- and XQuery-Based Mechanism for the Retrieval of Linguistic Patterns from XML-Corpora. Proceedings of the International Conference on Recent Advances in NLP (RANLP 2007), s. 510--514.
Kokoontumiset
- 13.9. Aloitustapaamisen kalvot
- 27.9. Alustavat aihepiiriesittelyt
- 11.10. Seminaariesitysten sisällys- ja lähdeluetteloiden esittely
- 1.11. Seminaariesitykset:
- Preston Palon: Kaksikielisten sanakirjojen generointi tietokoneella
- Juho Kilpikoski: Korpusten muodostaminen Web-aineistoista
- 8.11. Seminaariesitykset:
- Miina Kilpikivi: Verkkotekstien kielentunnistus
- Lilli Nevanlinna: Semanttinen web: ontologioiden esittäminen ja oppiminen
- 15.11. Seminaariesitykset:

