Englanti-suomi -sanasto Laajojen dokumenttiaineistojen käsittely -kurssille text categorization tekstin luokittelu text summarization lyhennelmien tuottaminen information extraction tiedon eristäminen question answering kysymyksiin vastaaminen question answering system kysymysvastausjärjestelmä text compression tekstin tiivistäminen text indexing tekstin indeksointi text/information/document retrieval tiedonhaku machine translation konekääntäminen category luokka, kategoria text representation tekstin esitystapa/esitysmuoto term termi stop word hukkasana stemming typistäminen, juureen palautus term frequency termifrekvenssi inversed document frequency käänteinen dokumenttifrekvenssi classifier luokittelija topic aihe, aihepiiri knowledge engineering tietämystekniikka machine learning koneoppiminen single-label tc yksiluokkainen tekstin luokittelu multi-label tc moniluokkainen tekstin luokittelu learner oppiva ohjelma corpus dokumenttikokoelma, aineisto training set opetusjoukko test set testijoukko k-fold cross-validation k-kertainen ristiinvalidointi effectiveness päättelykyky, luokittelukyky efficiency suorituskyky tila- ja aikavaativuuden kannalta precision tarkkuus recall saanti microaveraging mikrokeskiarvoistaminen, mikroevaluointi? macroaveraging makrokeskiarvoistaminen, makroevaluointi? breakeven point talouskielessä kannattavuusraja (kustannukset ja tuotot samansuuruiset) term selection termien valinta feature selection piirteenvalinta overfitting ylisovittuminen information gain informaatiohyöty controlled dictionary kontrolloitu sanasto text filtering tekstin suodattaminen word sense disambiguation sananmerkitysten yksikäsitteistäminen part-of-speech tagging sanaluokan merkitseminen classifier committee luokittelijakomitea boosting oppimisen kiihdyttäminen extract poiminta, lauseita poimimalla tuotettu lyhennelmä abstract abstrakti, tiivistelmä compression rate tiivistyssuhde connected text yhtenäinen teksti fragmentary text erillisistä katkelmista koostuva teksti generic summary geneerinen lyhennelmä user-focused summary käyttäjäkeskeinen lyhennelmä domain-specific summary aihepiirilähtöinen lyhennelmä query-driven summary kyselylähtöinen lyhennelmä text-driven summary tekstilähtöinen lyhennelmä indicative summary indikatiivinen lyhennelmä informative summary informatiivinen lyhennelmä critical summary kriittinen lyhennelmä surface-level processing pintapiirteitä käyttävä lyhennelmien tuottaminen discourse-level processing diskurssipiirteitä käyttävä lyhennelmien tuottaminen salient; saliency keskeinen; keskeisyys cutoff katkaisuraja cue phrase vihjefraasi naive Bayesian classification naiivi bayesiläinen luokittelu Bayes' rule Bayesin sääntö/kaava syntactic analysis syntaktinen analyysi parsing jäsentäminen coreference samaviitteisyys part of speech sanaluokka number luku (yksikkö/monikko) gender suku grammatical function lauseenjäsen noun substantiivi nominal nomini modifier määre anaphora resolution samaviitteisyyden ratkaiseminen referent viittauksen kohde pattern hahmo domain aihepiiri scenario (tiedon eristämisessä) eristystehtävä template vastaustietue template slot vastaustietueen kenttä template slot value vastaustietueen kenttässä oleva arvo name recognition, nimien tunnistaminen named entity recognition, name finding orthographic feature kirjoitusasusta ilmenevä asia right modifier sanaa tms. seuraava osa, joka tarkentaa sanaa semantic type hierarchy käsitehierarkia triggering word herätesana targeted string kohdesana sentence virke clause lause (virkeen yksinkertaisempi osa) heuristic rule heuristinen sääntö extraction pattern eristyshahmo enabling conditions mahdollistavat ehdot untagged text merkkaamaton teksti/aineisto annotation merkkaus relevance rate relevanssiaste/-arvo instance of pattern hahmon instanssi, hahmon osuma tekstissä seed word siemensana wrapper kääre supervised methods ohjatut (oppivat) menetelmät semisupervised methods osittain ohjatut menetelmät unsupervised methods ohjaamattomat menetelmät hyponym hyponyymi, alakäsite