Mian Du väittelee 29.11.2017 aiheesta Luonnollisen kielen käsittelymenetelmiä liiketoimintatiedon hallintaan

M.Sc. Mian Du väittelee keskiviikkona 29.11.2017 klo 12 Helsingin yliopiston Exactum-rakennuksen auditoriossa A111 (Gustaf Hällströmin katu 2b) aiheesta Natural Language Processing Systems for Business Intelligence. Vastaväittäjänä toimii vanhempi lehtori Mark Stevenson (Sheffieldin yliopisto, Iso-Britannia) ja kustoksena professori Sasu Tarkoma (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi.

Luonnollisen kielen käsittelymenetelmiä liiketoimintatiedon hallintaan

Nykyinen tiedon määrän räjähdysmäinen kasvu vaikuttaa liiketoimintaan, erityisesti yritysstrategioihin ja liiketoimintaan liittyvään päätöksentekoon. Erilaisten liiketoimintatiedon hallintatyökalujen tavoitteena on auttaa niiden käyttäjiä ymmärtämään markkinoiden kehitystä, mikä on ratkaisevan tärkeää yritysten päivittäisten toimintojen kannalta. Tyypillinen liiketoimintatiedon hallintatehtävä on esimerkiksi tarkkojen ja olennaisten tietojen hankkiminen kilpailijan toiminnasta samalla toimialalla.

Tässä väitöskirjassa esitellään järjestelmä, jossa luonnollisen kielen käsittelymenetelmillä pyritään ratkaisemaan informaation ylikuormituksesta aiheutuvia ongelmia liiketoiminnassa. Järjestelmässä tähän käytetään dokumenttien suodatusta, tiedon eristämistä sekä erilaisia ohjattuja ja puoliohjattuja koneoppimismenetelmiä. Järjestelmän syötteitä ovat online-uutispalveluista ja yrityksen lehdistötiedotesivuilta löytyvät erilaiset uutisartikkelit.

Väitöskirjassa osoitetaan ensin, että yhdistämällä luonnollisen kielen käsittelytekniikoita (ns. NLP-tekniikoita) ja sekvenssitiedonlouhintaa voidaan rakenteeltaan luonnollisesta tekstistä, toisin sanoen uutisartikkeleista, löytää erilaisia hahmoja, jotka liittyvät tietyn aihepiirin uutisiin. Tutkimuksen tulokset osoittavat, että näillä menetelmillä voidaan suodattaa pois tarkasteltavan liiketoimintaskenaarion kannalta merkityksettömät uutisartikkelit. Sitten tähän tiettyyn skenaarioon liittyvät yhteenvedot voidaan rakentaa poimimalla tärkeitä lauseita asiaankuuluvista merkityksellisistä artikkeleista. Artikkelien suodatuksessa tämän menetelmän tarkkuus, eli merkityksellisten artikkelien osuus kaikista löydetyistä artikkeleista, on korkea samalla, kun merkityksellisten artikkelien saanti eli se osuus, joka aihepiirin merkityksellisistä artikkeleista löydetään, pysyy myös melko korkeana.

Työssä esitellään tämän jälkeen liiketoimintaan liittyvien uutisartikkelien luokittelua eri teollisuuden sektoreille ohjatun oppimisen avulla. Tärkein tähän liittyvä havainto on se, että käytettäessä työssä kehitettyä enemmistöäänestykseen perustuvaa luokittelijaa yhdessä jonkin tasapainotetun tilastollisen luokittelijan kanssa on luokittelutulos parempi kuin käytettäessä kumpaakaan luokittelijaa yksinään. Tämä menetelmä myös tuottaa paremman luokittelutuloksen kuin aiemmin raportoidut menetelmät samalla, kun luokitteluun käytetään saman verran opetusaineistoa kuin, mitä sääntöpohjainen luokittelija tarvitsee, ja huomattavasti vähemmän aineistoa kuin, mitä tilastolliset luokittelijat vaativat.

Lisäksi väitöskirjatyössä tutkitaan yritysuutisten, sosiaalisen median näkyvyyden ja osakekurssien välistä vuorovaikutusta. Verkkouutisista syvällisen kielellisen analyysin avulla saatuja tietoja käytetään kyselyjen rakentamiseen erilaisille sosiaalisen median alustoille. Työssä esitetyt tärkeimmät tulokset osoittavat mielenkiintoisia korrelaatioita yrityksen mainitsevien uutisten ja sen Wikipedia-sivulle tehtyjen vierailujen välillä.

Näiden tutkimusteemojen pohjalta väitöskirjassa esitetään myös kokonaisvaltaisen päätöksentekojärjestelmän rakenne ja arkkitehtuuri. Tämä järjestelmä on esimerkki edellä mainittujen tutkimustulosten käyttämisestä tiedon eristämiseen, analysointiin ja järjestämiseen tekstimuotoisista uutisista.

Väitöskirjan saatavuus

Väitöskirjan elektroninen versio on saatavilla Helsingin yliopiston e-thesis-palvelussa osoitteessa http://urn.fi/URN:ISBN:978-951-51-3901-6.

Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: mian.du@cs.helsinki.fi.

 

29.11.2017 - 16:52 Pirjo Moen
23.11.2017 - 15:53 Pirjo Moen