Suomi.fin luonnollisen kielen tekoälykokeilussa kone luki ja kirjoitti selvää suomea

Suomi.fi-palvelut - 26.09.2019

Väestörekisterikeskuksessa tehtiin kesällä kokeiluprojekti, jossa toimittajana oli Digital Workforce -ohjelmistorobotiikkayhtiö. Tavoitteena oli selvittää, voiko suomen kieltä käsittelevä semanttinen tekoäly auttaa yhdenmukaistamaan Suomi.fi-palvelutietovarannossa (PTV) olevia keskenään erilaisia ja eri tasoisia kuntien kuvauksia samoista kuntapalveluista.

Kokeilussa tähdättiin sekä luonnollisen kielen konekäsittelyn käytäntöjen ja soveltamismahdollisuuksien ymmärtämiseen että mallitekstien koneelliseen tuottamiseen. Sovelluksen lingvistinen perusta rakennettiin FinnishWordNet-aineistolla (suomen kielen ”ydin” ja sanastoavaruus)  ja TurkuNLP Dependency Parserilla (tekstin automaattinen purkaminen lauserakenteisiin ja käsiteyksiköihin). Täsmennettyä kielimallia koulutettiin Suomi.fi-verkkopalvelun aihesivujen sisällöllä ja YLE:n tekstikorpuksella.

Kokeilun kohteeksi otettiin kahden kunnille lakisääteisen palvelun palvelukuvaukset PTV:ssä. Kummankin palvelun eri kunnissa tuotetuista kuvausteksteistä kone pyrki semanttisen analyysin perusteella tuottamaan yhden neutraalin, ideaalitilanteessa kaikille kunnille mallitekstiksi sopivan version, jonka pohjalta kukin kunta voisi jatkossa laatia oman kuvauksensa ko. palvelusta. Tällöin kuvaukset olisivat muodoltaan ja semantiikaltaan yhdenmukaisia ja parantaisivat PTV:n käytettävyyttä kokonaisaineistona erityisesti tietojärjestelmissä.

Kokeilussa käytettyjen palvelujen PTV-kuvauksia esijäsennettiin ihmistyönä jonkin verran VRK:n Suomi.fi-toimituksessa, jotta koneen olisi helpompi analysoida sisältöä. Jokaiselle kokeilussa käytetylle palvelukuvaukselle annettiin myös laatupisteet, joiden avulla kone oppi, millainen on hyvä, huono ja keskinkertainen palvelukuvaus. Koneelle siis opetettiin, mihin sen tulisi pyrkiä ja mitä välttää. Suurin osa esikäsittelystä oli kertaluonteista: useimpia esivaiheita ei tarvitse toistaa, kun järjestelmä jatkossa käsittelee muita tämän kaltaisia aineistoja.

Kokeilun onnistumiskriteeriksi asetettiin se, että koneen kirjoittamat mallitekstit sisältävät olennaiset tiedot kohdepalvelusta ilman kunta- tai alueviittauksia, ihmisen sujuvasti luettavassa muodossa, sellaisenaan tai pienin muutoksia käyttöön otettavissa.

Intensiivisen projektin parin ensimmäisen viikon aikana täsmennettiin ja rajattiin kokeilun tavoitteet ja kohdeaineistot. Seuraavien viikkojen aikana toimittaja rakensi ja hioi soveltuvaa kielimallia; tähän liittyi myös koulutusdata-aineistojen tunnistaminen ja niihin käyttölupien saaminen. Samaan aikaan Suomi.fissä tehtiin testiaineiston esikäsittelyä. Viimeisten kahden viikon aikana tekoälyn tuottamia versioita arvioitiin ja koneen tuottamille malliteksteille määritettiin sopiva pituus, minkä jälkeen mallitekstien lausejärjestystä muutettiin vielä hieman ihmistyönä.

Kokeilun päättyessä saatoimme todeta, että kone oli onnistunut tuottamaan melko epäyhtenäisestä tekstiaineistosta käyttökelpoiset, neutraalit mallitekstit. Ehkä odotimme kokeilun tuloksina ennen muuta käytännön ymmärrystä ja tietoa siitä, mitä tekoälyn suorittama luonnollisen kielen käsittely todella tarkoittaa ja mihin se venyy, joten varsin käyttökelpoisten konkreettisten tuotosten saaminen oli jopa pienoinen yllätys.

Teknologia on aina vain väline. Jos kykenemme kokeilujen tuoman näkemyksen myötä luomaan uusia toimintatapoja tekstimuotoisen sisällön tuotantoon ja käsittelyyn, on meidän pian pohdittava sen soveltamista jatkossa. Missä palveluissa, prosesseissa ja käyttötapauksissa lingvistisen tekoälysovelluksen itsenäisesti tekemä luonnollisen kielen semanttinen analyysi, käsittely ja jopa kirjoittaminen tuottaisi suurimmat hyödyt? Tehokkuus voi kasvaa, yhteentoimivuus laajentua ja päällekkäinen työ vähentyä, mutta takki auki tälle tielle ei saa lähteä. Seuraavana vaiheena täytyy olla kertyneen tiedon tarkka analysointi ja hyödyllisten käyttötapausten tunnistaminen. Vasta sen jälkeen kannattaa ottaa seuraava askel.

Kirjoittaja: Marko Latvanen, erityisasiantuntija, Väestörekisterikeskus