Maskin läste och skrev tydlig finska i Suomi.fi-försök med artificiell intelligens och naturligt språk

Suomi.fi tjänster - 26.09.2019

Befolkningsregistercentralen genomförde under sommaren ett försöksprojekt där leverantören var Digital Workforce, ett företag inom robotstyrd processautomation. Målet var att utreda om en semantisk artificiell intelligens som behandlar finska språket kan bidra till att förenhetliga kommunernas sinsemellan olika beskrivningar eller beskrivningar på olika nivåer av samma kommunala tjänster i Suomi.fi-servicedatalagret (SDL).

Syftet med försöket var såväl att förstå förfarandena och tillämpningsmöjligheterna för maskinbehandling av naturligt språk som att producera modelltexter maskinellt. Applikationens lingvistiska grund byggdes upp utifrån FinnishWordNet-materialet (finska språkets ”kärna” och vokabulärrymd) och TurkuNLP Dependency Parser (automatisk indelning av text i satsdelar och begreppsenheter). Den preciserade språkmodellen utbildades med innehåll från Suomi.fi-webbtjänstens ämnessidor och YLEs textkorpus.

Som objekt för försöket valdes servicebeskrivningar i SDL om två lagstadgade tjänster för kommuner. På basis av servicebeskrivningarna som utarbetats av de olika kommunerna försökte maskinen genom en semantisk analys producera en neutral version som i en idealisk situation skulle vara lämplig som modelltext för alla kommuner. Med stöd av modelltexten skulle varje kommun i fortsättningen kunna utarbeta sin egen beskrivning av den aktuella tjänsten. Då skulle beskrivningarna ha en enhetlig form och semantisk uppbyggnad, och SDL:s användbarhet som helhetsmaterial skulle förbättras i synnerhet i datasystem.

De servicebeskrivningar i SDL som användes i försöket strukturerades i viss grad manuellt i förväg vid BRC:s Suomi.fi-redaktion för att göra det lättare för maskinen att analysera innehållet. Varje servicebeskrivning som användes i försöket gavs också kvalitetspoäng, som maskinen använde för att lära sig hur en bra, dålig och medelmåttig servicebeskrivning ser ut. Maskinen fick alltså lära sig vad den ska sträva efter och vad den ska undvika. Största delen av förbehandlingen var av engångskaraktär: de flesta förhandsfaserna behöver inte upprepas när systemet i fortsättningen behandlar annat material av samma typ.

Som kriterier för ett lyckat försök fastställdes det att modelltexterna som maskinen skriver ska innehålla de väsentliga uppgifterna om måltjänsten utan kommun- eller områdeshänvisningar, vara i ett format som är lätt för människan att läsa samt kunna användas som sådana eller med små ändringar.

Under de två första veckorna av det intensiva projektet preciserades och avgränsades målsättningarna och det eftersträvade materialet för försöket. Under veckorna därefter byggde och finslipade leverantören en lämplig språkmodell; i detta ingick även identifiering av utbildningsdatamaterial och erhållande av användningstillstånd för dessa material. Samtidigt förbehandlades testmaterialet i Suomi.fi. Under de sista två veckorna utvärderades versionerna som den artificiella intelligensen producerade och en lämplig längd fastställdes för de modelltexter maskinen producerade. Därefter ändrades modelltexternas satsordning ännu en aning manuellt.

När försöket hade slutförts kunde vi konstatera att maskinen hade lyckats producera användbara och neutrala modelltexter av ett rätt så oenhetligt textmaterial. Som resultat av försöket väntade vi oss kanske framför allt praktisk förståelse och kunskap om vad behandling av naturligt språk med hjälp av artificiell intelligens verkligen innebär och vad den kan användas till. Därför var det till och med en liten överraskning att vi fick synnerligen användbara och konkreta produkter.

Teknologin är alltid bara ett verktyg. Om vi tack vare den insikt som försöken ger oss kan skapa nya verksamhetssätt för att producera och behandla innehåll i textform, bör vi snart överväga att tillämpa dem i praktiken. I vilka tjänster, processer och användningssituationer skulle det vara till störst nytta att använda semantisk analys, behandling och till och med skrivning av naturligt språk som producerats självständigt av en lingvistisk applikation baserad på artificiell intelligens? Effektiviteten kan öka, kompatibiliteten utvidgas och det överlappande arbetet minska, men man ska inte kasta sig huvudstupa in på denna väg. Nästa fas måste vara noggrann analysering av insamlad information och identifiering av gynnsamma användningssituationer. Först därefter lönar det sig att ta nästa steg.

-Marko Latvanen, specialsakkunnig, Befolkningsregistercentralen