Taggerit

Kielitieteilijöiden työkalupakkiin on jo kauan kuulunut erilaisia luonnollisen kielen ilmaisuja tyypittäviä taggereita, joilla joku sanan tai tekstin osa tai ominaisuus merkitään ja otsikoidaan. Alla olevassa kuvassa näkyy esimerkki suomen kieltä tägäävästä yksinkertaisesta taggerista. Kuten noissa kahdessa esimerkissä näkyy, yleiskielestä jää tuolta täggeriltä tunnistamatta ”ratikka”. Samoin valtionhallinnon ja henkilöstöhallinnon ammattilaiskielissä jää huomaamatta termi työturvallisuus ja alan hallinto-organisaatioiden yläkäsite työsuojeluviranomaiset.

Ylläolevassa testissä on käytetty alunperin TurkuNLP projektissa kehitettyä taggeria. Tekijät ja projekti: Jouni Luoma, Miika Oinonen, Maria Pyykönen, Veronika Laippala, Sampo Pyysalo. 2020.

A Broad-coverage Corpus for Finnish Named Entity Recognition. In Proceedings of The 12th Language Resources and Evaluation Conference (PDF) (LREC’2020).

Ihmisen kyvykkyys saavutettu

Vuodet 2017-2020 ovat olleet sarja koneoppivien NER menetelmien läpimurtoja. Erityisesti laajasti käytetyissä yleiskielissä nimettyjen entiteettien tunnistaminen ja tulkinta on nyt saavuttanut ihmistason tarkkuuden. (kts. kuvat 1 ja 2 alla olevassa kuvasarjassa, lähde). Sen sijaan suomen kielen kaltaisissa vähemmän puhutuissa kielissä NER työkalujen tarkkuudessa on vielä kehitettävää.

Kuvasarjan kuvassa 3 näkyy erilaisten lääkehoitojen ja tautien nimiä käsittävien bioNER tunnistuskyvykkyyksiä eri datalähteillä ja eri menetelmiä käyttävillä taggereilla. Noissa tarkasti dokumentoiduissa aineistoissa kone oppii hyvin tunnistamaan lääkkeiden ja sairauksien nimet. Sen sijaan suomen kielisissä aineistoissa tunnituskyvykkyys eri aineistotyypeillä hajoaa. Esimerkiksi YLE uutisissa se on tarkempaa kuin webistä kerätyssä suomen kielisessä yleiskeskusteluaineistossa.

Keskeinen havainto on, että suomalaiseen ympäristöön varta vasten kehitetyt entiteetti-taggerit voittavat tarkkuudessa globaalien some-jättien State-Of-The-Art taggerit. Toisaalta ne eivät silti yllä vielä aivan parhaiden suurten kielialueiden entiteettejä tunnistavien taggereiden tasolle.

Superhuman NER?

Alla olevassa kuvasarjassa Kuva 1 kuvaa vuoden 2017 tienoilla alkanutta kehitystä. Hyvin nopea innovaatioiden sarja tuottaa nyt ihmistasolle yltävän entiteettien nimien tunnistamisen kyvykkyyden.

Kuva 2 osoittaa, että vaikka tuo kyvykkyys vaihtelee eri tyyppisten entiteettien tunnistamisessa, se kuitenkin ulottuu kaikenlaisiin entiteetteihin, joihin on mahdollista viitata tekstuaalisin keinoin. On huomattava, että noiden entiteettien ei tarvitse olla meidän ihmisten substantiivi-viittauksin nimeämiä olioita, vaan ne voivat olla laskukaavoja, suhteita ja niiden matemaattisia ominaisuuksia, tekstityylejä, muotityylejä, jne. Ne voivat olla rakenteita joihin ihmiskielissä ei ole ilmaisua.

Kuva 3 kuvaa biomedical toimialan ammattikielten entiteettien tunnistuskyvykkyyden. Tässä tuo kuva kommunikoi kaikkien toimialojen tarvetta aloittaa oman toimialansa ja oman busineksensä kannalta relevanttien kielten ja sanaston NER työ. Autamme siinä mielellämme.

Kuva 4 (jossa on oikeastaan kaksi kuvaa) kuvaa kuinka suomen kielen nimistöön erityisesti sovitettu taggeri tunnistaa vasemmanpuoleisessa graafissa n. 90% tarkkuudella YLE:n sisällöissä esiintyviä entiteettejä ja noin 80% tarkkuudella yleiskielisen keskustelun sisällöissä esiintyviä entiteettejä. Tutkimustulos on dokumentoitu Turun yliopiston NLP tutkijoiden julkaisussa (lähde!).

Fibelius toimialaspesifit taggerit

Fibelius kehittää eri toimialoille niillä käytettyjen kielten kannalta relevantteja taggereita ja tuottaa niiden avulla nimettyjen entiteettien kirjastoja. Liitämme palvelutuotteita toimialojen rajoja ylittäviin entiteettikirjastoihin voimme tuottaa esim. side-selling ja upselling dialogeja ja kytkeäesim. pankkien autolainatuotteiseen vakuutusneuvontaa jne.

Fibeliuksen taggerit edustavat Suomessa puhuttujen kielten State-Of-The-Art teknologiaa. Käyttämäme NER taggerit kykenevät nostamaan suomessa puhutuissa kielissä – ammattikielet ja katukielet mukaanlukien – tunnistettujen entiteettien tason bulkkitaggereiden noin 60-70% tarkkuudesta yli 90% tarkkuuteen.