NER

Named Entity Recognition

NER – Nimettyjen entiteettien tunnistaminen, tarkoittaa henkilöiden, organisaatioiden, tuotteiden, osoitteiden, lakien, poliitiikoiden, prosessien, jne. tunnistamista puheesta tai tekstistä. NER on yksi luonnollisen kielen käsittelyteknologioiden peruskyvykkyyksistä.

NER = Named Entity Recognition

Tuotteiden tai palveluiden komponenttien ja niihin liittyvien ominaisuuksien, vaatimusten ja laatujen tunnistaminen – eli Nimettyjen Entiteettien Tunnistaminen – on ensimmäisiä tehtäviä, joista kysymys-vastaus bottien, digi-neuvonantajien ja -assistenttien tulee selvitä. Luonnollisia kieliä ymmärtävien koneiden maailmassa NER antaa koneelle kyvyn kiinnittää tuotteisiin ja palveluihin ja niiden osakokonaisuuksiin dialogeja, keskusteluja vaatimuksista ja ominaisuuksista. Se mahdollistaa sen, että voimme kytkeä sisältövirrasta tunnistettuun olioon toimintoja. Esimerkiksi voimme tunnistaa sisältövirrasta Tampereen kaupungin Amurin ja kytkeä siihen ilmoituksen Amurin helmessä tarjoitavasta hernekeitosta. Vastaavasti voimme tunnistaa AR / Virtual Twin -käyttötilanteessa asiakkaan puheesta hänen huomionsa keskipisteen ja hakea siihen liittyviä huolto-, käyttö- ja asennusohjeita ym.

Englanninkielisillä aineistoilla koulutetut State-Of-The-Art NER koneet saavuttavat jo hämmästyttäviä tuloksia laajasti käytetyillä tekstidata-aineistoilla. Vähän puhuttujen kielien ja erityisesti niihin liittyvien ammattikielien erikoissanastojen alueella ei vielä olla aivan samalla tasolla. Tämä koskee myös suomen kieltä ja lukuisia Suomessa puhuttuja ammattikieliä. Jos eläisimme nyt 1800 -luvun fennofilian ja fennomanian aikaa, koettaisiin tämä jälkeenjääneisyys omaa toimijuuttaan vaalivan itsenäisen kansan yhdeksi tärkeimmistä projekteista.

Alla on kuva tällaisesta entiteettien tunnistamisesta suomen kielen ilmaisuissa ja siihen käytetystä entiteettien-merkitsijä työkalusta. Tuo on Turun yliopiston NLP tutkijoiden kouluttama NER merkitsijä. Se osaa merkitä tekstistä tuotteita ja organisaatioita, tunnistaa paikkoja ja rakennettua ympäristöä. Sen sijaan henkilöstöhallinnon asiantuntijan tunnistuskyvyn osalta se tarvitsee vielä harjoitusta. Se on Fibeliuksen NER palvelujen osaamisaluetta.

Suomen kielen NER tagger
Kuva: NER tagger, Suomen kielen entiteettien tunnistaja kahdessa erilaisessa käyttötilanteessa. Tunnistettavat asiakokonaisuudet eroavat mm. olion abstraktiuden osalta.

Fibeliuksen NER merkitsijä

Fibeliuksen asiakastoimitukset sisältävät kulloinkin tarvittavat toimialan kannalta relevanttien entiteettien tunnistamiseen ja nimeämiseen tarvittavat, parhaat markkinoilla olevat Suomessa puhuttuja kieliä ja asiakkaan asiakaskunnan kannalta keskeisiä kieliä lukevat komponentit. Lisäksi toimitukseen sisältyy entiteetteihin liittyvien argumenttien ja dialogien rakennetta sääntöperusteisella automaatiolla ohjaava toimintokokonaisuus. Tuo kyvykkyys esitellään omalla tuotesivullaan myöhemmin syksyllä 2021.

Teemme nimettyjen entiteettien kirjastoja asiakasprojekteina ja pseudonymisoimme nimettyjä entiteettejä sisältäviä tietovarantoja kaikille Suomessa puhutuilla 140+ kielellä. Käyttämäme NER taggerit kykenevät nostamaan suomen kielestä tunnistettujen entiteettien tason bulkkitaggereiden noin 70% tarkkuudesta noin 90% tarkkuuteen.