NER

Named Entity Recognition

NER – Nimettyjen entiteettien tunnistaminen, tarkoittaa henkilöiden, organisaatioiden, tuotteiden, osoitteiden, lakien, poliitiikoiden, prosessien, jne. tunnistamista puheesta tai tekstistä. NER on yksi luonnollisen kielen käsittelyteknologioiden peruskyvykkyyksistä.

NER = Named Entity Recognition

Tuotteiden tai palveluiden komponenttien ja niihin liittyvien ominaisuuksien, vaatimusten ja laatujen tunnistaminen on ensimmäisiä tehtäviä, joista kysymys-vastaus bottien, digi-neuvonantajien ja -assistenttien tulee selvitä. Luonnollisia kieliä ymmärtävien koneiden maailmassa NER antaa koneelle kyvyn kiinnittää tuotteisiin ja niiden osakokonaisuuksiin ominaisuuksia ja toimintoja, erilaisia huolto-, käyttö- ja asennusohjeita ym..

Englanninkielisillä aineistoilla koulutetut State-Of-The-Art NER koneet saavuttavat jo hämmästyttäviä tuloksia laajasti käytetyillä tekstidata-aineistoilla. Vähän puhuttujen kielien ja erityisesti niihin liittyvien ammattikielien erikoissanastojen alueella ei vielä olla aivan samalla tasolla. Tämä koskee myös suomen kieltä ja lukuisia Suomessa puhuttuja ammattikieliä. Jos eläisimme nyt 1800 -luvun fennofilian ja fennomanian aikaa, koettaisiin tämä jälkeenjääneisyys omaa toimijuuttaan vaalivan itsenäisen kansan yhdeksi tärkeimmistä projekteista.

Alla on kuva tällaisesta entiteettien tunnistamisesta suomen kielen ilmaisuissa ja siihen käytetystä entiteettien-merkitsijä työkalusta. Tuo on Turun yliopiston NLP tutkijoiden kouluttama NER merkitsijä. Se osaa merkitä tekstistä tuotteita ja organisaatioita, tunnistaa paikkoja ja rakennettua ympäristöä. Sen sijaan henkilöstöhallinnon asiantuntijan tunnistuskyvyn osalta se tarvitsee vielä harjoitusta. Se on Fibeliuksen NER palvelujen osaamisaluetta.

Fibeliuksen NER merkitsijä

Fibeliuksen asiakastoimitukset sisältävät kulloinkin tarvittavat toimialan kannalta relevanttien entiteettien tunnistamiseen ja nimeämiseen tarvittavat, parhaat markkinoilla olevat Suomessa puhuttuja kieliä lukevat komponentit. Lisäksi toimitukseen sisältyy entiteetteihin liittyvien argumenttien ja dialogien rakennetta sääntöperusteisella automaatiolla ohjaava toimintokokonaisuus. Tuo kyvykkyys esitellään omalla tuotesivullaan myöhemmin syksyllä 2020.

Teemme nimettyjen entiteettien kirjastoja ja pseudonymisoimme nimettyjä entiteettejä sisältäviä tietovarantoja Suomessa puhutuille kielille. Käyttämäme NER taggerit kykenevät nostamaan suomen kielestä tunnistettujen entiteettien tason bulkkitaggereiden noin 70% tarkkuudesta noin 90% tarkkuuteen.