Kieliperheet ja luonnollisen kielen käsittely

Chatbotit tarjoavat mahdollisuuden tavoittaa kansainvälistä yleisöä. Mitä enemmän kieliä botti tukee, sitä enemmän asiakkaita se voi saavuttaa. Ihmiskielten moninaisuus tekee tästä haasteellista. Olet oletettavasti perehtynyt suomeen ja englantiin, ehkä myös muihin eurooppalaisiin kieliin. Jopa englannin ja suomen välillä kääntäminen voi olla vaikeaa. Kun tarkastelemme kaikkia maailman kieliä, joudumme käsittelemään vielä enemmän variaatiota aina kielen perusoletuksiin saakka. Tässä artikkelissa on yleiskatsaus maailman kieliperheistä ja niiden vaikutuksista luonnollisen kielen käsittelyyn.

Kieliperheiden rajat eivät ole täsmällisiä, ja toisinaan kielitieteilijät muuttavat luokituksiaan, mutta seuraavia pidetään yleisesti niinä kieliperheinä, joilla on suurin määrä puhujia:

  1. Indo-Eurooppalaiset kielet. Euroopassa ja osissa Aasiaa.
  2. Kiinalais-tiibetiläiset kielet. Kiinassa ja eräissä sen naapurimaissa.
  3. Niger-Kongolaiset kielet. Saharan eteläpuolinen Afrikka.
  4. Austronesialaiset kielet. Kaakkois-Aasiassa ja Tyynenmeren ja Intian valtameren saarilla.
  5. Afroaasialaiset kielet. Pohjois- ja Itä-Afrikka ja Lounais-Aasia.

Kaiken kaikkiaan kieliperheitä on yli sata, mutta vain 30:llä niistä on yli miljoona elävää puhujaa.

Jotkin kielet ovat isolaatteja, jotka eivät tunnistettavasti kuulu mihinkään kieliperheeseen. Joitain niistä, erityisesti japania, käyttävät taloudellisesti ja lukumäärältään merkittävät väestöryhmät.

Kieliperheiden erot

Sanasto on helpoin ero ymmärtää kieliperheiden välillä. Perheensisäiset sanat eri kielillä ovat usein tunnistettavasti samanlaisia. Indo-eurooppalaisten kielten keskuudessa ”äiti” on saksaksi ”Mutter”, italiaksi ja espanjaksi ”madre” ja kreikaksi ”mitera”. Sanasto ei sinänsä ole vaikea ongelma luonnollisen kielen käsittelylle. Vaikeammat ongelmat liittyvät kielioppiin.

Esimerkiksi japanilaisen tekstin jäsentämiseen tarvitaan enemmän kuin vain englanninkielisen tekstin muokkaaminen eri sanastoon. Myöskään ennakoidun sanajärjestyksen muuttaminen ei riitä. Se edellyttää erilaista tapaa ajatella syntaksia.

Kirjoitusjärjestelmät ovat hyvin erilaisia ​​eri kielillä, jopa saman kieliperheen sisällä. Useilla eri kielillä käytetään erilaisia ​​aakkosia. Toiset eivät käytä lainkaan aakkosia, vaan sen sijaan käytetään merkkejä, jotka edustavat tavuja tai kokonaisia sanoja. Joitain kieliä kirjoitetaan vasemmalta oikealle, toisia oikealta vasemmalle tai ylhäältä alas.

Taipuvat sanat

Englannin kielessä ei ilmene paljoa ongelmia sanojen päätteiden kanssa muihin kieliin verrattuna, mutta sillä on omat epäsäännöllisyytensä. Luonnollisen kielen käsittelyn on yhdistettävä sana sen perusmuotoon, vaikka ne näyttäisivät erilaisilta. Chatbot-ohjelmiston on esimerkiksi ymmärrettävä, että ”brought” (”tuonut”) on sanan ”bring” (”tuoda”) mennyt muoto. Tätä prosessia kutsutaan perusmuotoistamiseksi. Perusmuotoistaminen voi olla monimutkaista, joten joskus sovelletaan niin kutsuttua karkeaa menetelmää, jossa viimeiset kirjaimet, eli affiksit, yksinkertaisesti poistetaan. Tätä kutsutaan typistämiseksi.

Agglutinatiiviset kielet ja fuusiokielet voivat tässä suhteessa olla hyvin monimutkaisia. Latina on suhteellisen tunnettu esimerkki fuusiokielestä, jota kutsutaan myös taivutetuksi. Sanojen päätteet riippuvat muodosta, sukupuolesta, aikamuodosta jne. riippuen. Se mahdollistaa erittäin ytimekkäät lausunnot ” Carthago delenda est!” tarkoittaa ”Karthago on tuhottava!” vain kolmella sanalla. Se käyttää verbin ”delere” gerundiivimuotoa, mikä antaa sille imperatiivisen merkityksen. Lähin englanninkielinen käännös sanasta sanaan olisi ”Carthage is to be destroyed.”

Jotkut sanat ovat epäsäännöllisiä, mikä lisää sekaannusta. Luonnollisen kielen käsittelyn on supistettava sanat niiden perusmuotoon ja ymmärrettävä, miten muutettu muoto muuttaa merkitystä.

Joillain muilla kielillä on hyvin vähän sanojen muutoksia. Kiinan kielessä sanamuodot eivät koskaan muutu. Riippumatta lukumäärästä, sukupuolesta tai aikamuodosta, tämä kieli käyttää täsmälleen samaa sanaa.

Jotkut kielet ovat agglutinatiivisia, ja ne yhdistävät yksinkertaisia kantasanoja tai morfeemeja, yleensä ilman muutoksia, luomaan sanoja, joilla on omat merkityksensä. Tämä ei ole sama asia kuin yhdyssanojen muodostaminen. Saksan kielessä on valtavasti yhdyssanoja, mutta se ei ole agglutinatiivinen kieli, koska sanojen osat ovat itsessään itsenäisiä sanoja. Japanin kieli on pitkälti agglutinatiivinen, samoin kuin muutamat keksityt kielet, kuten esperanto ja klingon.

Kieliä, jotka eivät ole erityisen fuusioitavia tai agglutinatiivisia, kutsutaan ”isoloiviksi” kieliksi, joita ei pidä sekoittaa isolaattikieliin. Englanti on enimmäkseen isoloiva kieli. Ohjelmistojen on verrattain helppoa käsitellä niitä, mutta niihin liittyy omat hankaluutensa.

Kirjoitusjärjestelmät

Erilaisten kielten tavoissa muuntaa sanat näkyviksi merkeiksi on paljon variaatiota. Englanti käyttää kahtakymmentäneljää tavua, jotka on lainattu ja hieman laajennettu latinasta. Ranskalaiset ja saksalaiset lisäävät kirjainten päälle merkkejä, jotka eivät ole pelkästään koristeita vaan olennainen osa sanan oikeinkirjoitusta. Saksaksi ”schon” tarkoittaa ”jo”, mutta ”schön” tarkoittaa ”kaunis.”

Kiinan kielessä kirjain on logogrammi, joka tarkoittaa sanaa. Kiinan kielen lukutaito vaatii sitä, että niitä tuntee tuhansia. Japanilaiset käyttävät samoja merkkejä ja kutsuvat niitä Kanjeiksi, mutta heillä on myös kaksi syllabista kirjoitusjärjestelmää, Hiragana ja Katakana. Kanji-symboleilla kirjoitettu sana voidaan kirjoittaa foneettisesti näillä järjestelmillä.

Onneksi Unicode ratkaisee merkkijoukkoihin liittyvän ongelman. Käytännöllisesti katsoen jokaisella maapallolla käytössä olevilla kielillä, jota jokin ihmisryhmä käyttää, on olemassa Unicode-koodaus. Yhdessä tekstissä voi yhdistyä minkä tahansa verran kieliä. Tietyssä kirjoitusjärjestelmässä (joka voi olla yhteinen useille kielille) käytettyjä symboleja kutsutaan Unicode- skriptiksi.

Suunta, jossa skriptin kirjaimet luetaan, vaihtelee. Vasemmalta oikealle on yleisin, mutta arabiaa ja hepreaa luetaan oikealta vasemmalle. Monimutkaisuutta lisää, että näiden kielten numerot luetaan vasemmalta oikealle. Tekstinsyöttö- ja käsittelyohjelmistot pystyvät päättelemään tämän.

Lauseiden syntaksi

Lauseiden syntaksin variaatio on kiistatta yksi luonnollisen kielen käsittelyn vaikeimpia ongelmia. Joissakin kielissä sanajärjestys on joustavampi kuin englannissa, mutta on käytettävä oikeaa substanttiivimuotoa, jotta selviää, onko kyseessä subjekti, suora objekti vai epäsuora objekti.

Muut kuin indoeurooppalaiset kielet eivät aina kohdistu subjektiin, verbiin ja objektiin. Japaninkieliset lauseet on rakennettu aiheen ympärille, mikä on tärkein kiinnostuksen kohde lauseessa riippumatta siitä, mitä kielioppifunktiota se edustaa. Subjekti voidaan jättää pois. Partikkelit, lyhyet sanat, jotka toimivat kieliopillisina indikaattoreina niitä edeltäneille sanoille, ovat tärkeitä. Kysymys esimerkiksi päätyy useimmiten päätteeseen ”ka”.

Koska lauseiden jäsentämisen taustalla oleva ajatus on niin erilainen, eri kieliperheisiin kuuluvien tekstien on oltava merkittävästi erilaisia. Aina ei ole yksi-yhteen-vastaavuutta yhdestä kielestä toiseen.

Monimerkityksisyys

Jokaisessa ihmiskielessä on jonkin verran monimerkityksisyyttä. Konteksti auttaa yleensä ratkaisemaan epävarmuustekijät, mutta joskus on tarpeen muotoilla kysymys uudelleen sen selventämiseksi. Puhuttu kieli on usein monimerkityksellisempää kuin kirjoitettu muoto, joten äänichatbotit on otettava erityisesti huomioon.

Chatbotit käsittelevät rajoitettuja keskustelualueita, minkä ansiosta ongelma on helpompi ratkaista. Botti, joka käsittelee vaatekauppaan liittyviä kysymyksiä, voi olettaa, että sen saamat kysymykset liittyvät lähinnä vaatteiden ostamiseen.

Keskustelun asiayhteyden muistaminen ratkaisee monia ongelmia. Chatbotin on käsiteltävä käyttäjän syötteitä jatkuvana keskusteluna, ei pelkkinä yksittäisinä lauseina. Jokaisella kielellä ei ainoastaan ole sääntöjä muodollisessa mielessä, vaan olettamuksia, jotka ovat välttämättömiä, jotta viesteistä voidaan saada selvää.

Suomen kieli luonnollisen kielen käsittelyyn

Suomen kieli kuuluu uralilaisten kielten ryhmään. Se on voimakkaasti taipuva, agglutinoiva kieli. Suomen kieli sopii mainiosti chatbotille, joka käyttää suomenkielistä kielianalyysiä. Tällöin chatbot saa yksittäisistä sanoista paljon informaatiota, sanojen taivutusten, sekä yhdyssanojen takia.

Mikäli chatbotin luonnollisen kielen käsittely pohjautuu englantiin, suomenkielisten sanojen taivutus tuottaa ongelmia ja taivutuksista saatava lisäinformaatio katoaa. Taipuvat sanat voivat esiintyä tekoälylle joko eri sanoina tai niitä yritetään yhdistää typistämällä päätteitä pois. Typistäminen taas lisää riskiä, että eri sanoja luokitellaan yhteen. Englanninkielinen tekoäly helposti tulkitsee yhdyssanat kahdeksi eri sanaksi.

Toisin kuin esimerkiksi englanninkielessä, suomenkielessä lauseiden sanajärjestys on toissijainen. Suomenkielessä lauserakenne pohjautuu enemmänkin taivutuksiin kuin sanajärjestykseen.

Lopputiivistelmä

Jokaisella kielellä on omat erityispiirteensä, ja mitä etäisempi niiden välinen suhde on, sitä olennaisempia erot todennäköisesti ovat. Henkilö, joka oppii kieltä, huomaa että on välttämätöntä ajatella kyseisellä kielellä sen sijaan, että kääntäisi kieltä jatkuvasti päänsä sisällä.

Samoin eri kieliä edustavien tekstien on perustuttava niiden perusteelliseen ymmärtämiseen. Se ei ole pelkästään sanakirjaan ja sanajärjestykseen liittyvä asia vaan sen ymmärtäminen, kuinka kieli toimii ja miten ihmiset käyttävät sitä keskusteluissa. Hyvin suunniteltu jäsennyslaite, joka pystyy käsittelemään kaikkia kielen omituisuuksia, on välttämätöntä käyttäjien tyytyväisenä pitämiseksi.