Tallinna Tehnikaülikool

Sellest nädalast saadik kantakse riigikogus toimuv otseülekandena üle uudsel kujul. YouTube’i vahendusel saab otseülekandeid jälgida koos tehisintellekti (AI) poolt loodud subtiitritega. Tehniliselt kasutatakse selleks Tallinna Tehnikaülikoolis (TalTech) valminud lahendust Kiirkirjutaja. 

TalTechi teadur Tanel Alumäe arendas koos doktorandi ja tudengitega tehisintellekti Kiirkirjutaja.
Tarkvarainstituudi teadur Tanel Alumäe arendas koos doktorandi ja tudengitega tehisintellekti Kiirkirjutaja.

Artikkel ilmus 15. detsembril tehnoloogiaportaalis Geenius

TalTechi teaduri Tanel Alumäe kinnitusel testib sama lahendust hetkel Eesti Rahvusringhääling, kelle kõneisiku sõnul on neil kavas see kasutusele võtta juba uuel aastal. Sama plaanitakse teha valitsuse pressikonverentside osas. Alumäe sõnul on Kiirkirjutaja arendatud vaegkuuljatele mõeldes, kes soovivad samuti otsesaateid reaalajas vaadata. Tehisintellekt suudab ignoreerida kõnes esinevaid mõttepause, üleliigseid sidesõnu ja kõhklushäälitsusi, nagu näiteks “eee…, mmm…”. 

Lahendust saavad kasutada kõik

Kiirkirjutaja tagamaid avanud Alumäe sõnul põhineb AI TalTechi keeletehnoloogia laboratooriumi teadurite varasematel töödel, näiteks täisautomaatsel transkribeerimisel, mis on kõigile huvilistele kättesaadav tekstiks.ee veebi kaudu.

AI-d hakati arendama selle aasta alguses ning Alumäe kõrval on sellega tihedalt seotud ka keeletehnoloogia labori doktorant Joonas Kalda. Eeltööna transkribeeriti eelmisel aastal suur hulk ERR-i materjali raadio- ja telearhiivist. Selles projektis osales palju TalTechi tudengeid. Kiirkirjutaja on kõigile era- ja avaliku sektori huvilistele kättesaadav ja kasutatav Eesti koodivaramu kaudu. Alumäe kinnitusel on selle lahenduse vastu ERR-i ja riigikogu kõrval huvi tundnud ka mõned otseülekannete ja pressikonverentside edastamisega tegelevad ettevõtted. 

“Kiirkirjutaja koosneb kõne identifitseerija, kõneleja vahetuse detektori, kõneldava keele identifitseerija, kõnetuvastaja, kirjavahemärgistaja, numbriväljendite normaliseerija, vähese usaldusväärsusega tuvastatud sõnade peitja ning tulemuse väljastaja moodulitest,” seletas teadur.

Kiirkirjutaja saab sisendiks nii-öelda toore helisignaali, millest kõigepealt leitakse reaalajas sellised segmendid, kus tõenäoliselt on kõne. Vaikust, muusikat, müra, mõttepause ja kõhklushäälitsusi oskab AI ignoreerida. 

“Kui kõne pole eesti keeles, siis edasisi samme ei rakendata, sest muukeelsele kõnele pole eestikeelset tuvastust mõtet rakendada. Kui on tegemist eesti keelega, siis tulevad järgmised sammud: kõnetuvastus, kirjavahemärgistamine. Kõige lõpuks tuleb tulemus välja saata,” kirjeldas Alumäe.

Kiirkirjutaja ei pane videole subtiitreid nii-öelda jõuga juurde, vaid kasutusel on rakendusliidesed, mis võimaldavad subtiitreid panna külge näiteks YouTube’is ülekantavale otseülekandele. Teiste seas kasutavad YouTube’i pressikonverentside edastamisel terviseamet, Stenbocki maja ja sotsiaalministeerium. Kuigi Alumäe sõnul on subtiitreid suhteliselt lihtne YouTube’i ülekandele juurde pookida, tunnistab ta, et tavakasutajale pole see hetkel siiski veel päris arusaadav süsteem, kuna kasutama peab spetsiifilisi tarkvaralisi lahendusi. 

YouTube’ist leitud riigikogu otseülekanne tõestab, et AI oskab päris hästi igasugu kogelemisi ja muid ebavajalikke häälitsusi eirata. Pikad kõnelõigud tükeldatakse nendes kohtades, kus kõneleja vahetub. Uue kõnevooru alguses tehakse kontroll, kas kõne on eesti keeles. 

“Enamus kirjeldatud komponente oli meil juba varasema kõnetuvastusalase töö käigus arendatud, aga väljakutse oli nad online-režiimis tööle saada. Näiteks kõneleja vahetuse tuvastamine on reaalajas, tegelikult küll ühe sekundi “tuleviku” kuulmisega palju keerulisem kui juhul, kui terve salvestus on töötluse ajal olemas. Samuti ilmnes, et eestikeelse kõne identifitseerimine on palju keerulisem, kui arvata võis,” kirjeldas Alumäe. 

Ta ei tee saladust, et esineb veel olukordi, kus Kiirkirjutaja ei tööta väga usaldusväärselt. Olenevalt materjalist teeb AI 5–20 protsenti vigu, kuid näiteks vaegkuuljad, kelle soove arvestades on Kiirkirjutaja loodud, on Alumäele rõhutanud, et automaatsed subtiitrid on neile ülikasulikud, isegi kui neis esinevad vead.

“Kuigi kasutame väga kaasaegseid närvivõrgupõhiseid mudeleid, klassifitseeritakse ikkagi tihti aktsendiga eestikeelne kõne võõrkeeleks ja tugeva eestikeelse aktsendiga ingliskeelne kõne eesti keeleks,” tõi ta näiteks. 

ERR võtab Kiirkirjutaja kasutusele uuel aastal

Alumäe usub, et Kiirkirjutaja on küps telekanalites kasutuselevõtuks, aga on oluline inimestele teadvustada fakti, et tegemist on automaatselt genereeritud subtiitritega, mille puhul on teatav võimalus, et kõneleja jutus olnud mõte omandab subtiitritega vastupidise tähenduse.

ERR-i pressiesindaja Pille-Mai Helemäe kinnitusel on nad Kiirkirjutaja teemal Alumäega suhelnud ning plaanivad lahenduse kasutusele võtta uuel aastal. 

“Automaatsubtiitrite süsteemi kõnetuvastuse osa tugineb TalTechi arendusele, ent televisiooni otsesaadete puhul on teksti automaatsel tuvastamisel ja kuvamisel mitmeid eripärasid, millega hetkel tegelemegi,” lisas Helemäe. 

Riigikantselei nimel rääkides ütles valitsuse kommunikatsioonibüroo juht Liis Velsker, et nad on jälginud Alumäe tööde arengut pikemat aega ja olnud teaduriga ka otsekontaktis. Kantselei väärtustab Velskri sõnul ligipääsetavust ja kavatseb sarnaselt riigikogule võtta automaatsed subtiitrid ühel hetkel kasutusele. Samas suunas liiguvad mõtted ka sotsiaalministeeriumis ja terviseametis. 

Riigikogu poolelt vaadates kasutatakse Kiirkirjutajat hetkel subtiitrite tegemiseks täiskogu istungite kaugosalusega lahenduses ja otseülekandes YouTube’i kanalisse. Riigikogu haldusdirektor Ahto Saks ütles, et ühel hetkel lisatakse automaatsed subtiitrid ka riigikogu.ee kaudu jälgitavatele ülekannetele. 

“Töötame lahendusega, mis võimaldaks meil vajadusel kõik riigikogu ülekanded varustada subtiitritega. Üldjoontes võib rahule jääda, Kiirkirjutaja teeb vigu veidi rohkem kui stenogrammi infosüsteem Hans, aga enamasti on kõik arusaadav,” lisas Saks.