Eesti kohtutes prooviti esimest korda kõnetuvastust – ja asjal on jumet

Viru maakohus.

FOTO: Arvet Mägi

Tallinna Tehnikaülikool (TTÜ) katsetas Eesti kohtuistungitel valminud istungisalvestisi ja jõudis järeldusele, et kõnetuvastustehnoloogiast oleks kohtusekretäridele suur abi automaatsete protokollide loomisel.

Uurimise alla võeti seitse salvestust Viru ning kolm Tartu maakohtust ja kasutati TTÜs eesti keele pikkade kõnesalvestuste tuvastussüsteemi, mis põhineb vabavaralisel kõnetuvastuspaketil Kaldi. Kõnetuvastus on tehnoloogia, mis leiab helisisendis olevale kõnele kõige tõenäolisemalt vastava teksti.

TTÜ vanemteadur Tanel Alumäe jõudis eksperimentide tulemusel järeldusele, et vaatamata mitmele praegusele probleemile on perspektiivid kõnetuvastuse kasutuselevõtuks kohtuistungite protokollide koostamisel väga head.

«Juba praegu saavutatud tuvastusvigade määr 22 protsenti kiirendaks tunduvalt protokollide koostamist,» leidis Alumäe.

Tuvastuskvaliteeti peaks olema tema hinnangul suhteliselt lihtne veelgi parandada, muutes kohtusaalides mikrofonide konfiguratsiooni nii, et nad oleksid kõnelejale lähemal, seda eriti süüdistatavate puhul.

Nii on Alumäe hinnangul väga reaalne saavutada alla 15ne tuvastusvigade protsent kõigi istungite puhul ning 10 protsendi lähedane vigade protsent ilma aktsendita kõnelejatega istungite puhul.

Probleemiks oli nimelt, et mõned istungisalvestused – eriti Viru maakohtust pärinevad – on väga madala helinivooga ja suure taustamüraga.  Teiseks on Viru maakohtu istungitel paljudel kõnelejatel – ka  prokuröril ja tõlgil – selgelt tajutav vene aktsent. Aktsent iseenesest suuri tuvastusvigu ei põhjusta, küll aga võivad vigu põhjustada grammatiliselt ebakorrektsed keelekonstruktsioonid, mis tuvastussüsteemi keelemudeli «segadusse ajavad».

Eesti seadused näevad ette kohtuistungite protokollimist ning loomise ülesanne on pandud kohtuistungi sekretäridele. Tavaliselt teevad nad oma tööd heli- või videosalvestuse põhjal ja kulutavad sellele üüratult aega.

Kuigi viimase kümne aasta jooksul on eelkõige tänu sügavate närvivõrkude kasutuselevõtule kõnetuvastuse kvaliteedis toimunud suur areng, ei saa kõnetuvastuselt endiselt eeldada perfektset täpsust.

On leitud, et selleks, et transkribeerimisprotsessi kiirendada, peab kõnetuvastuse sõnavigade arv olema väiksem kui 30 protsenti. 20-protsendine vigade määr teeb transkribeerimise umbes 10 protsendi võrra kiiremaks.

Alumäe eksperimendis kasutatud süsteemi akustilised mudelid on treenitud umbes 250 tunni transkribeeritud kõnematerjali peal.

Kõnetuvastussüsteemis kasutatakse kolme mudelit, mis modelleerivad kõne ja keele eri aspekte:

  • akustiline mudel kirjeldab, millised on selles keeles kasutatavate häälikute akustilised omadused ning kuidas nad kontekstist sõltuvalt varieeruvad
  • keelemudel kirjeldab keeles esinevaid sõnu ning annab tõenäosusliku hinnangu eri sõnakombinatsioonidele
  • hääldussõnastikus on toodud keelemudelis olevate sõnade hääldused, st sõnade teisendus akustilises mudelis olevate häälikute jadaks.

Süsteem konverteerib talle  antud istungiprotokollide heli tekstiks ja puhastab selle mitmesugusest ülearusest märgendusest.

Tagasi üles