Računalni programi koji čovjekov govor pretvaraju u tekst, koji su u velikim svjetskim jezicima postigli veliku popularnost, zadugo još neće izići iz hrvatske radionice elektroničke komunikacije.
Profesor Fakulteta elektrotehnike i računarstva u Zagreba Šandor Dembitz, koji je prije 20 godina s kolegama pokrenuo online strojnu provjeru pravopisa hrvatskog i engleskog jezika “Hascheck”, kaže da u Hrvatskoj ne postoje strategije niti konkretna ulaganja u takvu vrstu jezičnog razvitka.
Dok iza najpopularnije inačice “Dragon Dictation” američke tvrtke Nuance, koju su prilagodili za 40 zemalja svijeta, prema medijima radi šest tisuća zaposlenika u 35 država svijeta, oko “Haschecka” se trse trojica stručnjaka FER-a koji imaju druge redovite obaveze.
Osim Dembitza to su Gordan Gledec koji je izradio web-sučelje i Hrvoje Miholić koji je autor sučelja izbornika s ispravcima, i povremeno im kroz obrazovne obveze pomaže izvjestan broj studenata.
Već godinama nismo dobili nikakva sredstva, i kad zatražimo desetak tisuća eura od Ministarstva znanosti dobijemo odgovor da nemaju za to, kaže Dembitz.
Međutim, “Hascheck” su uočili francuski stručnjaci i pozvali ga za partnera u razvijanju hrvatsko-francuskog rječnika u kojoj suradnji nude svoj respektabilni know how potencijal. Mi smo prihvatili poziv, ali imamo lošu infrastrukturu što nam može otežavati realizaciju projekta, kaže Dembitz.
Hrvatski je u tehnološkome smislu jedan od najzapuštenijih europskih jezika, a jezik se u doba interneta brani tehnologijom, upozorava Dembitz i napominje da se oko očuvanja hrvatskog jezika mora brinuti hrvatska država, jer je jezik jedan od ključnih elemenata hrvatskog identiteta.
U hrvatskom jeziku morate uložiti istu muku kao u engleskom koji ima veliki broj korisnika, i u njemu osnovni jezičnotehnološki alati moraju biti javno dobro. Zbog toga je “Hascheck” besplatno dostupan svim malim korisnicima, dodaje profesor sa Zavoda za osnove elektrotehnike i električka mjerenja.
“Hascheckov” rječnik je s početnih 100 tisuća različnica hrvatskog općejezičnog fonda godinama narastao na 2.1 milijuna različnica, od čega 53 posto pripada hrvatskom općejezičnom fondu, 44 posto hrvatskom posebnojezičnom, dominantno imenskom fondu, te oko 3,5 posto engleskom općejezičnom fondu.
Glavna “Hascheckova” stranica bilježi između tri i četiri tisuće posjeta dnevno. Prosječno dnevno obrađuje se oko osam tisuća tekstova. Do sada je rječnik koristilo oko pola milijuna korisnika diljem svijeta. To pokazuje da za elektroničkom obradom hrvatskog jezika postoji potreba i da bi se ta potreba trebala širiti i na druge projekte.
“Hascheck” je solidna baza za pokretanje mnogih projekta, pa i projekta obrade prirodnog govora i njegova pretvaranja u tekst, smatra Dembitz i to dokumentira aktivnostima na razvoju tzv. n-gramske strukture.
N-gramska struktura su svi slijedovi riječi koji nisu odvojeni interpunkcijskim znakovima a koje software prepoznaje u obradi.
Oni se pojavljuju kao paralelne forme koje softwareu olakšavaju pretraživanje sadržaja. N-gramske strukture su korak u realizaciji projekta pretvaranja prirodnog govora u tekst.
“Hascheck” u tom smislu ima obrađenih 15 tisuća najfrekventnijih riječi, što je oko 75 posto upotrebnog fonda. To čini osnovni n-gramski sustav s više od 1.2 milijarde članova, a kad im se pribroji još n-gramski sustav od četiri do sedam članova, sustav naraste na oko 1,7 milijarde članova.
Tih 15 tisuća najfrekventnijih riječi čini oko 75 posto upotrebnog fonda, a za koliko toliko kvalitetno pretvaranje govora u tekst bi bilo potrebno obraditi 95 posto najfrekventnijih hrvatskih riječi, kaže Dembitz.
Međutim, za njega moraju postojati solidni tehnološki i ljudski resursi.
U Hrvatskoj se digitalnom obradom komunikacijske bavi i skupina stručnjaka na Sveučilištu u Rijeci koje vodi profesor Ivo Ipšić, a najjaču grupu u regiji okuplja tvrtka Alfanum iz Novog Sada, koja u svojoj ponudi ima niz proizvoda od onih za gluhe do projekta za automatsko titlovanje nekih televizijskih sadržaja. Alfanum ima neke svoje inačice namijenjene hrvatskom tržištu.
Identitet je jedan od glavnih izazova globalizacije a on počiva na jeziku. Hrvatski jezik nije neposredno ugrožen, ali će postati ako se ne pokrene tehnološka briga i taj me problem muči a ovdje se nedovoljno prepoznaje, zaključuje profesor Fakulteta elektrotehnike i računarstva u Zagreba Šandor Dembitz.
Tekst se nastavlja ispod oglasa