Mokslininkas, prakalbinantis kompiuterius lietuviškai: „Nenorėdami atsilikti nuo pasaulio, nepamirškime ir savo kalbos“
Vytauto Didžiojo universiteto docentas, Kompiuterinės lingvistikos centro vadovas ir Valstybinės lietuvių kalbos komisijos narys Andrius Utka pasakoja apie kompiuterinę lingvistiką ir lietuvių kalbos technologijas. Siekiama, kad žmonės kuo plačiau galėtų naudotis įvairiomis programomis savo gimtąja kalba.
Kas yra kompiuterinė lingvistika ir kuo užsiima Kompiuterinės lingvistikos centras?
Mes esame mokslininkai, kurie kalbą analizuoja kompiuterinėmis priemonėmis. Tai ir yra kompiuterinė lingvistika.
Turbūt daugelis žmonių žino apie mašininį vertimą, šnekos atpažinimą, virtualius asistentus, taip pat kad kompiuteris gali atpažinti žmogaus kreipimąsi balsu. Šie išradimai sukurti pasitelkus kompiuterinę lingvistiką ir visa tai žmonės naudoja kompiuteriuose, išmaniuosiuose telefonuose.
Kitaip tariant, mes stengiamės kompiuterius išmokyti žmogaus kalbos.
Kad kompiuteris suprastų žmogaus kalbą, reikalingi tyrimai. šiuo metu kompiuterinė sritis labai keičiasi. Anksčiau, kad kompiuteriai suprastų kalbą, lingvistai turėjo parašyti tūkstančius taisyklių, programuoti, nuspėti, kokios gali būti komandos vienu ar kitu atveju.
Tačiau kalba yra begalinė ir tų taisyklių kiekis taip pat yra milžiniškas, tad lingvistams į pagalbą pasitelkiami neuroniniai tinklai ir dirbtinis intelektas. Dabar jau yra sistemos, kurios pačios sugeba mokytis, kompiuteriai analizuoja duomenis ir pritaiko tai vykdydami įvairias užduotis. Tad dabar mūsų pagrindinis tikslas yra ne rašyti taisykles, o užtikrinti, kad būtų sukauptas kuo didesnis kokybiškų lingvistinių duomenų kiekis.
Ar centro darbo rezultatus mato tik kompiuterinės sistemos?
Centras veikia jau 25 metus, būtent čia buvo pradėtas kurti Dabartinės lietuvių kalbos tekstynas. Mūsų interneto svetainėje yra ne tik įvairūs tekstynai, garsynai, duomenų bazės, bet ir įvairūs įrankiai, kuriais gali naudotis kiekvienas norintis, pavyzdžiui, morfologinis anotatorius arba kirčiuoklė, kuriais ypač dažnai naudojasi moksleiviai ir studentai.
Tekstynai yra naudingi ne tik specialistams. Pavyzdžiui, jeigu sudomina kokia nors frazė ar žodis, bet nežinote, kaip jis vartojamas, arba kokį žodį reikėtų rašyti kartu su tuo žodžiu, tekstynuose galite rasti ieškomą informaciją.
Juose yra surinkti įvairių žodžių vartosenos atvejai iš daugybės šaltinių. Galima pamatyti, kaip dažnai ar retai tas žodis ar frazė yra vartojami.
Informacinėse sistemose, technologijose vis dėlto dominuoja anglų kalba ir kartais žmonės sutrinka, kai vietoje angliškos pradeda naudotis lietuviška programos versija. Kodėl yra svarbu, kad žmonės informacinėse sistemose dažniau naudotų lietuvių kalbą?
Tai labai plati tema. Tačiau jei mes kalbame lietuviškai, šios kalbos neatsisakome ir norime ja toliau kalbėti, sutinkame, kad tai valstybinė kalba, valstybės pamatas, norime ją puoselėti, jokių klausimų nekyla.
Turime stengtis kurti naujus terminus, lietuviškai rašyti mokslinius straipsnius, bandyti kurti mašininį vertimą ir kitas kalbos technologijas, kurios sugebėtų apdoroti lietuvių kalbą, nes taip mes ją išsaugosime ir perduosime naujai kartai, kad ji matytų, jog viską galima daryti lietuvių kalba.
Aš suprantu, kad esame maža kalba, ir nereikia tikėtis, kad visos programos kompiuteriuose bus lietuviškos. Pavyzdžiui, skandinavai puikiai susikalba angliškai, bet jie vartoja ir savo kalbą, ten stiprios abi kalbos. Taigi, reikia, kad mes, nenorėdami atsilikti nuo pasaulio, nepamirštume ir savo kalbos.
Kaip yra šiuo metu - ar lietuvių kalbos situacija informacinėse sistemose gerėja, ji plačiau naudojama?
Lietuvių kalba yra sudėtingesnė nei anglų, tačiau yra ir gerokai sudėtingesnių kalbų, kurioms sėkmingai kuriamos kalbos technologijos. Ateinančios dirbtinio intelekto technologijos sugeba pagauti įvairius niuansus, todėl mūsų kalba tikrai nėra nepritaikoma. Kad technologijos būtų sėkmingai pritaikytos, turi būti kaupiami didžiuliai kiekiai duomenų.
Kalbant apie programinės įrangos lituanizavimą, tai nėra lengva suspėti su visomis naujomis programomis ir visas jas lituanizuoti. Tam turbūt reikėtų išskirtinės valstybinės politikos ir finansų, nes tam reikia išteklių ir laiko.
Bet apskritai su lituanizavimu nėra bloga padėtis, nes populiariausios programos ir programinė įranga yra lituanizuotos ir žmonės turi galimybę patogiai su jomis dirbti.
Minėjote, kad reikalinga valstybinė lietuvių kalbos informacinėse sistemose politika. Pernai buvo patvirtintos Lietuvių kalbos plėtros skaitmeninėje terpėje gairės artimiausiems aštuoneriems metams. Kokių rezultatų tikimasi?
Šiose gairėse įvertinome dabartinę būseną, apžvelgėme, kas yra pasiekta, sukurta, kokios egzistuoja iniciatyvos, ir tai, ko trūksta. Pagrindinis šių gairių tikslas yra visavertis lietuvių kalbos vartojimas skaitmeninėje terpėje.
Visavertis reiškia, kad nenorime būti antrarūšė ar trečiarūšė kalba, bet norime, kad lietuviškai būtų pasiekiamos visos paslaugos, programos, kuriomis naudojamės vartodami anglų kalbą. Gairės nėra susietos su finansiniais mechanizmais, tai yra mokslininkų ekspertų požiūris.
Kai kurie dalykai jau vyksta - tarp Europos Sąjungos ekonomikos gaivinimo ir atsparumo didinimo priemonių įtraukta priemonė lietuvių kalbos ištekliams kaupti. Vadinasi, atsiranda valstybinis, tarptautinis požiūris į lietuvių kalbą, į jos svarbą.
Tai leis toliau tobulėti ir įgyvendinti daugiau aspektų, kuriuos apima gairės.
Tačiau turbūt kalbos prestižas, jos populiarinimas neturėtų būti tik mokslininkų uždavinys. Koks galėtų ar turėtų būti švietimo srities specialistų vaidmuo populiarinant lietuvių kalbą informacinėse sistemose ir kasdienybėje?
Švietimas ir mokslas yra kita problemos pusė. Turi atsirasti daugiau kalbos specialistų ir ši sritis turi tapti prestižinė, kad daugiau studentų ją rinktųsi. Tam turbūt reikėtų ir didesnio finansavimo, ir švietimo, mokslo ir sporto ministerijos įsikišimo, ir kitų dalykų.
Požiūris į mokslą neturėtų būti „verslininkiškas“. Dabar moksliniai straipsniai daugiausia rašomi angliškai ir publikuojami užsienio žurnaluose. Net ir moksliniai straipsniai apie lietuvių kalbą spausdinami angliškai, kas skamba paradoksaliai.
Universitetai turėtų siekti, kad daugiau mokslinių straipsnių būtų rašoma ir publikuojama lietuvių kalba, kad turėtume prestižinių lietuviškų mokslinių žurnalų. Vis dėlto tai nėra paprasta, nes mūsų universitetai nori būti pripažinti tarptautiniu lygmeniu, o tam yra reikalinga mokslinė produkcija anglų kalba.
Santykiai su lietuvių kalba prasideda nuo mokyklos. Čia labai svarbus ir lietuviškas internetinis turinys. Natūralu, kad kai atsiranda daugiau gero skaitmeninio lietuviško turinio, vaikai jį skaito ir žiūri. Tačiau kol kas daugiau turinio vaikai „vartoja“ angliškai.
Bet galbūt yra ir gražių pavyzdžių, kai sėkmingai buvo pereita prie lietuvių kalbos informacinėse sistemose?
Viena iš tokių sėkmės istorijų galėtų būti lietuvių kalbos sintezatorius. Tai neseniai sukurtas įrankis, kurį įsidiegė kai kurie portalai, pavyzdžiui, lrt.lt, Seimo interneto svetainė. Sintezatorius perskaito tekstą, ir daro tai kokybiškai. Bet kokį tekstą galima išklausyti lyg klausantis radijo.
Tai ypač patogu neįgaliesiems, kurie negali patys skaityti, arba žmonėms, kuriems sunku skaityti. žinoma, šį įrankį taip pat dar galima tobulinti, kad būtų gražesnės intonacijos, mažiau klaidų, kurių šiek tiek pasitaiko.
Tačiau sintezatoriaus kokybės lygis yra tikrai aukštas. Kaip jau minėjau, taip pat aktyviai naudojamas tekstų kirčiavimo įrankis. Taip pat galima paminėti ir mašininio vertimo sistemą eTranslation, kuri skirta administraciniams tekstams versti ir kurią sėkmingai naudoja vertėjai.
Kalbininkai nuolat primena, kad kalba yra gyva ir besikeičianti. Ar pavyks neatsilikti naudojant kalbą informacinėse sistemose?
Tai, kad kalba yra besikeičianti, reiškia, kad bus reikalingi dar didesni duomenų kiekiai. Tačiau nėra paprasta juos kaupti. Duomenis, kurie yra internete, surinkti yra lengva, nes turime priemones, kurias vadiname duomenų siurbliais.
Tiesa, tekstinių duomenų yra ir knygose, socialiniuose tinkluose, kuriuos yra gerokai sunkiau sukaupti. Tik iš pirmo žvilgsnio tai gali atrodyti lengva, bet susidūrus su realybe yra kitaip.
Kaupiant duomenis reikia spręsti įvairias problemas, pavyzdžiui, tokius dalykus kaip privačių ir autorinių duomenų apsauga, skirtingi duomenų formatai. Dažnai neužtenka tiesiog turėti tekstus - jei norime „apmokyti“ sistemas, reikia juos žymėti, anotuoti.
Reikia, kad duomenys būtų subalansuoti, įvairūs, atspindėtų įvairią kalbą, ne tik interneto portalų, bet ir televizijos laidų, knygų, kasdienę kalbą.
Pavyzdžiui, mums šnekantis jūs įrašote pokalbį, jį reikės transkribuoti, tačiau tai tebus tik keli tūkstančiai žodžių. Sistemoms reikia milijonų ir net milijardų žodžių.
Kad būtų lengviau įsivaizduoti - vidutinę knygą sudaro apie 100 tūkstančių žodžių. Dabartinės lietuvių kalbos tekstyną šiuo metu sudaro apie 200 milijonų žodžių, tai yra apie 2 000 knygų. Daugelis didesnių kalbų tokiuose tekstynuose dabar yra surinkusios po 5-10 milijardų žodžių. Tokius kiekius duomenų apdoroti įmanoma tik kompiuteriais.
Kokią matote lietuvių kalbos skaitmenizacijos ateitį?
Aš esu optimistas. Esame Europos Sąjungoje, kurioje kalbų įvairovė yra skatinama ir palaikoma. Lietuvių kalba yra viena iš oficialių kalbų, į ją verčiami oficialūs dokumentai. šiuo atžvilgiu mūsų kalba yra prestižinė.
Taip pat dabar internete visame pasaulyje lietuvių kalbos yra tiek daug, kiek jos dar niekada nebuvo. Reikia suvokti, kad mes kuriame ir generuojame labai daug lietuvių kalbos, ja yra skaitoma populiariuose portaluose, ji vartojama. Vadinasi, viskas su mūsų kalba yra gerai, ji gyva ir jos daugėja.
Problema būtų, jei žmonės jos nevartotų, pavyzdžiui, feisbuke pradėtų tarpusavyje bendrauti ir rašyti angliškai.
Bet mes bendraujame lietuviškai, kuriame kalbą. Turime ir toliau ją puoselėti, galbūt galima pagalvoti ir apie jos modernizavimą, atsisakyti griežtų taisyklių, kad kalba būtų liberalesnė, patrauklesnė kiekvienam. Lietuviškos informacinės sistemos prie to taip pat stipriai prisidės.
Straipsnis remiamas Valstybinės lietuvių kalbos komisijos pagal Lietuvių kalbos prestižo stiprinimo programą.
Užsak.Nr.296021
Rašyti komentarą