Valodu tehnoloģiju iniciatīva 

VTI  

Norises

30.01.2024.
Valodu tehnoloģiju iniciatīvas studiju kursu prezentācija

Valodu tehnoloģiju iniciatīvas projekts 30. janvārī plkst. 14.00 LU Zinātņu mājā prezentēs jaunizveidotos studiju kursus, kas dos iespēju Latvijas lielāko universitāšu studentiem apgūt aktuālas valodu tehnoloģijas.

Pasākumā piedalīsies LU DF profesore Inguna Skadiņa, LU HZF asociētā profesora Jana Kuzmina, RTU profesore Marina Platonova, LU DF asociētais profesors Normunds Grūzītis, kas pārstāv LU MII, kā arī Andrejs Vasiļjevs, “Tilde” līdzdibinātājs. Pasākumu vadīs Daina Jāņkalne.
Lai prognozētu dalībnieku skaitu, lūdzam aizpildīt šo pieteikuma anketu: https://forms.office.com/e/Mfg1gLtd9C

27.10.2023.
Intervija ar Baibu Saulīti par "Balsu Talku"

Foto: Amanda Anusāne

Kas ir "Balsu talka"? Kāpēc šajā kampaņā nepieciešama sabiedrības iesaiste? Lai vairāk uzzinātu par šo iniciatīvu, intervējām Baibu Saulīti.

Vai Jūs varētu īsi ar sevi iepazīstināt – kāda ir Jūsu nodarbošanās?  Kāda ir Jūsu saistība ar valodu tehnoloģijām?

Esmu valodniece, LU MII Mākslīgā intelekta laboratorijas (AiLab) vadošā pētniece, un mans galvenais pētījumu objekts ir mūsdienu latviešu valoda dažādos aspektos. AiLab misija ir attīstīt resursus un tehnoloģijas latviešu valodas pastāvēšanai daudzvalodu vidē, un šeit atziņas par valodu varu gūt, gan veidojot latviešu valodas resursus, gan arī analizējot dažādas lingvistiskas parādības jau izveidotajos resursos. Ar resursiem ir domāti valodas dati, kas tiek izmantoti valodu tehnoloģijās, – leksiskās datubāzes (vārdnīcas) un valodas korpusi. 
Galvenie resursi, kas noderīgi plašākai sabiedrībai ikdienā, ir apkopoti divās platformās – populārajā vārdnīcā “Tēzaurs” un “Nacionālajā korpusu kolekcijā”. Varbūt paskaidrošu, ka valodas korpusi ir rakstītu tekstu, transkribētu runas vai video ierakstu kopums, kas paredzēts modernai lingvistiskai analīzei un valodas tehnoloģiju izstrādei. Korpusos tiek iekļauts autentisks, ļoti plašs, miljoniemvārdu liels valodas materiāls, kas atspoguļo valodas lietojumu, bet korpusu pārlūkprogrammas piedāvā iespēju analizēt šos apjomīgos tekstus, konstatēt tajos valodas tipiskās vai neparastās, retās parādības.

Kas ir “Balsu talka”?
Balsu talka ir kampaņa, kuras laikā lūdzam sabiedrību iesaistīties latviešu valodas runas korpusa izveidē – ierunāt dažus teikumus, lai savāktu pēc iespējas vairāk latviešu valodas runas paraugu un izveidotu daudzveidīgu, atvērtu un ikvienam pieejamu latviešu runas datu kopu. Balsu paraugu vākšanai izmantojam starptautiski pazīstamo Mozilla Common Voice platformu, kur savāktie runas dati ir pieejami ikvienam. Šobrīd ir savāktas vairāk nekā 170 stundas ierakstu no 4364 runātājiem, vairāk nekā puse no ierakstiem ir pārbaudīti.

Kā radās “Balsu talka”? Kā radās ideja īstenot šo projektu?
Runas korpusu izveide ir ļoti dārga un laikietilpīga, jo runas dati ir precīzi jātranskribē. Lielākā daļa latviešu valodas runas datu, ko pašlaik izmanto pētniecības iestādes un valodu tehnoloģiju uzņēmumi, nav atvērti un brīvi pieejami. 
Jau pusotru gadu AiLab tiek veidots brīvi pieejams spontānās runas korpuss, bet, kā jau teicu, transkribēšana notiek visai lēnu. Tāpēc mēs domājām, kā pēc iespējas ērtāk savākt daudz transkribētu ierakstu un izveidot atvērtu, apjomīgu mūsdienu latviešu valodas runas datu kopu. Kopā ar mūsu sadarbības partneri LU LFMI apsvērām dažādus variantus, jo mums interesēja savākt arī spontāno runu, bet nevarējām atļauties paši tādā apjomā kvalitatīvi transkribēt datus. Tad satikāmies ar Raivi Deju, kurš jau aicināja iedzīvotājus ierunāt teikumus Mozilla Common Voice. Un tā īsā laikā radās “Balsu talkas” kampaņa, kuru kopā ar LU LFMI un Latvijas Atvērto tehnoloģiju asociāciju (LATA) uzsākām jau 4. maijā un kurā savācām pirmās 100 stundas dažādu balsu ierakstu.

Kā “Balsu talkā ievāktie dati tiks izmantoti?
Dati tiek regulāri  publicēti Common Voice platformā atbilstoši Creative Commons CC0 publiskā domēna licencei, kas nozīmē, ka nevienam uz datiem nepieder autortiesības. Ikviens tos var brīvi izmantot jebkuram mērķim, tādā veidā veicinot neierobežotu pētniecības attīstību gan valodniecībā, gan valodu tehnoloģijās. 
Lietotājam “Balsu talkā” laikā līdz vasaras vidum savāktie dati apskatāmi un noklausāmi “Balsutalka.lv runas korpusā”. Tur, piemēram, var noklausīties, kā dažādi cilvēki ierunājuši fragmentus no Annas Brigaderes “Sprīdīša” vai citus tekstus. Ar šo korpusu var strādāt valodas pētnieki, īpaši fonētiķi. Piemēram, dati ļauj dažādu cilvēku runā analizēt zilbes intonāciju, kas ir tipiska latviešu valodas garajās zilbēs, skatīties, kādas pozicionālās skaņu pārmaiņas un cik regulāri notikušas vārdos. Tā kā ierunājamo teikumu kopā ir dažādu komunikatīvo tipu teikumi – gan stāstījuma, gan jautājuma, gan izsaukuma, tad iespējams analizēt teikuma intonāciju.

Kā “Balsu talka” veicina latviešu valodas attīstību un kāda ir tās ietekme uz valodas izmantojumu?
Pašu latviešu valodas attīstību šī iniciatīva īsti neveicina, bet, kā jau minēju, iegūtie dati ļauj analizēt dažādus latviešu valodas aspektus.
Sadarbībā ar Rēzeknes Tehnoloģiju akadēmiju ir izveidota iniciatīvas latgaliskā versija Bolsu tolka, kur aktīvi piedalās cilvēki, kas prot skaļi nolasīt teikumus latgaliešu rakstu valodā. Kā izrādās, daudziem ir patiesi jākoncentrējas, lai izlasītu ievietotos teikumus. Iespējams, kādam tas ir treniņš lasīšanai latgaliešu rakstu valodā.
Jāuzsver, ka mūsu mērķis ir iegūt dažādu balsu ierakstus, tostarp ar izlokšņu iezīmēm un akcentiem. Nav nozīmes dalībnieku vecumam, dzimumam un tautībai – jo daudzveidīgāki būs balsu paraugi latviešu un latgaliešu valodā, jo vērtīgāk. Šī ir arī kultūrvēsturiski nozīmīga iniciatīva, jo Latvijā un diasporā ierunātie balsu paraugi tiks iemūžināti un saglabāti nākamajām paaudzēm.

Kādi ir galvenie izaicinājumi un uzdevumi, darbojoties “Balsu talkā”?
Mums šajā projektā ir izveidojusies ļoti jauka komanda, kur katram ir savs uzdevums - AiLab domā par saturu un iegūto datu analīzi, LU LFMI un LATA mūs iedvesmo dažādiem sabiedrības iesaistes pasākumiem, bet Raivis Dejus rūpējas par tīmekļvietni balsutalka.lv un iekļaušanos Mozilla Common Voice platformā. 
Šobrīd ir svarīgi novērtēt jau iegūtos datus, piemēram, sākotnējā rezultātu analīze rāda, ka runas atpazīšanai noderīgāki ir garāki teikumi, nevis viena līdz piecu vārdu teikumi. No otras puses, šādi teikumi un pat vārdi ir ļoti nepieciešami valodas analīzē. 
Tāpat ir skaidrs, ka savākt pēc iespējas lielāku runas korpusu nav galvenais uzdevums. Būtiski ir radīt daudzveidīgu korpusu, kurā dažādus tekstus ierunājuši cilvēki ar dažādiem akcentiem vai izlokšņu iezīmēm. Atlasot tekstus, ko talkas dalībnieki ierunā, pēc iespējas skatāmies, lai parādītos latviešu valodā biežāk lietotie vārdi, lai tiktu iekļauti teikumi ar atšķirīgu sintaktisko un komunikatīvo struktūru u. tml. Tāpat talkas dalībniekiem atgādinām, ka vienlīdz svarīgi ir pārbaudīt jau ierunātos teikumus. Starp citu, ir ļoti patīkami klausīties, kā (ar kādu izteiksmi, intonācijām) teikumus ir ierunājuši talkas dalībnieki.

Kāds varētu būt tālākais solis, lai uzlabotu valodu tehnoloģijas?
Kā jau minēju, ir svarīgi dažādot ielasāmo teikumu kopu, raudzīties, lai tiek pievienoti garāki teikumi (protams, ievērojot Common Voice ierobežojumu – līdz 14 vārdiem). Tāpat būtu vērtīgi, ka paplašinātos “Balsu talkas” dalībnieku skaits – lai korpusā būtu pēc iespējas vairāk dažādu runas paraugu. Un, protams, jau ierakstīto datu pārbaudīšana ir tikpat nozīmīga kā balss ierakstīšana.

Vai Jūs redzat citas valstis vai projektus, kas varētu kalpot par paraugu vai iedvesmu “Balsu talkai”?
Protams, domājot par runas datu vākšanu, mēs paši analizējām citu valstu pieredzi, kā runas datu vākšanā iesaistīt plašāku sabiedrību. Visiespaidīgākais šķita somu projekts “Donate Speech” (no šī projekta vēlāk iedvesmojušies arī igauņi), bet viņi neizmanto Mozilla Common Voice platformu un vāc spontānu runu, nevis lūdz ielasīt teikumus. Tas nozīmē, ka viņi sākotnēji iegūst runas ierakstus bez transkripcijām. Bet tieši transkripcijas ir sarežģītākais posms runas korpusu izveidē. Līdzīgi kā mēs, runas ierakstus vāc arī islandieši.

Pateicamies Baibai Saulītei par veltīto laiku mums un par ieguldījumu runas datu vākšanas projektā!

Informācija par projektu

Projekts “Valodu tehnoloģiju iniciatīva” jeb VTI tiek īstenots Eiropas Savienības Atveseļošanas un noturības mehānisma plāna investīcijas “Augsta līmeņa digitālo prasmju apguves nodrošināšana” ietvaros.

  • Projekta Nr.: 2.3.1.1.i.0/1/22/I/CFLA/002
  • Projekta īstenošanas periods: 01.07.2022. - 30.06.2026.
  • Projekta kopējais finansējums: 5 140 000 EUR
  • Projekta finansētāji: Eiropas Savienība, Nacionālais attīstības plāns
  • Projekta partneri: Latvijas Universitāte, Rīgas Tehniskā universitāte, Latvijas Universitātes Matemātikas un informātikas institūts, Rīgas Stradiņa universitāte, Latvijas Universitātes Literatūras, folkloras un mākslas institūts, Sabiedrība ar ierobežotu atbildību “Tilde”.

Kontaktinformācija: vti@lu.lv 
Projekta vadītājs: Māris Bušs

Kopsavilkums

Projekta mērķis ir veicināt inovācijas valodu tehnoloģiju jomā, radot augstākās izglītības, zinātnes un industrijas sinerģiju, īstenojot pētniecību un sagatavojot speciālistus ar augsta līmeņa digitālajām prasmēm valodu tehnoloģiju jomā. Projekta laikā paredzēts sagatavot vismaz 5 studiju moduļus valodu tehnoloģiju jomā un nodrošināt iespējas apgūt zināšanas un augsta līmeņa digitālās prasmes valodu tehnoloģijās vairāk nekā 800 LU, RTU un RSU studentiem, kā arī publiskā un privātā sektora speciālistiem. Projektā tiek īstenota pētniecība piecos valodu tehnoloģiju virzienos: (1) nacionālie valodas resursi un to izmantošanas un analīzes platformas; (2) valodas modeļi un rīkkopas teksta automātiskai analīzei un sintēzei; (3) valodas tehnoloģijas audiovizuālo materiālu apstrādei; (4) tehnoloģijas, rīki un infrastruktūras valodas tehnoloģiju prasmju apguvei un iekļaujošas izglītības sekmēšanai; (5) tulkošanas procesa automatizācijas platforma tulkošanas tehnoloģiju izstrādes un izmantošanas apmācībai.