Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība

LATE

Notikumi

18.01.2022
LATE projekta atklāšanas sanāksme

18. janvārī notika LATE projekta atklāšanas sanāksme, kurā piedalījās projekta vadības grupas pārstāvji no visām partnerinstitūcijām:
LU MII: Ilze Auziņa, Baiba Saulīte, Normunds Grūzītis, Inguna Skadiņa, Vita Matule
LU LVI: Edmunds Trumpa, Agris Timuška, Sanda Rapa, Marita Silkāne
LU HZF: Andra Kalnača, Ilze Lokmane
LU LFMI: Sanita Reinsone
LiepU: Dina Bethere, Airita Lindberga

12.01.2022
LU MII un CLARIN Latvija organizēts praktiskais seminārs par korpuss.lv platformā pieejamajiem korpusiem un meklēšanu tajos. Semināra vadītājas: Ilze Auziņa un Baiba Saulīte. 
https://www.clarin.lv/lv/clarin-latvija-seminari/63-praktiskais-seminars-par-par-korpuss-lv-vietne-pieejamajiem-korpusiem

Informācija par projektu

Projekts "Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība" tiek īstenots Valsts pētījumu programmas "Letonika latviskas un eiropeiskas sabiedrības attīstībai" ietvaros.

Projekta Nr.: VPP-LETONIKA-2021/1-0006

Projekta īstenošana: 20.12.2021.–19.12.2024.

Projekta finansējums: 1 068 000 EUR

Projekta finansētājs: LR Izglītības un zinātnes ministrijas Latvijas Zinātnes padome

Projekta partneri: Latvijas Universitātes Matemātikas un informātikas institūts (vadošais partneris), Latvijas Universitāte (Latvijas Universitātes Latviešu valodas institūts un Latvijas Universitātes Humanitāro zinātņu fakultāte), Latvijas Universitātes Literatūras, folkloras un mākslas institūts, Liepājas Universitāte

Kontaktinformācija: late@lumii.lv

Projekta vadītāja: Ilze Auziņa

Kopsavilkums
Projekta “Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība” (LATE) mērķis ir veikt mūsdienu latviešu valodas fonētiskās, gramatiskās, leksiskās sistēmas, kā arī latviešu zīmju valodas izpēti, izmantojot datos balstītas metodes un attīstot ilgtspējīgus latviešu valodas resursus un rīkus.

Lai sasniegtu izvirzīto mērķi, tiks attīstīta digitālā infrastruktūra valodas pētniecībai un tiks izveidoti jauni un papildināti esošie valodas resursi: latviešu valodas runas korpuss, latviešu zīmju valodas paraugkorpuss, leksiskā datubāze Tēzaurs.lv un “Mūsdienu latviešu valodas vārdnīca”.  Veicot datos balstītus latviešu valodas pētījumus, tiks pilnveidots gramatiski marķētais latviešu valodas korpuss un fonētiski fonoloģiskās sistēmas apraksts. Projekta laikā izveidotie un pilnveidotie resursi tiks iekļauti vienotajā latviešu valodas digitālās pētniecības infrastruktūrā CLARIN-LV un izmantoti runas transkribēšanas, pēcrediģēšanas un subtitrēšanas platformas LATE izstrādē.

Projekta uzdevumi: (a) digitālās infrastruktūras attīstīšana valodas pētniecībai: latviešu valodas leksisko, fonētisko un akustisko resursu izveide digitālā, mašīnlasāmā tiešsaistes datu formā, tai skaitā transkribētu runas korpusu izstrāde, nodrošinot to integrāciju Eiropas valodas resursu repozitorijos; (b) latviešu valodas skaņu sistēmas akustiskie un auditīvie (uztveres) pētījumi; (c) latviešu valodas gramatikas vienību un to variantu semantiski pragmatiski pētījumi; (d) latviešu nedzirdīgo zīmju valodas pētniecība; (e) runas atpazīšanas un balss sintēzes tehnoloģijas; (f) valodas tehnoloģiju risinājumi cilvēkiem ar īpašām vajadzībām (piemēram, automātiskā subtitrēšana, balss komandas).

Projekta virzieni uzdevumu īstenošanai:
WP1 Latviešu valodas pētījumu digitālā infrastruktūra
WP2 Datos balstīta latviešu valodas fonētiskās sistēmas izpēte
WP3 Datos balstīti latviešu valodas gramatikas pētījumi
WP4 Datos balstīti latviešu zīmju valodas pētījumi
WP5 Latviešu valodas runas tehnoloģiju izstrāde

Projekta pētnieciskā grupa: projekta īstenošanā ir iesaistīti 10 galvenie izpildītāji un 33 izpildītāji, t. sk. 14 studējošie.