Pāriet uz galveno saturu
  • LV
  • ENG
DIGITĀLĀS HUMANITĀRĀS ZINĀTNES LATVIJĀ
  • sākums
  • notikumi
  • institūcijas
    • Latvijas Nacionālā bibliotēka
    • LU Literatūras, folkloras un mākslas institūts
    • LU Lībiešu institūts
    • LU MII Mākslīgā intelekta laboratorija
    • Rēzeknes Tehnoloģiju akadēmija
    • Rīgas Tehniskā universitāte
    • Tilde
  • resursi
    • resursi un rīki
    • video
  • Semināri
  • Baltijas DH forums
  • BSSDH
  • Projekti
    • DHELI
    • VPP LATE
    • VTI
    • DH VPP
    • Nordplus
  • info

Radīts mākslīgā intelekta rīks latgaliešu valodas runas atpazīšanai un transkribēšanai

25. marts, 2025 pl. 15:02

Screenshot_2025-03-25_at_15_04_49.jpg

LU Matemātikas un informātikas institūta (LU MII) Mākslīgā intelekta laboratorijas pētnieki apmācījuši pirmo mākslīgā intelekta (MI) modeli latgaliešu valodas runas atpazīšanai un uz tā bāzes izstrādājuši praktiski izmantojamu latgaliešu valodas runas transkribēšanas rīku. Jaunais MI modelis un rīks ir brīvi pieejami gan galalietotājiem, gan valodu tehnoloģiju risinājumu izstrādātājiem.

“Latgaliešu valoda ir neatņemams Latvijas lingvistiskais un kultūrvēsturiskais mantojums un būtiska nacionālās identitātes daļa aptuveni 165 000 mūsu valsts iedzīvotāju, tādēļ ir svarīgi nodrošināt latgaliešu valodas pilnvērtīgu pastāvēšanu un attīstību arī digitālajā telpā,” norāda LU MII Mākslīgā intelekta laboratorijas vadītājs Normunds Grūzītis. “Esam gandarīti, ka kopā ar partneriem mums ir izdevies izveidot pirmo praktiski izmantojamo MI modeli, kas spēj saprast un pierakstīt latgaliešu valodā runāto. Latviešu valodai šādi risinājumi ir pieejami jau vairāk nekā desmit gadus, un nu arī latgaliešu valodai runas tehnoloģiju nodrošinājums pietuvinājies līmenim, kāds tas ir latviešu valodai.”


Jaunā MI modeļa mašīnapmācība latgaliešu valodas runas atpazīšanai tika paveikta vien mēneša laikā, sagatavojot vairāku gadu laikā iegūtos valodas datu paraugus modeļa apmācībai un izmantojot LU MII mākslīgā intelekta skaitļošanas infrastruktūru. Lai iegūtu nepieciešamos datus, Valsts pētījumu programmā “Letonika” kopš 2022. gada tika veidoti runas korpusi latviešu un latgaliešu valodai – daudzveidīgi runas datu paraugi ar transkripcijām un lingvistisko marķējumu, kopumā vairāku simtu stundu apjomā. Tas ietver arī sabiedrisko iniciatīvu “Balsu talka” un “Bolsu tolka” laikā savāktos latviešu un latgaliešu valodas runas paraugus. Paralēli tam ES finansētajā izglītības un pētniecības projektā “Valodu tehnoloģiju iniciatīva” tika izveidota tehnoloģiskā bāze valodas modeļu mašīnapmācībai.

“Pirms MI modeļa izveides latgaliešu valodai vispirms izveidojām šādu modeli latviešu valodai, jo tai ir pieejams ievērojami vairāk apmācības datu. Pēc tam izveidoto latviešu valodas modeli turpinājām apmācīt ar latgaliešu valodas datiem,” piebilst Normunds Grūzītis.

LU MII izstrādātais latgaliešu valodas runas transkribēšanas rīks LATE-LTG ir brīvi pieejams vietnē https://ltg.late.ailab.lv, savukārt apmācītais MI modelis ir pieejams ar atvērtā pirmkoda licenci, tostarp komerciālai izmantošanai. LATE platforma paver plašas pielietojuma iespējas, tostarp teksta diktēšanai, audio un video ierakstu atšifrēšanai, subtitru veidošanai, kā arī  latgaliešu rakstu valodas apguvei.

Latgaliešu un latviešu valodas MI modeļu apmācībai nepieciešamo runas korpusu izveidē un attīstībā piedalās Rēzeknes Tehnoloģiju akadēmijas, LU Matemātikas un informātikas institūta un LU Literatūras, folkloras un mākslas institūta pētnieki, savukārt Latvijas Atvērto tehnoloģiju asociācijai bijusi būtiska loma “Balsu talkas” veiksmīgā organizēšanā un īstenošanā.

Jaunākie ieraksti

  • Aicina pieteikties dalībniekus Kultūras datu vizualizācijas hakatonam
    9 jūn, 2025
  • Iznākusi raidieraksta “Digitālās humanitārās zinātnes” 10. epizode “Datorlingvistikas aizsākumi Latvijā”
    28 mai, 2025
  • Notiks seminārs “Latvijas Valsts kinofotofonodokumentu arhīva pieredze MI rīku izmantošanā: jauna pieeja vēsturisko dokumentu pieejamības veicināšanā”
    7 mai, 2025
  • 6.–7. maijā Rīgā notiks PhD Jana Hajiča lekcijas un darbnīcas “Digitālā muzikoloģija un gregorisko dziedājumu datoranalīze”
    16 apr, 2025
  • Radīts mākslīgā intelekta rīks latgaliešu valodas runas atpazīšanai un transkribēšanai
    25 mar, 2025
  • Aicinām uz semināru "Digitālo humanitāro zinātņu resursu un rīku piekļūstamība"
    24 mar, 2025
  • Iznākusi raidieraksta “Digitālās humanitārās zinātnes” 9. epizode “Valodniecība digitālajā laikmetā”
    17 mar, 2025
digitalhumanities.lv uzturēšanu atbalsta projekts "Atvērtas un FAIR principiem atbilstīgas digitālo humanitāro zinātņu ekosistēmas attīstība Latvijā" (Nr. VPP-IZM-DH-2022/1-0002)