Pāriet uz galveno saturu
  • LV
  • ENG
DIGITĀLĀS HUMANITĀRĀS ZINĀTNES LATVIJĀ
  • sākums
  • notikumi
  • institūcijas
    • Latvijas Nacionālā bibliotēka
    • LU Literatūras, folkloras un mākslas institūts
    • LU Lībiešu institūts
    • LU MII Mākslīgā intelekta laboratorija
    • Rēzeknes Tehnoloģiju akadēmija
    • Rīgas Tehniskā universitāte
    • Tilde
  • resursi
    • resursi un rīki
    • video
  • Semināri
  • Baltijas DH forums
  • BSSDH
  • Projekti
    • DHELI
    • VPP LATE
    • VTI
    • DH VPP
    • Nordplus
  • info

Nacionālā korpusu kolekcija – ikvienam pieejami lielie valodas dati tiešsaistē

10. februāris, 2023 pl. 11:45, Nav komentāru

Apkopojot vairāk nekā 10 iestāžu izstrādātos latviešu valodas korpusus, izveidota Nacionālā korpusu kolekcija (NKK) ar vienotu meklēšanas sistēmu, kas pieejama platformā Korpuss.lv.

Valodas korpuss ir strukturēts rakstītu tekstu, transkribētu runas vai video ierakstu kopums, kas paredzēts lingvistiskai analīzei un valodas tehnoloģiju izstrādei. Bez šādiem jau iepriekš apkopotiem lieliem valodas resursiem mūsdienās vairs nav iedomājamas studijas un pētniecība digitālajās humanitārajās un sociālajās zinātnēs. Turklāt šādi apjomīgi un daudzveidīgi korpusi tiek izmantoti mākslīgā intelekta modeļu apmācībai. Arī pēdējos mēnešos popularitāti ieguvušais ChatGPT ir apmācīts, izmantojot ļoti lielu daudzvalodu tekstu korpusu, un ilustrē valodas korpusu lielo nozīmi – jo kvalitatīvāks korpuss, jo kvalitatīvākas virtuālā sarunu biedra atbildes.

Latviešu valodai dažādās institūcijās ir izstrādāti daudzi valodas korpusi, taču līdz šim nebija pieejama vienota korpusu platforma un meklēšanas sistēma. Šobrīd, apkopojot vairāk nekā 10 iestāžu izstrādātos latviešu valodas korpusus, izveidota Nacionālā korpusu kolekcija (NKK) ar vienotu meklēšanas sistēmu, kas pieejama platformā Korpuss.lv.

Šobrīd Korpuss.lv piedāvā meklēšanu jau 27 NKK korpusos vienlaikus. Kopējais NKK apjoms pārsniedz divus miljardus vārdu un turpina pieaugt. Šāds reprezentatīvu datu apjoms ir ļoti noderīgs ne vien lingvistiskai analīzei, bet arī valodas modelēšanai ar mašīnmācīšanos un dziļajiem neironu tīkliem.


Lai lietotāji varētu efektīvi strādāt ar daudzajiem NKK korpusiem un atrastu tajos nepieciešamos valodas lietojuma piemērus, aprēķinātu to biežumu un iegūtu citu informāciju, Korpuss.lv ir izveidota decentralizēta vienotās meklēšanas sistēma. Tas ļauj vienu vaicājumu izpildīt visos NKK korpusos vienlaikus. Piemēram, vaicājumam sirds* tiek atrasti 517 597 pieminējumi 27 no 27 korpusiem – vārds sirds dažādos locījumos un atvasinājumi ar sirds- (sirdi, sirdij, sirdsapziņa, sirdslieta, sirdspuksts, sirdsmīļš, sirdsdraugs, sirdsmiers u. tml.). Atrastos vārdus, to kontekstu un avotus tālāk var aplūkot konkrētajos korpusos.

Vairums NKK korpusu ir automātiski gramatiski marķēti, izmantojot LU Matemātikas un informātikas institūta (LU MII) Mākslīgā intelekta laboratorijā izstrādāto latviešu valodas automātiskās analīzes rīkkopu LV-PIPE. Tas nozīmē, ka katram vārdam tekstā ir pievienota informācija par tā morfoloģiju, piemēram, vārdam sirdsdraudzenes tiek noteikta pamatforma un ar virkni ncfpn5 tiek norādīts, ka tas ir lietvārds (n), sugasvārds (c) sieviešu dzimtes (f) daudzskaitļa (p) nominatīvā (n) un pieder pie 5. deklinācijas (5).


Lielu daļu NKK korpusu ir izstrādājis LU MII, sadarbojoties ar citām pētniecības iestādēm un uzņēmumiem, piemēram, Rēzeknes Tehnoloģiju akadēmiju, Rīgas Stradiņa universitāti, Latvijas Universitāti, LETA un Rīgas Austrumu klīnisko universitātes slimnīcu. NKK pieejami arī LU Literatūras, folkloras un mākslas institūta un Latvijas Nacionālās bibliotēkas izveidotie korpusi.

Darbs pie NKK izveides noticis vairāku gadu garumā ar Latviešu valodas aģentūras, VPP “Humanitāro zinātņu digitālie resursi” un ERAF programmu “Praktiskas ievirzes pētījumi” atbalstu un turpinās VPP projektos “Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība” un “Atvērtas un FAIR principiem atbilstīgas digitālo humanitāro zinātņu ekosistēmas attīstība Latvijā”. NKK platformas un korpusu datu ilgtermiņa uzturēšanu un starptautisku pieejamību nodrošina Eiropas vienotās valodas resursu un tehnoloģiju infrastruktūras mezgls CLARIN-LV.

Nav komentāru

Komentēt







Jaunākie ieraksti

  • Notiks seminārs “Latvijas Valsts kinofotofonodokumentu arhīva pieredze MI rīku izmantošanā: jauna pieeja vēsturisko dokumentu pieejamības veicināšanā”
    7 mai, 2025
  • 6.–7. maijā Rīgā notiks PhD Jana Hajiča lekcijas un darbnīcas “Digitālā muzikoloģija un gregorisko dziedājumu datoranalīze”
    16 apr, 2025
  • Radīts mākslīgā intelekta rīks latgaliešu valodas runas atpazīšanai un transkribēšanai
    25 mar, 2025
  • Aicinām uz semināru "Digitālo humanitāro zinātņu resursu un rīku piekļūstamība"
    24 mar, 2025
  • Iznākusi raidieraksta “Digitālās humanitārās zinātnes” 9. epizode “Valodniecība digitālajā laikmetā”
    17 mar, 2025
  • Atskats uz DHNB2025 konferenci Tartu
    10 mar, 2025
  • Aicinām pieteikties 7. Baltijas digitālo humanitāro zinātņu vasaras skolai
    4 mar, 2025
digitalhumanities.lv uzturēšanu atbalsta projekts "Atvērtas un FAIR principiem atbilstīgas digitālo humanitāro zinātņu ekosistēmas attīstība Latvijā" (Nr. VPP-IZM-DH-2022/1-0002)