#DHEstonia: atskats uz 6. Igaunijas digitālo humanitāro zinātņu konference Tartu
Jānis Daugavietis, LFMI Digital pētnieks
No 2018. gada 26. līdz 28. septembrim norisinājās sestā
Igaunijas digitālo humanitāro zinātņu konference "Data, humanities & language: tools
& applications" (Dati, humanitārās un valodas zinātnes:
instrumenti un pielietojums). Tās galvenais rīkotājs bija Tartu Universitātes
Digitālo humanitāro zinātņu un informācijas sabiedrības centrs (the
Centre for Digital Humanities and Information Society at University of Tartu).
Šajā konferencē piedalījos kā LU Literatūras, folkloras un mākslas institūta
pārstāvis, nolasot referātu "Motivation to engage in creative
crowdsourcing: case of campaign "Recite Veidenbaums’ Poetry!""
(Motivācija iesaistīties radošajā kopradē: kampaņas "Skandē
Veidenbaumu!" gadījums).
Šī bija viena no labākajām DH konferencēm, kuru esmu apmeklējis, ja ne labākā, tāpēc vēlos dalīties iespaidos par to, kas man šķita labākais un interesantākais.
Pirmkārt, man radās iespaids, ka vairums referētāju ir spēcīgi matemātiskajās metodēs un programmēšanā, kas radīja iespaidu, ka jau par normu sāk uzskatīt to, ka DH pētnieks pats spēj lietot vismaz pāris programmēšanas valodas vai modificējamus analīzes rīkus. Otrkārt, šķiet, ka pētnieki pamatā izmanto jau gatavus brīvpieejas un atvērtā koda instrumentus, protams, tos pārveidojot savām vajadzībām, nevis katrreiz programmē visu no jauna (algojot programmētājus). Treškārt, datu analīzē dominē bottom-up jeb data driven pieeja. Praksē tas parasti nenozīmē to, ka teorijas, jo īpaši ‘vecās’, netiek izmantotas, bet gan drīzāk to, ka lielāka autoritāte tiek piešķirta tekstam (lieliem korpusiem), un to prasmīgai mašīnanalīzei. Kopumā var teikt, ka šajā konferencē dominēja kvantitatīvā teksta analīzes pieeja. Turpmāk īsi par vairākiem referātiem, kas man šķita vērtīgākie.
Introducing 'Elias Lönnrot Letters Online' [Tarja-Liisa Luukkanen, Maria Niku (Finnish Literature Society)]. Referāts par Lenrūta ~2500 rakstīto un xxxx saņemto vēstuļu brīvpieejas datu bāzi (http://lonnrot.finlit.fi/omeka/?language=en), kas veidota, izmantojot atvērtā koda publicēšanas platformu OMEKA (https://omeka.org) un TEI (The Text Encoding Initiative – http://www.tei-c.org).
Hydra: Integrated Tagger-Lemmatiser with Deep Learning and Parallel Computing [Łukasz Gągała (University of Göttingen)]. Veco (premodern) dažādu valodu un dialektu tekstu atpazīšanas dažādi varianti un pieejas. Autors piedāvā savu programmu – HYDRA (https://github.com/lukasz-g/hydra).
Something about the weather. Daily forecasts and the Dutch image of Europe [Keynote lecture: Joris van Eijnatten (Utrecht University)]. Pētnieciskais jautājums: kāds Eiropas tēls ir nīderlandiešu galvās? Autors pārstāv digitālās vēstures disciplīnu un sevi raksturo kā vēsturnieku, kas mēģina studentiem iemācīt DH. Šī pētījuma datu avots ir Delpher (nacionālais vēsturiskās periodikas, grāmatu, žurnālu radiopārraižu utt. brīvpieejas arhīvs – https://www.delpher.nl), faktiski – ‘big data’. Pieeja: ‘data driven’, nevis ‘top-down’ (‘model driven’). Teorija no annāļu skolas, ‘collective mentalities’ problemātika. Pieņēmums – ikdienā un ilgā laikā atkārtota informācija veido mūsu priekštatus arī par tādām lietām un fenomeniem, par kuriem mums nav nepastarpinātas pieredzes. Tāpēc pētnieks izvēlējās analizēt arī Nīderlandes laikrakstos publicētās laika ziņas (no 19. gs. otrās puses līdz mūsdienām), un specifiski – pasaules un Eiropas kartes. Kāpēc? Jo tās ir ikdienišķas, regulāras, atkārtojas, diahroniskas. Tēze: ja cilvēki ikdienā redz šīs laika kartes, tad tāds arī viņiem iesakņojās pasaules tēls. Karšu datu agregācijas un attēlošanas rīks tika programmēts ar Python. Secinājums: kartēs dominē tie reģioni un valstis, neņemot vērā Nīderlandi, no kurienes ierodas atmosfēras parādības (piem., Francija), kas ietekmē pašmājas. Vēlāk, sākot ar 1950-iem gadiem, laika prognožu kartēs arvien biežāk parādās arī daži tūrisma galamērķi – Spānija, Grieķija u.c. Savukārt Lielbritānijas laika ziņās un kartēs dominējot pašmājas un Īrija, jo tikai šie reģioni nosakot viņu laikapstākļus, un varbūt tāpēc britiem esot niecīga nojausma par jebko ārpus Britu salām.
Contemporary tools for analyzing archaic variation: creating a corpus of 19th century Estonian communal court minute books [Gerth Jaanimäe, Liina Lindström, Kersti Lust, Kadri Muischnek, Siim Orasmaa, Maarja-Liisa Pilvik (University of Tartu, The National Archives of Estonia)]. Multidisciplināra pētnieku grupa, kas automatizēti veic lingvistisku Igaunijas 1866–90.g. mašīnlasāmā tekstā pārvērstu pagasttiesu grāmatas (‘communal court minute books’) korpusu analīzi (‘automatic morphological analysis’). Kā rīkus izmanto EstNLTK (Open source tools for Estonian natural language processing) Python bibliotēku. Tehniski darbs notiek salīdzinot šo grāmatu korpusus ar modernās igauņu valodas korpusu (igauņiem ir brīvi pieejams šāds kopums). Galvenās problēmas – vārdu formu maiņas un dialekti, kā arī vietvārdu un īpašvārdu atpazīšana. Pēdējam jau ir izveidots rīks iekš EstNLTK – ‘Named entity recognition’ – īpašvārdu (vārdu, uzvārdu, vietvārdu, organizāciju nosaukumu) atpazīšana tekstā.
Integrating databases to study language history [Peeter Tinits (University of Tallinn)]. Faktiski autors gājis šo pašu ceļu un pieeju (‘data driven’) – iegūstot lielas igauņu valodas korpusus, analizējot kā un kāpēc mainās valoda (‘historical sociolinguistic approach’), salīdzinātas vairāku vārdu divas formas, kuras laika gaitā nomainījušas viena otru. Galvenais pētījuma laika posms – igauņu rakstnieku kopienas veidošanās (1880–1920). Analizētais pamata korpuss – 1880.–1940. gadu grāmatas. Salīdzinot līdz 1870. g. sarakstīto ar modernās valodas kopumu, programma atpazīst mazāk nekā pusi vārdu (izmantoti EstNLTK rīki.). Viena no problēmām – slikta OCR kvalitāte (igauņi digitalizāciju sākuši salīdzinoši sen, kad teksta atpazīšanas tehnoloģijas vēl nebija tik labi attīstītas). Papildus tam pētnieks grāmatu korpusam pievienoja dažādus metadatus, piem., rakstnieku biogrāfijas. Tas, cita starpā, ļāva uztaisīt jauku animāciju ar autoru dzīves gaitām (sk. attēlu zemāk). Korpuss tika savienots arī ar dialektu karti. Analizējot vārdu formu izmaiņas laikā, autors salīdzināja sekundāro avotu secinājumus ar saviem ‘bottom-up’ analīzes rezultātiem. Dažreiz atklājās pretrunas. Vēl referētājs veica interesantu eksperimentu, autorus dalot pilsētniekos un lauciniekos, jaunajos un vecajos utt., un skatījās, kuru rakstnieku grupu vārdu formu lietojums ‘uzvar’ laikā. Viens no secinājumiem – pat viens autors spēj izmainīt valodu.
Attēli. Fragmenti no Peeter Tinits veidotās igauņu rakstnieku dzīves gaitu animācijas: 1859. un 1923. gadu ainas. Redzams, gan rakstnieku skaita pieaugums, gan to ģeogrāfiskā koncentrēšanās divos lielos punktos – Tallinā un Tartu.
Suitable methods in network science for dealing with archaeological data [Maarja Olli (University of Tartu)]. Arheoloģe kvantitatīvi salīdzināja Igaunijas un Ziemeļ-Austrum-Latvijas pirmo gadsimtu akmens (?) kapus, izmantojot tīklu teoriju un metodes, skatoties to līdzību (vai atšķirību) pēc noteiktām pazīmēm, izmantojot vismaz trīs dažādas tīklu metrikas.
Gamification of history: explaining Soviet culture through digital formats [Alexandra Milyakina (University of Tartu)]. Semiotiķu u. c. pētnieku un studentu grupa veido interneta projektus, kas domāti kā palīglīdzeklis Igaunijas vēstures mācīšanai skolēniem. Galvenā metode – spēlēšanās (gamification). Tiek veidoti dažādi interaktīvi uzdevumi: testi (dažbrīd arī provokatīvi vai nebēdnīgi); laikrindas (skolēniem jāsavieno dažādas desmitgades ar noteiktiem mākslas darbiem); multimediāli uzdevumi (piem., terminu tulkošana ar emoticons palīdzību); radoši uzdevumi (kolāžas, bildes, arī kolektīva sadarbība) utt. Projekts ‘History on screen’ (https://haridusekraanil.ee, drīz būšot gatavs, trīs valodās – EE, RU, EN). Viens apakšprojekts bija veltīts filmai ‘November’ un igauņu etnogrāfiskajam tēlam Kratt.
Retrospective visualization of key landmarks of St. Petersburg based on a big corpora analysis [Antonina Puchkovskaia (ITMO University, St. Petersburg)]. Kā karti izmantojot Open Street Maps, pētnieku grupa veido savu atvērtā koda aplikāciju, kurā pilsētas kartē tiks attēloti nozīmīgi kultūras vēstures notikumi, personības, celtnes, vietas utt., protams, tos sasaitējot ar avotiem bibliotēkās, katalogos, brīvpieejas bāzēs. Multidisciplinārs projekts, kurā sadarbojas bibliotekāri, vēsturnieki, kulturologi, IT speciālisti u.c. Svarīgākais neesot vis kartēšana, bet gan saišu radīšana (un attēlošana) starp dažādiem objektiem.
Database “Tartu in fiction” and the mobile application “TartuFic” [Ülo Treikelder]. Faktiski līdzīgs projekts, ko veido Tartu pilsētas bibliotekāri (https://teele.luts.ee). Ar karti un pilsētas cilvēkiem sasaistot 1004 autoru rakstīto par Tartu (pamatā tā ir daiļliteratūra, bet ne tikai). Paralēli veidotas norādes un saites uz šiem tekstiem bibliotēkās. Bezmaksas aplikācija. Virsmērķis – popularizēt lasīšanu, ievilinot un pavedinot. Par līdzīgiem projektiem stāstīja vēl divi referāti. Dorpat on the map: virtual city map “Saksa Tartu/Deutsches Dorpat” of (Baltic) German texts of Tartu [Reet Bender & Kadi Kähär-Peterson (University of Tartu).]. Te fokusā vācbaltu teksti, kuros minēta Tartu. Aplikācija igauņu un vācu valodās. Literary Tallinn as a virtual landscape [Maarja Vaino (Tallinn Literary Center)]. Sāk veidot karti un aplikāciju par Tallinu, kāda tā atklājas daiļliteratūrā.
Digital humanities first year in Tallinn University (short presentation) [Annika Loor, Kaisa Norak, Jaagup Kippar (U of Tallinn)]. Jaunas (?) DH bakalaura programmas studentes stāstīja par savu mācību pieredzi. Programmā ietilpstot vairāku programmēšanas valodu/ rīku apguve (Shell, Regex, Python, SQL, R, Git u.c.), kā arī apmācība darbam ar vairākām specifiskām programmām un datu bāzēm (Microsoft Azure Machine Learning Studio, Microsoft PowerBI, Estonian FIlm DB, DataCamp course u.c.).
7 years of crowdsourcing geodata for historic images – the experience of Ajapaik [Vahur Puik (MTÜ Eesti Fotopärand)]. Foto biedrības projekts (https://ajapaik.ee), kura ideja ir ar koprades (crowdsourcing) palīdzību aprakstīt no dažādiem avotiem (gan valsts arhīviem un muzejiem, gan no privātpersonām) ievākto fotogrāfiju korpusu, primāri – attēla uzņemšanas vietu. Šobrīd tiek pilnveidots sociālās validācijas rīks, kā arī uzsāktas citas aktivitātes, piem., pārfotografēšana (‘rephotography’). Atsaucība esot laba, jo pieaugot lietotāju apetīte līdzdarboties.
Corpus Query Tutorial based on KORP corpus tool [Olga
Gerassimenko, Neeme Kahusk, Kadri Vider]. Tā bija darba grupa, kurā demonstrēja
igauņu valodas deviņu korpusu apvienoto datu bāzi KORP (https://korp.keeleressursid.ee).
Korpusi ir samērā atšķirīgi (vecā un modernā valoda, sarunvaloda, dialekti
u.c.), iegūti dažādos veidos, ieskaitot ‘skrāpēšanu’. KORP ir atvērtā koda
atbilstības (konkordances) meklēšanas rīks, ko izstrādāja Språkbanken (The
Swedish Language Bank) vajadzībām. Šobrīd šis rīks pielāgots un pielādēts
arī ar somu, norvēģu un igauņu valodas korpusiem.
LFMI Digital pētnieks Jānis Daugavietis
2018. gada 30. septembrī
p.s. Konferencē biju vienīgais Latvijas pārstāvis, no Lietuvas neviena nebija. Nākamajā dienā tur pat sākās salīdzinoši radniecīga konference – BALTIC HLT 2018 (The 8th Conference Human Language Technologies – The Baltic Perspective). Tajā referēja 11 Latvijas pārstāvji, pārsvarā matemātiķi un programmētāji no LU Mākslīgā intelekta laboratorijas un Tildes.
p.p.s.
Nīderlandes profesors Joris van Eijnatten ieminējās par savas universitātes
organizēto ADHO ikgadējo konferenci 2019. gada jūlijā. CFP publicēts 1. oktobrī. Sekojiet atslēgvārdiem
‘Utrecht 2019 DH’!
Dalība konferencē notika LU LFMI īstenotā ES ERAF projekta "Stiprinot zināšanu sabiedrību: starpdisciplināras pieejas sabiedrības iesaistei digitālā kultūras mantojuma radīšanā" (Nr. 1.1.1.1/16/A/040) ietvaros.