Živjo Matteo! Nam lahko poveste kaj več o impresionističnem projektu?
Matteo: Impresso (dobesedno „kaj je bilo natisnjeno“) je sodelovalni in interdisciplinarni raziskovalni projekt, ki ga financira švicarska nacionalna znanstvena fundacija v okviru sheme financiranja Sinergia. Cilj projekta je ustvariti tehnološki okvir za pridobivanje, obdelavo, povezovanje in raziskovanje podatkov iz arhivov tiskanih medijev v velikem obsegu.
Projekt vključuje računalniške jezikoslovce, digitalne humaniste, oblikovalce, zgodovinarje, knjižničarje in arhiviste, ki se spopadajo z izzivom, kako obogatiti, predstaviti, vizualizirati in analizirati velik korpus zgodovinsko digitaliziranih časopisov za raziskovalne namene. Partnerji v tem projektu so DHLAB EPFL, Luksemburški center za sodobno in digitalno zgodovino (C2DH) in Inštitut za računalniško jezikoslovje Univerze v Zürichu. Interdisciplinarna narava impresiona se odraža tudi v načelu sooblikovanja, ki ga uporabljamo skozi celoten projekt. V praksi to pomeni, da podatke, ki jih ustvarjamo, in orodja za delo z digitaliziranimi časopisi, ki jih razvijamo, oblikuje stalni dialog med zgodovinarji, oblikovalci, računalniškimi jezikoslovci in digitalnimi humanisti.
Kar zadeva zasnovo in motivacijo za impresion, je DHLAB pred tem sodeloval pri raziskovalnem projektu, v katerem je sodeloval švicarski časopis Le Temps, katerega namen je bil zagotoviti dostop do dveh digitaliziranih časopisov – Journal de Geneve in Gazette de Lausanne (ki sta se leta 1998 združila v Le Temps). Rezultati tega projekta in izzivi, ki so se pojavili, so postavili temelje za vtis. Zamisel o oblikovanju arhiva digitaliziranih časopisov se je dobro obrestovala, saj je bilo vanjo vključenih več virov, poleg tega pa se je razširila tudi prek nacionalnih meja. Niz srečanj na konferencah in delavnicah med Maudom Ehrmannom (DHLAB), Larsom Wienekejem (C2DH), Martenom Düringom (C2DH) in Simonom Clematidejem (UZH) je pomagal okrepiti in artikulirati to idejo v uspešen predlog financiranja.
Kako ste se vključili v projekt?
Moj kolega in koordinator projekta Maud Ehrmann me je prosil, da se pridružim projektu poleti 2017, ko je nepričakovana sprememba v projektni skupini odprla možnost, da bi imela še enega podoktorskega raziskovalca, ki bi jo podpiral pri nalogah, ki jih je vodil DHLAB. Takrat sem delal na projektu Linked Books, še enem projektu o citacijskem rudarjenju znanstvene literature o zgodovini Benetk, ki ga je financiral sklad SNF. Delo na področju obdelave in razločevanja imenskih entitet, ki ga izvajamo v impresionu, je v središču mojih raziskovalnih interesov. Obstaja tudi kontinuiteta s povezanimi knjigami in mojimi prejšnjimi raziskavami o ekstrakciji informacij iz obsežnih digitalnih arhivov v humanistiki, pri čemer so citati (in bolj splošno imenovane entitete) eno od mojih glavnih interesnih področij.
Kakšen pomen imajo časopisni podatkovni nizi za zgodovinske raziskave?
Zgodovinski časopisi so neprecenljivi primarni viri za humanistične znanstvenike na splošno, ne le zgodovinarje. Pravzaprav vsebujejo in ohranjajo nekakšno fosilizirano sled naše sedanje in pretekle družbe. Posnamejo vse vrste dogodkov, od vojnih izjav do sobotnih večernih plesnih žog na podeželju in dokumentirajo številne vidike vsakdanjega življenja in kulture. Vsebujejo izjemno bogate in zgoščene informacije, ki so prav tako stalne, saj v mnogih primerih ti časopisi delujejo že dolgo in objavljajo zelo redno.
Ključni izziv, ki ga obravnavamo v impresionu, je, kako oblikovati orodje, ki bo raziskovalcem pomagalo pri delu z velikimi arhivi digitaliziranih časopisov. Orodje vključuje tehnologije za obdelavo naravnega jezika (npr. poimenovana obdelava entitet ali modeliranje tem) za zajemanje semantike časopisnih vsebin, da bi bili ti (okrepljeni) viri uporabni za raziskave. Pomembno načelo, ki ga upoštevamo pri njegovi zasnovi, je preglednost, kar pomeni, da si prizadevamo, da bi uporabnikom jasno in vidno prikazali vse vidike podatkov - ali obdelave, ki jo izvajamo na podatkih -, ki pogosto tvegajo, da ostanejo skriti v iskalnih vmesnikih. Informacijski vidiki, ki jih želimo narediti bolj pregledne, vključujejo na primer kakovost OCR in luknje v podatkih zaradi poškodovanih digitalnih arhivov.
Kako se uporabljajo orodja za impresioniranje?
Kljub temu, da je projekt impresso še vedno v izdelavi, se njegov korpus in orodja aktivno uporabljajo tako za raziskave kot za poučevanje.
Na področju raziskav dr. Estelle Bunout (C2DH), ena od (digitalnih) zgodovinark našega projekta, pripravlja študijo primera z naslovom „Resistance to Europe“ (Odpor proti Evropi), ki vključuje analizo razprav o evropski ideji v digitaliziranih časopisih iz Luksemburga, Švice in drugod, da bi ugotovili napetosti v zvezi z evropsko idejo od konca 19. stoletja do leta 1945. Raziskovalci iz naših pridruženih partnerjev, združenja Infoclio in oddelka za zgodovino Univerze v Lozani, prispevajo k razmisleku o tem, kako uporabiti orodja za impresioniranje pri vprašanjih zgodovinskih raziskav v okviru konkretnih primerov uporabe.
Nazadnje smo v prvem letu projekta objavili razpis za pridružene raziskovalce, da bi razširili krog zgodovinarjev, povezanih s projektom. Posledično je približno 20 zgodovinarjev, večinoma iz Beneluksa, Francije, Nemčije in Švice, izrazilo zanimanje za orodja in zbirke, ki jih je združil impresion, in so se vključili v projekt. Njihovo povezovanje ne vključuje le uporabe rezultatov projekta, temveč tudi reden dialog z ekipo za vtise, in sicer z delavnicami in zaključno konferenco, namenjeno zbiranju povratnih informacij o njihovi uporabi orodij za vtise in njihovih raziskavah ter razpravi o epistemoloških vprašanjih, ki jih izpostavijo digitalizirani časopisi.
Raznolikost tem in metod povezanih raziskovalcev odraža privlačnost švicarskih in luksemburških (digitaliziranih) časopisov kot zgodovinskih virov. Vključujejo prozopografske raziskave o strokovnjakih in dopisnicah za vojne ter o „zgodovini misli“, kot je vzpon liberalnega internacionalizma ob koncu 19. stoletja ali bančna zgodovina. Vsaka od teh raziskovalnih tem zahteva posebno uporabo časopisov, poseben način za njihovo poizvedovanje, ki prispeva k zasnovi interakcije z zbirko impresionov. Različne uporabe pa so na voljo vsem raziskovalcem na istem vmesniku, da bi ponudili diverzifikacijo teh interakcij in obogatili vse vrste raziskovalnih praks, vključno s praksami poučevanja, v duhu velikodušnih vmesnikov.
Kar zadeva poučevanje, Martin Grandjean in Sandra Bott uporabljata del korpusa impresso pri poučevanju tečaja digitalne humanistike/digitalne zgodovine, ki je del programa EPFL za družbene in človeške vede. Predmet se osredotoča na to, kako so bili veliki dogodki 20. stoletja zajeti v tisku; digitalni arhivi časopisov študentom zagotavljajo bogat vir gradiva, na katerem je mogoče preizkusiti vrsto digitalnih metod in orodij. Isti tečaj je načrtovan za naslednje leto in bo temeljil na vmesniku in orodjih za impresioniranje, kar nam bo omogočilo, da preizkusimo moč in slabosti teh orodij posebej v učnem (in ne raziskovalnem) kontekstu.
V okviru projekta Ranke2, platforme, pripravljene na C2DH, ki ponuja učno gradivo o tem, kako vaditi kritiko digitalnih virov, projekt impresso prispeva k pripravi modula, namenjenega uporabi digitaliziranih časopisov. Ta modul zbira pridobljene izkušnje s pripravo preglednega vmesnika, prilagojenega dodiplomskemu in srednješolskemu poučevanju, ki v učilnice prinaša najnovejše trende raziskovalnih praks.
Kje se nahajate v projektu - in kaj je naslednji korak?
Beta različica vmesnika impresso je bila izdana maja 2019. Za zdaj je to zasebna izdaja, namenjena predvsem pridobivanju povratnih informacij o zasnovi vmesnika in funkcijah od naših povezanih zgodovinarjev. Kar zadeva podatke, vmesnik omogoča dostop do 22 švicarskih časopisov za skupno skoraj 3,2 milijona strani, 360 000 časopisnih izdaj in več kot 26 milijonov vsebinskih elementov (npr. člankov, oglasov itd.), večinoma v francoščini in nemščini.
Kar se tiče funkcionalnosti vmesnika, beta izdaja vsebuje vse osnovne funkcije, ki jih pričakujete od časopisnega vmesnika: iskanje, iskanje faset in gledalec, ki vam omogoča branje in raziskovanje časopisnih člankov. Poleg tega ponuja nekatere naprednejše funkcije, kot so možnost iskanja po imenovanih entitetah, uporaba tematskih modelov kot filtrov za zožitev rezultatov iskanja in možnost, da uporabnik ustvari in shrani zbirke elementov. Nove funkcije, ki so bile dodane v zadnji izdaji, vključujejo prvo različico vizualnega iskanja (zmožnost filtriranja vseh razpoložljivih slik po datumu in časopisu) in masovni prenos metapodatkov.
Kaj se bo zgodilo potem? Julija bomo objavili javno različico vmesnika z novimi funkcijami in novimi časopisnimi viri (zlasti digitalizirano gradivo luksemburške nacionalne knjižnice). Najboljši način za spremljanje projekta, ki se še naprej razvija, je, da se pridružite poštnemu seznamu impresionistov – in naši povezani skupini zgodovinarjev – ali nam sledite na Twitterju, saj bo v prihodnjih mesecih prišlo do nekaj vznemirljivih novosti!
