Zdravo Matteo! Možete li nam reći o projektu impresso?
Matteo: Impresso (doslovno „ono što je tiskano”) suradnički je i interdisciplinarni istraživački projekt koji financira Švicarska nacionalna zaklada za znanost u okviru programa financiranja Sinergia. Cilj je projekta stvoriti tehnološki okvir za opsežno izdvajanje, obradu, povezivanje i istraživanje podataka iz arhiva tiskanih medija.
Projekt uključuje računalne jezikoslovce, digitalne humaniste, dizajnere, povjesničare, knjižničare i arhiviste koji se bave izazovom obogaćivanja, predstavljanja, vizualizacije i analize velikog korpusa povijesnih digitaliziranih novina u istraživačke svrhe. Partneri u ovom projektu su EPFL-ov DHLAB, Luksemburški centar za suvremenu i digitalnu povijest (C2DH) i Institut za računalnu lingvistiku Sveučilišta u Zürichu. Interdisciplinarna priroda impressa odražava se i u načelu zajedničkog osmišljavanja koje primjenjujemo tijekom cijelog projekta. Ono što u praksi znači jest da su podaci koje stvaramo i alati za rad s digitaliziranim novinama koje razvijamo oblikovani stalnim dijalogom između povjesničara, dizajnera, računalnih lingvista i digitalnih humanista.
Kad je riječ o konceptu i motivaciji impressa, DHLAB je prije toga bio uključen u istraživački projekt u koji su bile uključene švicarske novine Le Temps, čiji je cilj bio omogućiti pristup dvjema digitaliziranim novinama – Journal de Geneve i Gazette de Lausanne (koje su se 1998. spojile kako bi postale Le Temps). Ishodi ovog projekta, kao i izazovi koji su se pojavili, postavili su temelje za impresso. Ideja o stvaranju arhiva digitaliziranih novina dobro se proširila kako bi uključivala više izvora i gledala izvan nacionalnih granica. Niz susreta na konferencijama i radionicama između Mauda Ehrmanna (DHLAB), Larsa Wienekea (C2DH), Martena Düringa (C2DH) i Simona Clematidea (UZH) pomogao je ojačati i artikulirati tu ideju u ono što je postalo uspješan prijedlog za financiranje.
Kako ste se uopće uključili u projekt?
Moja kolegica i koordinatorica projekta Maud Ehrmann zamolila me da se pridružim projektu u ljeto 2017., kada je neočekivana promjena u projektnom timu otvorila mogućnost da joj još jedan postdoktorski istraživač pruži podršku u zadacima koje je DHLAB vodio. U to sam vrijeme radio na Linked Booksu, još jednom projektu koji je financirao SNF, a koji se bavio citiranjem znanstvene literature o povijesti Venecije. Rad na imenovanoj obradi entiteta i rascjepkanosti koju provodimo u impressu u središtu je mojih istraživačkih interesa. Postoji i kontinuitet s povezanim knjigama i mojim prethodnim istraživanjem o izvlačenju informacija iz velikih digitalnih arhiva u humanističkim znanostima, pri čemu su citati (i općenito imenovani entiteti) jedno od mojih glavnih područja interesa.
Koja je važnost novinskih skupova podataka za povijesna istraživanja?
Povijesne novine su neprocjenjivi primarni izvori za humanističke znanstvenike u cjelini, a ne samo povjesničare. U stvari, oni sadrže i čuvaju neku vrstu fosiliziranog traga naših sadašnjih i prošlih društava. Oni bilježe sve vrste događaja, od ratnih deklaracija do subotnjih večernjih plesnih lopti na selu, i dokumentiraju mnoge aspekte svakodnevnog života i kulture. Oni sadrže iznimno bogate i guste informacije, koje su također kontinuirane jer u mnogim slučajevima ove novine već dugo traju i objavljuju se vrlo redovito.
Ključni izazov s kojim se suočavamo u impressu je kako osmisliti alat koji pomaže istraživačima u radu s velikim arhivima digitaliziranih novina. Alat integrira tehnologije obrade prirodnog jezika (npr. obrada naziva entiteta ili modeliranje tema) kako bi se obuhvatila semantika novinskih sadržaja, kako bi ti (poboljšani) izvori bili upotrebljivi za istraživanje. Važno načelo koje slijedimo u dizajnu je transparentnost, što znači da nastojimo korisnicima učiniti eksplicitnim i vidljivim sve aspekte podataka - ili obrade koju provodimo na podacima - koji često riskiraju da ostanu skriveni u sučeljima za pretraživanje. Informacijski aspekti koje želimo učiniti transparentnijima uključuju, na primjer, kvalitetu OCR-a, kao i rupe u podacima zbog oštećenih digitalnih arhiva.
Kako se koriste impresso alati?
Unatoč činjenici da je projekt impresso još uvijek u izradi, njegov korpus i alati aktivno se koriste i za istraživanje i za podučavanje.
Estelle Bunout (C2DH), jedna od (digitalnih) povjesničara u našem projektu, radi na studiji slučaja pod nazivom „Otpor Europi” koja uključuje analizu rasprava o europskoj ideji u digitaliziranim novinama iz Luksemburga, Švicarske i šire, s ciljem utvrđivanja napetosti oko europske ideje od kraja 19. stoljeća do 1945. Istraživači iz naših pridruženih partnera, udruge Infoclio i Odjela za povijest Sveučilišta u Lausanneu pridonose promišljanju o tome kako primijeniti alate za impresso na povijesna istraživačka pitanja u kontekstu konkretnih slučajeva upotrebe.
Konačno, objavili smo Poziv za pridružene istraživače tijekom prve godine projekta kako bismo proširili krug povjesničara povezanih s projektom. Kao rezultat toga, oko 20 povjesničara uglavnom iz Beneluxa, Francuske, Njemačke i Švicarske izrazilo je interes za alate i zbirke koje je okupio impresso i uključilo se u projekt. Njihovo udruživanje ne podrazumijeva samo upotrebu rezultata projekta, već i redoviti dijalog s timom za impresso putem radionica i završne konferencije čiji je cilj prikupiti povratne informacije o njihovoj upotrebi alata za impresso i njihovim istraživanjima te raspravljati o epistemološkim pitanjima koja su postavile digitalizirane novine.
Raznolikost tema i metoda povezanih istraživača odražava privlačnost švicarskih i luksemburških (digitaliziranih) novina kao povijesnih izvora. One uključuju prosopografska istraživanja o stručnjacima i ratnim dopisnicama, kao i o „povijesti misli” kao što su uspon liberalnog internacionalizma krajem 19. stoljeća ili povijest bankarstva. Svaka od tih istraživačkih tema zahtijeva posebnu upotrebu novina, poseban način da ih se upita koji doprinosi poticanju koncepcije interakcije s kolekcijom impressa. Međutim, različite uporabe dostupne su svim istraživačima u istom sučelju, u nastojanju da se ponudi diversifikacija tih interakcija i obogate sve vrste istraživačkih praksi, uključujući i nastavne prakse, u duhu velikodušnih sučelja.
Kad je riječ o poučavanju, Martin Grandjean i Sandra Bott dio su impresso corpusa iskoristili za poučavanje predmeta Digital Humanities/Digital History, koji je dio EPFL-ova programa Društvene i humanističke znanosti. Tečaj je usmjeren na to kako su veliki događaji 20. stoljeća bili pokriveni u tisku; Digitalna arhiva novina pruža studentima bogat izvor materijala na kojem se može testirati niz digitalnih metoda i alata. Isti tečaj planiran je za sljedeću godinu i temeljit će se na impresso sučelju i alatima, što će nam omogućiti da testiramo snagu i slabosti tih alata posebno u kontekstu poučavanja (a ne istraživanja).
U okviru platforme Ranke2, koja je pripremljena u C2DH-u i nudi nastavne materijale o tome kako primijeniti digitalnu kritiku izvora, projekt impresso pridonosi pripremi modula posvećenog upotrebi digitaliziranih novina. Ovaj modul prikuplja naučene lekcije pri pripremi transparentnog sučelja, prilagođenog osnovnoškolskoj i srednjoškolskoj nastavi, donoseći najnovije trendove istraživačkih praksi u učionice.
Gdje se nalazite u projektu - i koji je sljedeći korak?
Beta verzija impresso sučelja objavljena je u svibnju 2019. Zasad je to privatno izdanje, uglavnom usmjereno na dobivanje povratnih informacija o dizajnu i funkcionalnostima sučelja od naših pridruženih povjesničara. U pogledu podataka, sučelje omogućuje pristup 22 švicarske novine za ukupno gotovo 3,2 milijuna stranica, 360.000 novinskih izdanja i više od 26 milijuna sadržaja (npr. članci, oglasi itd.), uglavnom na francuskom i njemačkom jeziku.
Što se tiče funkcionalnosti sučelja, beta izdanje sadrži sve osnovne značajke koje očekujete od sučelja novina: pretraživanje, pretraživanje lica i gledatelja koji vam omogućuje čitanje i istraživanje novinskih članaka. Osim toga, pruža neke naprednije značajke, kao što je mogućnost pretraživanja imenovanih subjekata, korištenje tematskih modela kao filtara za sužavanje rezultata pretraživanja i mogućnost da korisnik stvori i spremi zbirke predmeta. Nove funkcionalnosti koje su dodane u najnovijem izdanju uključuju prvu verziju vizualnog pretraživanja (mogućnost filtriranja svih dostupnih slika, prema datumu i novinama) i skupno preuzimanje metapodataka.
Što će se sljedeće dogoditi? U srpnju ćemo objaviti javnu verziju sučelja s novim funkcijama i novim novinskim izvorima (ponajprije digitaliziranim materijalima Luksemburške nacionalne knjižnice). Najbolji način da pratite projekt dok se nastavlja razvijati jest da se pridružite impresso mailing listi i našoj povezanoj skupini povjesničara ili nas pratite na Twitteru jer će u nadolazećim mjesecima biti nekoliko uzbudljivih novih događaja!
