Ahoj Matteo! Môžete nám povedať niečo o projekte impresso?
Matteo: Impresso (doslova „čo bolo vytlačené“) je spoločný a interdisciplinárny výskumný projekt financovaný Švajčiarskou národnou nadáciou pre vedu v rámci systému financovania Sinergia. Cieľom projektu je vytvoriť technologický rámec na extrakciu, spracovanie, prepojenie a preskúmanie údajov z archívov tlačových médií vo veľkom rozsahu.
Projekt zahŕňa počítačových lingvistov, digitálnych humanistov, dizajnérov, historikov, knihovníkov a archivárov, ktorí riešia výzvu, ako obohatiť, reprezentovať, vizualizovať a analyzovať veľký súbor historických digitalizovaných novín na výskumné účely. Partnermi tohto projektu sú DHLAB EPFL, Luxemburské centrum pre súčasnú a digitálnu históriu (C2DH) a Ústav výpočtovej lingvistiky na univerzite v Zürichu. Interdisciplinárny charakter impressa sa odráža aj v princípe co-designu, ktorý uplatňujeme počas celého projektu. V praxi to znamená, že údaje, ktoré vytvárame, a nástroje na prácu s digitalizovanými novinami, ktoré vyvíjame, sú formované neustálym dialógom medzi historikmi, dizajnérmi, počítačovými lingvistami a digitálnymi humanistami.
Pokiaľ ide o koncepciu a motiváciu impressa, DHLAB bol predtým zapojený do výskumného projektu švajčiarskych novín Le Temps, ktorého cieľom bolo poskytnúť prístup k dvom digitalizovaným novinám – Journal de Geneve a Gazette de Lausanne (ktoré sa zlúčili v roku 1998 a stali sa Le Temps). Výsledky tohto projektu, ako aj výzvy, ktoré sa objavili, položili základy pre dojem. Myšlienka vytvorenia archívu digitalizovaných novín sa dala dobre rozšíriť tak, aby zahŕňala viac zdrojov, ako aj pozrieť sa za hranice jednotlivých štátov. Séria stretnutí na konferenciách a workshopoch medzi Maudom Ehrmannom (DHLAB), Larsom Wienekeom (C2DH), Martenom Düringom (C2DH) a Simonom Clematideom (UZH) pomohla posilniť a vyjadriť túto myšlienku v tom, čo sa stalo úspešným návrhom financovania.
Ako ste sa zapojili do projektu?
Môj kolega a koordinátor projektu Maud Ehrmann ma požiadal, aby som sa pripojil k projektu v lete 2017, keď nečakaná zmena v projektovom tíme otvorila možnosť mať ďalšiu postdoktorandskú výskumníčku, ktorá by ju podporila v úlohách, ktoré DHLAB vedie. V tom čase som pracoval na Linked Books, ďalšom projekte financovanom SNF o citačnej ťažbe vedeckej literatúry o histórii Benátok. Práca na spracovaní a rozlišovaní pomenovaných entít, ktorú vykonávame v impresso, je jadrom mojich výskumných záujmov. Existuje tiež kontinuita s Linked Books a mojím predchádzajúcim výskumom extrakcie informácií z rozsiahlych digitálnych archívov v humanitných vedách, pričom citácie (a všeobecnejšie pomenované subjekty) sú jednou z mojich hlavných oblastí záujmu.
Aký je význam dátových súborov novín pre historický výskum?
Historické noviny sú neoceniteľným primárnym zdrojom pre humanitných učencov vo všeobecnosti, nielen pre historikov. V skutočnosti obsahujú a zachovávajú akúsi fosílnu stopu našich súčasných a minulých spoločností. Zaznamenávajú všetky druhy udalostí, od vojnových vyhlásení až po sobotňajšie večerné tanečné plesy na vidieku a dokumentujú mnohé aspekty každodenného života a kultúry. Obsahujú mimoriadne bohaté a husté informácie, ktoré sú tiež nepretržité, pretože v mnohých prípadoch tieto noviny fungujú už dlho a vydávajú sa veľmi pravidelne.
Kľúčovou výzvou, ktorú riešime v imprese, je spôsob, ako navrhnúť nástroj, ktorý podporuje výskumných pracovníkov pri práci s veľkými archívmi digitalizovaných novín. Nástroj integruje technológie spracovania prirodzeného jazyka (napr. spracovanie pomenovaného subjektu alebo modelovanie témy) s cieľom zachytiť sémantiku obsahu novín, aby sa tieto (rozšírené) zdroje dali použiť na výskum. Dôležitým princípom, ktorý dodržiavame v jeho návrhu, je transparentnosť, čo znamená, že sa snažíme explicitne a zviditeľniť pre používateľov všetky aspekty údajov - alebo spracovania údajov, ktoré vykonávame -, ktoré často riskujú, že zostanú skryté vo vyhľadávacích rozhraniach. Informačné aspekty, ktoré chceme sprehľadniť, zahŕňajú napríklad kvalitu OCR, ako aj diery v údajoch spôsobené poškodenými digitálnymi archívmi.
Ako sa používajú nástroje Impresso?
Napriek tomu, že projekt impresso je stále vo výrobe, jeho korpus a nástroje sa aktívne využívajú na výskum aj výučbu.
Pokiaľ ide o výskum, Dr. Estelle Bunout (C2DH) – jedna z (digitálnych) historikov v našom projekte – pracuje na prípadovej štúdii s názvom Odpor voči Európe, ktorá zahŕňa analýzu diskusií o európskej myšlienke v digitalizovaných novinách z Luxemburska, Švajčiarska a ďalších krajín s cieľom identifikovať napätie okolo európskej myšlienky od konca 19. storočia do roku 1945. Výskumní pracovníci z našich pridružených partnerov, združenia Infoclio a katedry histórie Univerzity v Lausanne prispievajú k úvahám o tom, ako uplatňovať impreso nástroje na otázky historického výskumu v súvislosti s konkrétnymi prípadmi použitia.
Nakoniec sme počas prvého roka projektu vydali výzvu pre pridružených výskumných pracovníkov s cieľom rozšíriť okruh historikov pridružených k projektu. V dôsledku toho približne 20 historikov najmä z Beneluxu, Francúzska, Nemecka a Švajčiarska vyjadrilo záujem o nástroje aj zbierky, ktoré zostavila spoločnosť impresso, a zapojili sa do projektu. Ich pridruženie zahŕňa nielen využívanie výstupov projektu, ale aj pravidelný dialóg s tímom impresso prostredníctvom seminárov a záverečnej konferencie, ktorých cieľom je získať spätnú väzbu o ich používaní nástrojov impresso a ich výskume a diskutovať o epistemologických otázkach nastolených digitalizovanými novinami.
Rozmanitosť tém a metód pridružených výskumných pracovníkov odráža príťažlivosť švajčiarskych a luxemburských (digitalizovaných) novín ako historických zdrojov. Zahŕňajú prosopografický výskum odborníkov a vojnových korešpondentiek, ako aj „históriu myšlienok“, ako napríklad vzostup liberálneho internacionalizmu na konci 19. storočia alebo bankovú históriu. Každá z týchto výskumných tém si vyžaduje osobitné použitie novín, konkrétny spôsob ich dotazovania, ktorý prispieva k rozvoju koncepcie interakcie so zbierkou impresso. Rôznorodé využitie je však k dispozícii pre všetkých výskumníkov v rovnakom rozhraní, v snahe ponúknuť diverzifikáciu týchto interakcií a obohatiť každý typ výskumnej praxe, vrátane vyučovacích postupov, v duchu veľkorysých rozhraní.
Pokiaľ ide o výučbu, Martin Grandjean a Sandra Bott využívajú časť impresso corpus pri výučbe kurzu digitálnych humanitných vied/digitálnej histórie, ktorý je súčasťou programu EPFL v oblasti sociálnych a humanitných vied. Kurz sa zameriava na to, ako boli veľké udalosti 20. storočia pokryté v tlači; digitálne archívy novín poskytujú študentom bohatý zdroj materiálov, na ktorých možno testovať celý rad digitálnych metód a nástrojov. Rovnaký kurz je naplánovaný na budúci rok a bude založený na rozhraní a nástrojoch impresso, čo nám umožní otestovať silu a slabé stránky týchto nástrojov konkrétne v kontexte výučby (a nie výskumu).
V rámci Ranke2, platformy pripravenej na C2DH, ktorá ponúka učebné materiály o tom, ako praktizovať kritiku digitálneho zdroja, projekt impresso prispieva k príprave modulu venovaného používaniu digitalizovaných novín. Tento modul využíva získané poznatky pri príprave transparentného rozhrania prispôsobeného bakalárskemu stupňu a stredoškolskej výučbe, čím prináša do tried najnovšie trendy výskumných postupov.
Kde sa v projekte nachádzate - a aký je ďalší krok?
Beta verzia rozhrania impresso bola vydaná v máji 2019. Zatiaľ ide o súkromnú verziu, ktorá je zameraná najmä na získanie spätnej väzby o návrhu rozhrania a funkciách od našich pridružených historikov. Pokiaľ ide o údaje, rozhranie umožňuje prístup k 22 švajčiarskym novinám na celkovo takmer 3,2 milióna strán, 360 000 vydaní novín a viac ako 26 miliónov obsahových položiek (napr. články, reklamy atď.), väčšinou vo francúzštine a nemčine.
Pokiaľ ide o funkcie rozhrania, beta verzia obsahuje všetky základné funkcie, ktoré očakávate od rozhrania novín: vyhľadávanie, vyhľadávanie aspektov a diváka, ktorý vám umožní čítať a skúmať novinové články. Okrem toho poskytuje niektoré pokročilejšie funkcie, ako napríklad možnosť vyhľadávať pomenované entity, používať modely tém ako filtre na zúženie výsledkov vyhľadávania a možnosť pre používateľa vytvárať a ukladať zbierky položiek. Nové funkcie, ktoré boli pridané v najnovšom vydaní, zahŕňajú prvú verziu vizuálneho vyhľadávania (schopnosť filtrovať všetky dostupné obrázky, podľa dátumu a novín) a hromadné sťahovanie metaúdajov.
Čo sa bude diať ďalej? V júli zverejníme verejnú verziu rozhrania s novými funkciami, ako aj nové zdroje novín (najmä digitalizované materiály Luxemburskej národnej knižnice). Najlepší spôsob, ako sledovať projekt počas jeho ďalšieho vývoja, je pripojiť sa k zoznamu adresátov impresso – a k našej pridruženej skupine historikov – alebo nás sledovať na Twitteri, keďže v nadchádzajúcich mesiacoch dôjde k niekoľkým vzrušujúcim novým udalostiam!
