Hej Matteo! Kan du fortælle os om impresso-projektet?
Matteo: Impresso (bogstaveligt talt "hvad der er blevet trykt") er et samarbejdsbaseret og tværfagligt forskningsprojekt, der finansieres af Swiss National Science Foundation under Sinergia-finansieringsordningen. Projektets mål er at skabe en teknologisk ramme for at udtrække, behandle, sammenkæde og undersøge data fra trykte mediearkiver i stor skala.
Projektet involverer datalingvister, digitale humanister, designere, historikere, bibliotekarer og arkivarer, der tager fat på udfordringen med at berige, repræsentere, visualisere og analysere et stort korpus af historiske digitaliserede aviser til forskningsformål. Partnerne i dette projekt er EPFL's DHLAB, Luxembourg Center for Contemporary and Digital History (C2DH) og Institute of Computational Linguistics ved Zürich Universitet . Den tværfaglige karakter af impresso afspejles også i princippet om co-design, som vi anvender i hele projektet. Det betyder i praksis, at de data, vi skaber, og værktøjerne til at arbejde med digitaliserede aviser, som vi udvikler, er formet af en konstant dialog mellem historikere, designere, datalingvister og digitale humanister.
Med hensyn til udformningen af og motivationen for impresso havde DHLAB forud herfor været involveret i et forskningsprojekt, der involverede den schweiziske avis Le Temps, og som havde til formål at give adgang til to digitaliserede aviser - Journal de Geneve og Gazette de Lausanne (som fusionerede i 1998 og blev til Le Temps). Resultaterne af dette projekt, samt de udfordringer, der var opstået, lagde grunden til impresso. Idéen om at oprette et arkiv over digitaliserede aviser gav sig godt udslag i at blive opskaleret til at omfatte flere kilder samt at se ud over de nationale grænser. En række møder på konferencer og workshopper mellem Maud Ehrmann (DHLAB), Lars Wieneke (C2DH), Marten Düring (C2DH) og Simon Clematide (UZH) bidrog til at styrke og formulere denne idé i, hvad der blev et vellykket finansieringsforslag.
Hvordan blev du involveret i projektet?
Min kollega og projektkoordinator Maud Ehrmann bad mig om at deltage i projektet i sommeren 2017, da en uventet ændring i projektteamet åbnede mulighed for at få en anden postdoc-forsker til at støtte hende i de opgaver, som DHLAB stod i spidsen for. På det tidspunkt arbejdede jeg på Linked Books, et andet SNF-finansieret projekt om citationsudvinding af videnskabelig litteratur om Venedigs historie. Arbejdet med navngiven enhedsbehandling og tvetydighed, som vi udfører i impresso, er kernen i mine forskningsinteresser. Der er også en kontinuitet med Linked Books og min tidligere forskning i informationsudtræk fra store digitale arkiver i humaniora, hvor citationer (og mere generelt navngivne enheder) er et af mine vigtigste interesseområder.
Hvilken betydning har avisdatasæt for historisk forskning?
Historiske aviser er uvurderlige primære kilder til humanistiske lærde som helhed, ikke kun historikere. Faktisk indeholder og bevarer de en slags forstenede spor af vores nuværende og tidligere samfund. De registrerer alle former for begivenheder, fra krigserklæringer til lørdag aften dansebolde på landet, og de dokumenterer mange aspekter af det daglige liv og kultur. De indeholder ekstremt rige og tætte oplysninger, som også er kontinuerlige, da disse aviser i mange tilfælde har kørt i lang tid og udgivet meget regelmæssigt.
En afgørende udfordring, som vi adresserer i impresso, er, hvordan vi udvikler et værktøj, der støtter forskere i at arbejde med store arkiver af digitaliserede aviser. Værktøjet integrerer teknologier til behandling af naturligt sprog (f.eks. navngivet enhedsbehandling eller emnemodellering) for at indfange semantikken i avisindhold med henblik på at gøre disse (forbedrede) kilder anvendelige til forskning. Et vigtigt princip, vi følger i designet, er gennemsigtighed, hvilket betyder, at vi stræber efter at gøre alle aspekter af dataene - eller af den behandling, vi udfører på dataene - eksplicitte og synlige for brugerne, som ofte risikerer at forblive skjult i søgegrænseflader. Informationsaspekter, vi ønsker at gøre mere gennemsigtige, omfatter f.eks. OCR-kvalitet samt huller i dataene på grund af beskadigede digitale arkiver.
Hvordan bruges impresso-værktøjer?
På trods af at impressoprojektet stadig er under udarbejdelse, bruges dets korpus og værktøjer aktivt både til forskning og undervisning.
På forskningssiden arbejder Dr. Estelle Bunout (C2DH) – en af de (digitale) historikere i vores projekt – på et casestudie med titlen "Resistance to Europe", som omfatter analyse af debatter om den europæiske idé i digitaliserede aviser fra Luxembourg, Schweiz og andre lande med det formål at identificere spændinger omkring den europæiske idé fra slutningen af det 19. århundrede til 1945. Og forskere fra vores associerede partnere, Infoclio-sammenslutningen og Lausannes Universitets Historieafdeling, bidrager til overvejelserne om, hvordan man kan anvende impressoværktøjer på historiske forskningsspørgsmål i forbindelse med konkrete use cases.
Endelig udsendte vi en indkaldelse af associerede forskere i løbet af projektets første år for at udvide kredsen af historikere tilknyttet projektet. Som et resultat, omkring 20 historikere primært fra Benelux, Frankrig, Tyskland og Schweiz udtrykte deres interesse i både de værktøjer og samlinger bragt sammen af impresso og er blevet involveret i projektet. Deres tilknytning indebærer ikke blot anvendelse af projektets output, men en regelmæssig dialog med impressoteamet via workshopper og en afsluttende konference, der har til formål at indsamle feedback om deres brug af impressoværktøjer og deres forskning og drøfte epistemologiske spørgsmål, der rejses af digitaliserede aviser.
De tilknyttede forskeres forskellige emner og metoder afspejler de schweiziske og luxembourgske (digitaliserede) avisers tiltrækningskraft som historiske kilder. De omfatter prosopografisk forskning i eksperter og kvindelige krigskorrespondenter samt i "tankehistorie" såsom den stigende liberale internationalisme i slutningen af det 19. århundrede eller bankhistorie. Hvert af disse forskningsemner kræver en særlig brug af aviserne, en bestemt måde at forespørge dem på, der bidrager til at nære opfattelsen af interaktionen med impresso-samlingen. De forskellige anvendelser stilles imidlertid til rådighed for alle forskere i samme grænseflade i et forsøg på at tilbyde en diversificering af disse interaktioner og berige enhver form for forskningspraksis, herunder også undervisningspraksis, i de generøse grænsefladers ånd.
På undervisningssiden har Martin Grandjean og Sandra Bott brugt en del af impresso corpus til at undervise i et kursus i digital humaniora/digital historie, som er en del af EPFL's program for samfundsvidenskab og humaniora. Kurset fokuserer på, hvordan de store begivenheder i det 20. århundrede blev dækket i pressen; Digitale avisarkiver giver eleverne en rig kilde til materialer, som en række digitale metoder og værktøjer kan testes på. Det samme kursus er planlagt til næste år, og det vil være baseret på impresso-grænsefladen og værktøjerne, så vi kan teste styrken og svaghederne ved disse værktøjer specifikt i en undervisning (snarere end forskning) sammenhæng.
Inden for rammerne af Ranke2, den platform, der er udarbejdet på C2DH, og som tilbyder undervisningsmateriale om, hvordan man praktiserer digital kildekritik, bidrager impressoprojektet med udarbejdelsen af et modul dedikeret til brugen af digitaliserede aviser. Dette modul høster de indhøstede erfaringer med at forberede en gennemsigtig grænseflade, der er tilpasset bachelorniveau og gymnasieundervisning, hvilket bringer de nyeste tendenser inden for forskningspraksis til klasseværelserne.
Hvor er du henne i projektet - og hvad er næste skridt?
Beta-versionen af impresso-grænsefladen blev udgivet i maj 2019. Indtil videre er det en privat udgave, der hovedsagelig har til formål at få feedback om grænsefladedesign og -funktioner fra vores tilknyttede historikere. Med hensyn til data giver grænsefladen adgang til 22 schweiziske aviser for i alt næsten 3,2 millioner sider, 360.000 avisudgivelser og over 26 millioner indholdsartikler (f.eks. artikler, reklamer osv.), hovedsagelig på fransk og tysk.
Hvad angår grænsefladefunktionerne, indeholder betaversionen alle de grundlæggende funktioner, du forventer af en avisgrænseflade: søg, søg facetter og en seer, som lader dig læse og udforske avisartikler. Derudover giver det nogle mere avancerede funktioner, som evnen til at søge efter navngivne enheder, til at bruge emnemodeller som filtre til at indsnævre søgeresultater og muligheden for brugeren at oprette og gemme samlinger af elementer. Nye funktioner, der blev tilføjet i den seneste udgave, omfatter den første version af visuel søgning (mulighed for at filtrere alle tilgængelige billeder efter dato og avis) og massedownload af metadata.
Hvad vil der ske næste gang? I juli måned udgiver vi den offentlige version af grænsefladen med nye funktioner samt nye aviskilder (især det digitaliserede materiale fra Luxembourgs nationalbibliotek). Den bedste måde at følge projektet, som det fortsætter med at udvikle sig, er at tilmelde sig postlisten impresso – og vores tilknyttede historikergruppe – eller følge os på Twitter, da der vil være et par spændende nye udviklinger i de kommende måneder!
