Hej Matteo! Kan du berätta om Impresso-projektet?
Matteo: Impresso (bokstavligen ”vad som har tryckts”) är ett samarbets- och tvärvetenskapligt forskningsprojekt som finansieras av Swiss National Science Foundation inom ramen för Sinergias finansieringssystem. Projektet syftar till att skapa en teknisk ram för att extrahera, bearbeta, länka och utforska data från tryckta mediearkiv i stor skala.
Projektet involverar datalingvister, digitala humanister, formgivare, historiker, bibliotekarier och arkivarier, som tar sig an utmaningen att berika, representera, visualisera och analysera en stor samling historiska digitaliserade tidningar för forskningsändamål. Partner i detta projekt är EPFL:s DHLAB, Luxembourg Center for Contemporary and Digital History (C2DH) och Institute of Computational Linguistics vid Zürichs universitet . Impressos tvärvetenskapliga karaktär återspeglas också i principen om co-design som vi tillämpar genom hela projektet. Vad det innebär i praktiken är att den data vi skapar och de verktyg för att arbeta med digitaliserade tidningar som vi utvecklar formas av en ständig dialog mellan historiker, formgivare, beräkningslingvister och digitala humanister.
När det gäller uppfattningen om och motivationen till impresso hade DHLAB dessförinnan deltagit i ett forskningsprojekt som omfattade den schweiziska tidningen Le Temps, som syftade till att ge tillgång till två digitaliserade tidningar – Journal de Geneve och Gazette de Lausanne (som 1998 slogs samman till Le Temps). Resultatet av detta projekt, liksom de utmaningar som hade uppstått, lade grunden för impresso. Tanken på att skapa ett arkiv med digitaliserade tidningar gjorde det möjligt att utöka det till att omfatta fler källor och att se bortom nationella gränser. En rad möten vid konferenser och workshoppar mellan Maud Ehrmann (DHLAB), Lars Wieneke (C2DH), Marten Düring (C2DH) och Simon Clematide (UZH) bidrog till att stärka och formulera denna idé till vad som blev ett framgångsrikt finansieringsförslag.
Hur blev du involverad i projektet?
Min kollega och projektkoordinator Maud Ehrmann bad mig att gå med i projektet sommaren 2017, när en oväntad förändring i projektgruppen öppnade upp möjligheten att ha en annan postdoktor för att stödja henne i de uppgifter som DHLAB ledde. Vid den tiden arbetade jag med Linked Books, ett annat SNF-finansierat projekt om citeringsbrytning av vetenskaplig litteratur om Venedigs historia. Arbetet med namngiven enhetsbearbetning och disambiguation som vi utför i impresso är kärnan i mina forskningsintressen. Det finns också en kontinuitet med Linked Books och min tidigare forskning om informationsutvinning från storskaliga digitala arkiv inom humaniora, med citat (och mer allmänt namngivna enheter) som ett av mina huvudsakliga intresseområden.
Vilken betydelse har tidningsdata för historisk forskning?
Historiska tidningar är ovärderliga primära källor för humanistiska forskare i stort, inte bara historiker. Faktum är att de innehåller och bevarar ett slags fossilt spår av våra nuvarande och tidigare samhällen. De spelar in alla typer av händelser, från krigsförklaringar till lördagskvällsdansbollar på landsbygden, och de dokumenterar många aspekter av det dagliga livet och kulturen. De innehåller extremt rik och tät information, som också är kontinuerlig eftersom dessa tidningar i många fall har varit igång under lång tid och publicerats på en mycket regelbunden basis.
En avgörande utmaning som vi tar itu med i impresso är hur man utformar ett verktyg som hjälper forskare att arbeta med stora arkiv av digitaliserade tidningar. Verktyget integrerar teknik för bearbetning av naturligt språk (t.ex. namngiven enhetsbearbetning eller ämnesmodellering) för att fånga semantiken i tidningsinnehåll, för att göra dessa (förbättrade) källor användbara för forskning. En viktig princip som vi följer i sin design är transparens, vilket innebär att vi strävar efter att göra alla aspekter av data - eller av den behandling vi utför på data - som ofta riskerar att förbli dolda i sökgränssnitten tydliga och synliga för användarna. Informationsaspekter som vi vill göra mer transparenta inkluderar till exempel OCR-kvalitet, samt hål i data på grund av skadade digitala arkiv.
Hur används Impresso-verktyg?
Trots att impresso-projektet fortfarande är på gång, används dess korpus och verktyg aktivt både för forskning och undervisning.
På forskningssidan arbetar Dr. Estelle Bunout (C2DH) - en av de (digitala) historikerna i vårt projekt - med en fallstudie med titeln ”Resistance to Europe” som omfattar analys av debatter om den europeiska idén i digitaliserade tidningar från Luxemburg, Schweiz och därefter, i syfte att identifiera spänningar kring den europeiska idén från slutet av 1800-talet till 1945. Och forskare från våra associerade partner, föreningen Infoclio och universitetet i Lausannes historiska avdelning, bidrar till diskussionen om hur man kan tillämpa imponerande verktyg på historiska forskningsfrågor i samband med konkreta användningsfall.
Slutligen utlyste vi en ansökningsomgång för associerade forskare under projektets första år för att utöka kretsen av historiker som är anslutna till projektet. Som ett resultat uttryckte ett 20-tal historiker, främst från Benelux, Frankrike, Tyskland och Schweiz, sitt intresse för både verktygen och samlingarna som sammanförts av impresso och har engagerat sig i projektet. Deras sammanslutning innebär inte bara användning av projektets resultat utan en regelbunden dialog med impresso-teamet, via workshoppar och en slutkonferens som syftar till att samla in återkoppling om deras användning av impresso-verktyg och deras forskning, och till att diskutera epistemologiska frågor som tas upp av digitaliserade tidningar.
De associerade forskarnas mångfald av ämnen och metoder återspeglar de schweiziska och luxemburgska (digitaliserade) tidningarnas lockelse som historiska källor. De omfattar prosopografisk forskning om experter och kvinnliga krigskorrespondenter samt om ”tankarnas historia”, såsom den liberala internationalismens framväxt i slutet av 1800-talet eller bankhistorien. Var och en av dessa forskningsämnen kräver en viss användning av tidningarna, ett visst sätt att fråga dem som bidrar till att driva uppfattningen om interaktionen med impresso-samlingen. De olika användningsområdena görs dock tillgängliga för alla forskare i samma gränssnitt, i ett försök att erbjuda en diversifiering av dessa interaktioner och berika alla typer av forskningspraxis, inklusive undervisningsmetoder, i andan av de generösa gränssnitten.
På undervisningssidan har Martin Grandjean och Sandra Bott använt en del av impresso corpus för att undervisa i en kurs i digital humaniora/digital historia, som ingår i EPFL:s program för samhällsvetenskap och humaniora. Kursen fokuserar på hur de stora händelserna under 1900-talet täcktes i pressen; digitala arkiv av tidningar ger studenterna en rik källa till material som en rad digitala metoder och verktyg kan testas. Samma kurs är planerad till nästa år och den kommer att baseras på impresso-gränssnittet och verktygen, vilket gör det möjligt för oss att testa styrkan och svagheterna hos dessa verktyg specifikt i en undervisning (snarare än forskning) sammanhang.
Inom ramen för Ranke2, den plattform som utarbetats vid C2DH och som erbjuder undervisningsmaterial om hur man utövar digital källkritik, bidrar impressoprojektet med utarbetandet av en modul för användning av digitaliserade tidningar. Denna modul skördar de lärdomar som dragits med att förbereda ett transparent gränssnitt, anpassat till kandidatnivå och gymnasieutbildning, vilket ger de senaste trenderna inom forskningsmetoder till klassrummen.
Vart är du på väg i projektet - och vad är nästa steg?
Betaversionen av impresso-gränssnittet släpptes i maj 2019. För närvarande är det en privat release som främst syftar till att få återkoppling om gränssnittets utformning och funktioner från våra associerade historiker. När det gäller data ger gränssnittet tillgång till 22 schweiziska tidningar för totalt nästan 3,2 miljoner sidor, 360 000 tidningsutgåvor och över 26 miljoner innehållsartiklar (t.ex. artiklar, annonser etc.), främst på franska och tyska.
När det gäller gränssnittsfunktionerna innehåller betaversionen alla grundläggande funktioner du förväntar dig från ett tidningsgränssnitt: söka, söka fasetter och en tittare som låter dig läsa och utforska tidningsartiklar. Dessutom ger det några mer avancerade funktioner, som möjligheten att söka efter namngivna entiteter, att använda ämnesmodeller som filter för att begränsa sökresultaten och möjligheten för användaren att skapa och spara samlingar av objekt. Nya funktioner som lades till i den senaste versionen inkluderar den första versionen av visuell sökning (möjlighet att filtrera alla tillgängliga bilder, efter datum och tidning) och massnedladdning av metadata.
Vad händer härnäst? I juli kommer vi att släppa den offentliga versionen av gränssnittet, med nya funktioner och nya tidningskällor (framför allt det digitaliserade materialet från Luxemburgs nationalbibliotek). Det bästa sättet att följa projektet i dess fortsatta utveckling är att gå med i sändlistan för impresso – och vår tillhörande historikergrupp – eller följa oss på Twitter, eftersom det kommer att ske några spännande nyheter under de kommande månaderna!
