Ciao Matteo! Puoi parlarci del progetto impresso?
Matteo: Impresso (letteralmente "ciò che è stato stampato") è un progetto di ricerca collaborativo e interdisciplinare finanziato dalla Fondazione nazionale svizzera per la scienza nell'ambito del programma di finanziamento Sinergia. L'obiettivo del progetto è creare un quadro tecnologico per estrarre, elaborare, collegare ed esplorare i dati provenienti da archivi di supporti di stampa su larga scala.
Il progetto coinvolge linguisti computazionali, umanisti digitali, designer, storici, bibliotecari e archivisti, che stanno affrontando la sfida di come arricchire, rappresentare, visualizzare e analizzare un ampio corpus di giornali storici digitalizzati a fini di ricerca. I partner di questo progetto sono DHLAB dell'EPFL, il Centro lussemburghese di storia contemporanea e digitale (C2DH) e l'Istituto di linguistica computazionale dell'Università di Zurigo. La natura interdisciplinare di impresso si riflette anche nel principio di co-design che applichiamo durante tutto il progetto. Ciò che significa in pratica è che i dati che creiamo e gli strumenti per lavorare con i giornali digitalizzati che stiamo sviluppando sono modellati da un dialogo costante tra storici, designer, linguisti computazionali e umanisti digitali.
Per quanto riguarda la concezione e la motivazione di impresso, prima di essa il DHLAB era stato coinvolto in un progetto di ricerca che coinvolgeva il quotidiano svizzero Le Temps, volto a fornire l’accesso a due giornali digitalizzati - Journal de Geneve e Gazette de Lausanne (che si sono fusi nel 1998 per diventare Le Temps). I risultati di questo progetto, così come le sfide emerse, hanno gettato le basi per impresso. L'idea di creare un archivio di giornali digitalizzati si prestava bene a essere ampliata per includere più fonti e guardare oltre i confini nazionali. Una serie di incontri in occasione di conferenze e workshop tra Maud Ehrmann (DHLAB), Lars Wieneke (C2DH), Marten Düring (C2DH) e Simon Clematide (UZH) ha contribuito a rafforzare e articolare questa idea in quella che è diventata una proposta di finanziamento di successo.
Come sei stato coinvolto nel progetto?
Il mio collega e coordinatore del progetto Maud Ehrmann mi ha chiesto di aderire al progetto nell'estate del 2017, quando un cambiamento inaspettato nel team di progetto ha aperto la possibilità di avere un altro ricercatore post-doc per supportarla nei compiti che il DHLAB stava conducendo. A quel tempo, stavo lavorando a Linked Books, un altro progetto finanziato dalla SNF sull'estrazione di citazioni di letteratura accademica sulla storia di Venezia. Il lavoro sull'elaborazione e la disambiguazione delle entità nominate che stiamo portando avanti in impresso è al centro dei miei interessi di ricerca. C'è anche una continuità con Linked Books e la mia precedente ricerca sull'estrazione di informazioni da archivi digitali su larga scala nelle discipline umanistiche, con citazioni (e più in generale entità nominate) che sono una delle mie principali aree di interesse.
Qual è l'importanza dei dataset dei giornali per la ricerca storica?
I giornali storici sono fonti primarie inestimabili per gli studiosi di scienze umane in generale, non solo per gli storici. Infatti, contengono e conservano una sorta di traccia fossilizzata delle nostre società attuali e passate. Registrano tutti i tipi di eventi, dalle dichiarazioni di guerra ai balli di ballo del sabato sera in campagna, e documentano molti aspetti della vita e della cultura quotidiana. Contengono informazioni estremamente ricche e dense, che sono anche continue, poiché in molti casi questi giornali sono in esecuzione da molto tempo e pubblicati su base molto regolare.
Una sfida cruciale che stiamo affrontando in impresso è come ideare uno strumento che supporti i ricercatori a lavorare con grandi archivi di giornali digitalizzati. Lo strumento integra tecnologie di elaborazione del linguaggio naturale (ad esempio, elaborazione di entità denominate o modellazione di argomenti) per catturare la semantica dei contenuti dei giornali, al fine di rendere queste fonti (migliorate) utilizzabili per la ricerca. Un principio importante che stiamo seguendo nella sua progettazione è la trasparenza, il che significa che ci sforziamo di rendere espliciti e visibili agli utenti tutti gli aspetti dei dati - o del trattamento che eseguiamo sui dati - che spesso rischiano di rimanere nascosti nelle interfacce di ricerca. Gli aspetti informativi che vogliamo rendere più trasparenti includono, ad esempio, la qualità OCR, nonché buchi nei dati a causa di archivi digitali danneggiati.
Come vengono utilizzati gli strumenti impresso?
Nonostante il progetto impresso sia ancora in fase di realizzazione, il suo corpus e i suoi strumenti vengono utilizzati attivamente sia per la ricerca che per l'insegnamento.
Dal lato della ricerca, la dott.ssa Estelle Bunout (C2DH) - una delle storiche (digitali) del nostro progetto - sta lavorando a un caso di studio intitolato "Resistenza all'Europa" che prevede l'analisi dei dibattiti sull'idea europea nei giornali digitalizzati del Lussemburgo, della Svizzera e oltre, con l'obiettivo di identificare le tensioni intorno all'idea europea dalla fine del XIX secolo al 1945. E i ricercatori dei nostri partner associati, l'associazione Infoclio e il dipartimento di storia dell'Università di Losanna, stanno contribuendo alla riflessione su come applicare gli strumenti impresso alle questioni di ricerca storica nel contesto di casi d'uso concreti.
Infine, abbiamo pubblicato un bando per ricercatori associati durante il primo anno del progetto al fine di estendere la cerchia degli storici affiliati al progetto. Di conseguenza, circa 20 storici provenienti principalmente da Benelux, Francia, Germania e Svizzera hanno espresso il loro interesse sia per gli strumenti che per le collezioni riunite da impresso e sono stati coinvolti nel progetto. La loro associazione comporta non solo l'utilizzo dei risultati del progetto, ma un dialogo regolare con il team di impresso, attraverso seminari e una conferenza finale volta a raccogliere riscontri sul loro uso degli strumenti di impresso e sulla loro ricerca e a discutere le questioni epistemologiche sollevate dai giornali digitalizzati.
La diversità dei temi e dei metodi dei ricercatori associati riflette il fascino dei giornali svizzeri e lussemburghesi (digitalizzati) come fonti storiche. Includono ricerche prosopografiche su esperti e corrispondenti di guerra femminili, nonché sulla "storia dei pensieri", come l'ascesa dell'internazionalismo liberale alla fine del XIX secolo o la storia bancaria. Ognuno di questi temi di ricerca richiede un uso particolare dei giornali, un modo particolare di interrogarli che contribuisce ad alimentare la concezione dell'interazione con la collezione impresso. I diversi utilizzi sono comunque messi a disposizione di tutti i ricercatori nella stessa interfaccia, nel tentativo di offrire una diversificazione di queste interazioni e arricchire ogni tipo di pratica di ricerca, comprese anche le pratiche didattiche, nello spirito delle generose interfacce.
Dal lato dell'insegnamento, Martin Grandjean e Sandra Bott hanno utilizzato parte del corpus impresso nell'insegnamento di un corso di Digital Humanities/Digital History, parte del programma di scienze sociali e umane dell'EPFL. Il corso si concentra su come i grandi eventi del 20 ° secolo sono stati coperti dalla stampa; Gli archivi digitali dei giornali forniscono agli studenti una ricca fonte di materiali su cui è possibile testare una serie di metodi e strumenti digitali. Lo stesso corso è previsto per il prossimo anno e si baserà sull'interfaccia e sugli strumenti impresso, consentendoci così di testare la forza e la debolezza di questi strumenti specificamente in un contesto di insegnamento (piuttosto che di ricerca).
Nell'ambito di Ranke2, la piattaforma preparata presso il C2DH che offre materiali didattici su come praticare la critica delle fonti digitali, il progetto impresso contribuisce alla preparazione di un modulo dedicato all'uso dei giornali digitalizzati. Questo modulo raccoglie le lezioni apprese con la preparazione di un'interfaccia trasparente, adattata al livello di laurea e all'insegnamento della scuola secondaria, portando le ultime tendenze delle pratiche di ricerca nelle aule.
A che punto sei con il progetto - e qual è il prossimo passo?
La versione beta dell'interfaccia impresso è stata rilasciata nel maggio 2019. Per ora si tratta di una versione privata, per lo più volta a ottenere riscontri sulla progettazione dell'interfaccia e sulle funzionalità dai nostri storici associati. In termini di dati, l'interfaccia dà accesso a 22 giornali svizzeri per un totale di quasi 3,2 milioni di pagine, 360.000 numeri di giornali e oltre 26 milioni di contenuti (ad esempio articoli, pubblicità, ecc.), principalmente in francese e tedesco.
Per quanto riguarda le funzionalità dell'interfaccia, la versione beta contiene tutte le funzionalità di base che ci si aspetta da un'interfaccia di giornale: ricerca, ricerca sfaccettature e uno spettatore che consente di leggere ed esplorare articoli di giornale. Inoltre, fornisce alcune funzionalità più avanzate, come la possibilità di cercare entità nominate, di utilizzare modelli di argomenti come filtri per restringere i risultati di ricerca e la possibilità per l'utente di creare e salvare raccolte di elementi. Le nuove funzionalità aggiunte nell'ultima versione includono la prima versione della ricerca visiva (capacità di filtrare tutte le immagini disponibili, per data e giornale) e il download in blocco dei metadati.
Cosa succederà dopo? Nel mese di luglio pubblicheremo la versione pubblica dell'interfaccia, con nuove funzionalità e nuove fonti di giornali (in particolare i materiali digitalizzati della Biblioteca nazionale lussemburghese). Il modo migliore per seguire il progetto così come continua a svilupparsi è iscriversi alla mailing list di impresso - e al nostro gruppo di storici associati - o seguirci su Twitter, poiché nei prossimi mesi ci saranno alcuni nuovi sviluppi interessanti!
