Hallo Matteo! Können Sie uns etwas über das Projekt impresso erzählen?
Matteo: Impresso (wörtlich „was gedruckt wurde“) ist ein kollaboratives und interdisziplinäres Forschungsprojekt, das vom Schweizerischen Nationalfonds im Rahmen des Förderprogramms Sinergia gefördert wird. Ziel des Projekts ist es, einen technologischen Rahmen zu schaffen, um Daten aus Printmedienarchiven in großem Umfang zu extrahieren, zu verarbeiten, zu verknüpfen und zu erkunden.
Das Projekt umfasst Computerlinguisten, Digital Humanisten, Designer, Historiker, Bibliothekare und Archivare, die sich der Herausforderung stellen, ein großes Korpus historischer digitalisierter Zeitungen zu Forschungszwecken zu bereichern, darzustellen, zu visualisieren und zu analysieren. Partner dieses Projekts sind das DHLAB der EPFL, das Luxembourg Center for Contemporary and Digital History (C2DH) und das Institute of Computational Linguistics der Universität Zürich. Der interdisziplinäre Charakter von impresso spiegelt sich auch in dem Prinzip des Co-Designs wider, das wir während des gesamten Projekts anwenden. Was es in der Praxis bedeutet, ist, dass die von uns erstellten Daten und die Werkzeuge für die Arbeit mit digitalisierten Zeitungen, die wir entwickeln, von einem ständigen Dialog zwischen Historikern, Designern, Computerlinguisten und Digital Humanisten geprägt sind.
Was die Konzeption und Motivation von impresso betrifft, so war das DHLAB zuvor an einem Forschungsprojekt beteiligt, an dem die Schweizer Zeitung Le Temps beteiligt war, um Zugang zu zwei digitalisierten Zeitungen zu erhalten - Journal de Geneve und Gazette de Lausanne (die 1998 zu _Le Temps_zusammengeführt wurden). Die Ergebnisse dieses Projekts sowie die entstandenen Herausforderungen legten den Grundstein für impresso. Die Idee, ein Archiv digitalisierter Zeitungen zu schaffen, ließ sich gut skalieren, um mehr Quellen einzubeziehen und über nationale Grenzen hinweg zu blicken. Eine Reihe von Begegnungen auf Konferenzen und Workshops zwischen Maud Ehrmann (DHLAB), Lars Wieneke (C2DH), Marten Düring (C2DH) und Simon Clematide (UZH) trugen dazu bei, diese Idee zu einem erfolgreichen Förderantrag zu stärken und zu artikulieren.
Wie haben Sie sich an dem Projekt beteiligt?
Mein Kollege und Projektkoordinator Maud Ehrmann bat mich, im Sommer 2017 an dem Projekt teilzunehmen, als eine unerwartete Veränderung im Projektteam die Möglichkeit eröffnete, einen weiteren Postdoc-Forscher zu haben, der sie bei den Aufgaben unterstützte, die das DHLAB leitete. Zu dieser Zeit arbeitete ich an Linked Books, einem weiteren SNF-finanzierten Projekt zum Zitieren von wissenschaftlicher Literatur über die Geschichte Venedigs. Die Arbeit an der sogenannten Entity Processing und Disambiguation, die wir impresso durchführen, steht im Mittelpunkt meiner Forschungsinteressen. Es gibt auch eine Kontinuität mit Linked Books und meiner früheren Forschung zur Informationsextraktion aus großen digitalen Archiven in den Geisteswissenschaften, wobei Zitate (und allgemein benannte Entitäten) eines meiner Hauptinteressengebiete sind.
Welche Bedeutung haben Zeitungsdatensätze für die historische Forschung?
Historische Zeitungen sind unschätzbare Primärquellen für Geisteswissenschaftler im Allgemeinen, nicht nur Historiker. Tatsächlich enthalten und bewahren sie eine Art versteinerte Spur unserer gegenwärtigen und vergangenen Gesellschaften. Sie zeichnen alle Arten von Ereignissen auf, von Kriegserklärungen bis zu Tanzbällen am Samstagabend auf dem Land, und sie dokumentieren viele Aspekte des täglichen Lebens und der Kultur. Sie enthalten extrem reichhaltige und dichte Informationen, die auch kontinuierlich sind, da diese Zeitungen in vielen Fällen seit langem laufen und sehr regelmäßig veröffentlicht werden.
Eine entscheidende Herausforderung, die wir impresso angehen, ist die Entwicklung eines Tools, das Forscher bei der Arbeit mit großen Archiven digitalisierter Zeitungen unterstützt. Das Tool integriert natürliche Sprachverarbeitungstechnologien (z.B. Named Entity Processing oder Topic Modeling), um die Semantik von Zeitungsinhalten zu erfassen, um diese (erweiterten) Quellen für die Forschung nutzbar zu machen. Ein wichtiges Prinzip, dem wir bei der Gestaltung folgen, ist die Transparenz, d.h. wir bemühen uns, den Nutzern alle Aspekte der Daten - oder der Verarbeitung, die wir an den Daten durchführen -, die oft in Suchschnittstellen verborgen bleiben könnten, explizit und sichtbar zu machen. Zu den Informationsaspekten, die wir transparenter machen wollen, gehören beispielsweise die OCR-Qualität sowie Datenlücken aufgrund beschädigter digitaler Archive.
Wie werden Impresso-Tools eingesetzt?
Trotz der Tatsache, dass sich das impresso-Projekt noch in der Entwicklung befindet, werden sein Korpus und seine Werkzeuge sowohl für die Forschung als auch für die Lehre aktiv genutzt.
Auf der Forschungsseite arbeitet Dr. Estelle Bunout (C2DH) - einer der (digitalen) Historiker in unserem Projekt - an einer Fallstudie mit dem Titel „Resistance to Europe“, in der Debatten über die europäische Idee in digitalisierten Zeitungen aus Luxemburg, der Schweiz und darüber hinaus analysiert werden, um Spannungen um die europäische Idee vom späten 19. Jahrhundert bis 1945 zu identifizieren. Und Forscher unserer assoziierten Partner, des Vereins Infoclio und der Geschichtsabteilung der Universität Lausanne, tragen zur Reflexion bei, wie man im Kontext konkreter Anwendungsfälle impresso-Tools auf historische Forschungsfragen anwenden kann.
Schließlich haben wir im ersten Jahr des Projekts einen Aufruf für assoziierte Forscher veröffentlicht, um den Kreis der mit dem Projekt verbundenen Historiker zu erweitern. So bekundeten etwa 20 Historiker vor allem aus Benelux, Frankreich, Deutschland und der Schweiz ihr Interesse an den von impresso zusammengestellten Werkzeugen und Sammlungen und haben sich an dem Projekt beteiligt. Ihre Assoziierung umfasst nicht nur die Nutzung der Projektergebnisse, sondern auch einen regelmäßigen Dialog mit dem impresso-Team über Workshops und eine Abschlusskonferenz, die darauf abzielt, Feedback zu ihrem Einsatz von Impresso-Tools und ihrer Forschung zu sammeln und epistemologische Fragen zu diskutieren, die von digitalisierten Zeitungen aufgeworfen werden.
Die Themen- und Methodenvielfalt der assoziierten Forschenden spiegelt die Faszination der schweizerischen und luxemburgischen (digitalisierten) Zeitungen als historische Quellen wider. Dazu gehören prosopografische Recherchen zu Experten und Kriegskorrespondenteninnen sowie zur „Gedankengeschichte“ wie dem Aufstieg des liberalen Internationalismus Ende des 19. Jahrhunderts oder der Bankengeschichte. Jedes dieser Forschungsthemen erfordert eine bestimmte Verwendung der Zeitungen, eine bestimmte Art und Weise, sie abzufragen, die dazu beiträgt, die Konzeption der Interaktion mit der Impresso-Sammlung zu fördern. Die vielfältigen Nutzungsmöglichkeiten werden jedoch allen Forschenden in der gleichen Schnittstelle zur Verfügung gestellt, um eine Diversifizierung dieser Interaktionen zu bieten und jede Art von Forschungspraxis, einschließlich der Lehrpraxis, im Geiste der großzügigen Schnittstellen zu bereichern.
Auf der Lehrseite haben Martin Grandjean und Sandra Bott einen Teil des Impresso-Corpus für die Vermittlung eines Kurses Digital Humanities/Digital History verwendet, der Teil des Programms Sozial- und Humanwissenschaften der EPFL ist. Der Kurs konzentriert sich darauf, wie die großen Ereignisse des 20. Jahrhunderts in der Presse behandelt wurden; Digitale Zeitungsarchive bieten den Studierenden eine reichhaltige Materialquelle, an der verschiedene digitale Methoden und Werkzeuge erprobt werden können. Der gleiche Kurs ist für nächstes Jahr geplant und wird auf der impresso-Schnittstelle und den Tools basieren, so dass wir die Stärke und Schwächen dieser Tools speziell im Kontext der Lehre (und nicht der Forschung) testen können.
Im Rahmen von Ranke2, der am C2DH vorbereiteten Plattform, die Lehrmaterialien zur Praxis der digitalen Quellenkritik anbietet, trägt das Projekt impresso zur Vorbereitung eines Moduls zur Nutzung digitalisierter Zeitungen bei. Dieses Modul nutzt die gewonnenen Erkenntnisse durch die Vorbereitung einer transparenten Schnittstelle, die an den Bachelor- und Sekundarschulunterricht angepasst ist und die neuesten Trends der Forschungspraxis in die Klassenzimmer bringt.
Wo stehen Sie im Projekt - und was ist der nächste Schritt?
Die Beta-Version der impresso-Schnittstelle wurde im Mai 2019 veröffentlicht. Vorerst handelt es sich um eine private Veröffentlichung, die hauptsächlich darauf abzielt, von unseren assoziierten Historikern Feedback zum Design und den Funktionalitäten der Schnittstelle zu erhalten. Datentechnisch bietet die Schnittstelle Zugriff auf 22 Schweizer Zeitungen für insgesamt knapp 3,2 Millionen Seiten, 360.000 Zeitungsausgaben und über 26 Millionen Inhalte (z.B. Artikel, Anzeigen etc.), meist in französischer und deutscher Sprache.
Was die Schnittstellenfunktionalitäten betrifft, enthält das Beta-Release alle grundlegenden Funktionen, die Sie von einer Zeitungsschnittstelle erwarten: Suchen Sie, suchen Sie Facetten und einen Betrachter, mit dem Sie Zeitungsartikel lesen und erkunden können. Darüber hinaus bietet es einige erweiterte Funktionen, wie die Möglichkeit, nach benannten Entitäten zu suchen, Themenmodelle als Filter zu verwenden, um Suchergebnisse einzugrenzen, und die Möglichkeit für den Benutzer, Sammlungen von Elementen zu erstellen und zu speichern. Zu den neuen Funktionen, die in der neuesten Version hinzugefügt wurden, gehören die erste Version der visuellen Suche (die Möglichkeit, alle verfügbaren Bilder nach Datum und Zeitung zu filtern) und der Massendownload von Metadaten.
Was wird als nächstes passieren? Im Juli werden wir die öffentliche Version der Schnittstelle mit neuen Funktionen sowie neuen Zeitungsquellen (insbesondere den digitalisierten Materialien der Luxemburger Nationalbibliothek) veröffentlichen. Der beste Weg, das Projekt in seiner weiteren Entwicklung zu verfolgen, besteht darin, sich der impresso-Mailingliste – und unserer assoziierten Historikergruppe – anzuschließen oder uns auf Twitter zu folgen, da es in den kommenden Monaten einige aufregende neue Entwicklungen geben wird!
