Hei Matteo! Voitko kertoa meille impressoprojektista?
Matteo: Impresso (kirjaimellisesti ”mitä on painettu”) on Sveitsin kansallisen tiedesäätiön Sinergia-rahoitusjärjestelmästä rahoittama tieteidenvälinen tutkimusyhteistyöhanke. Hankkeen tavoitteena on luoda teknologinen kehys painettujen tiedotusvälineiden arkistoista saatavien tietojen poimimiseksi, käsittelemiseksi, linkittämiseksi ja tutkimiseksi laajassa mittakaavassa.
Hankkeessa on mukana laskennallisia kielitieteilijöitä, digitaalisia humanisteja, suunnittelijoita, historioitsijoita, kirjastonhoitajia ja arkistonhoitajia, jotka tarttuvat haasteeseen rikastaa, esittää, visualisoida ja analysoida laajaa historiallisten digitoitujen sanomalehtien joukkoa tutkimustarkoituksiin. Hankkeessa ovat mukana EPFL:n DHLAB, Luxembourg Center for Contemporary and Digital History (C2DH) ja Zürichin yliopiston laskennallisen kielitieteen instituutti. Impresson poikkitieteellinen luonne heijastuu myös yhteissuunnittelun periaatteeseen, jota sovellamme koko projektin ajan. Käytännössä se tarkoittaa, että luomamme data ja kehittämämme työkalut digitoitujen sanomalehtien kanssa työskentelyyn muovaavat jatkuvaa vuoropuhelua historioitsijoiden, suunnittelijoiden, laskennallisten lingvistien ja digitaalisten humanistien välillä.
Ennen sitä DHLAB oli ollut mukana tutkimushankkeessa, johon osallistui sveitsiläinen Le Temps -sanomalehti ja jonka tarkoituksena oli tarjota pääsy kahteen digitoituun sanomalehteen - Journal de Geneve ja Gazette de Lausanne (jotka yhdistettiin vuonna 1998 Le Temps-sanomalehdeksi). Hankkeen tulokset ja esiin nousseet haasteet loivat pohjan impressolle. Ajatus digitoitujen sanomalehtien arkiston luomisesta soveltui hyvin laajennettavaksi kattamaan useampia lähteitä ja katsomaan kansallisten rajojen ulkopuolelle. Maud Ehrmannin (DHLAB), Lars Wieneken (C2DH), Marten Düringin (C2DH) ja Simon Clematiden (UZH) välisissä konferensseissa ja työpajoissa järjestetyt tapaamiset auttoivat vahvistamaan tätä ajatusta ja muotoilemaan sen onnistuneeksi rahoitusehdotukseksi.
Miten päädyit mukaan hankkeeseen?
Kollegani ja projektikoordinaattori Maud Ehrmann pyysi minua mukaan projektiin kesällä 2017, kun odottamaton muutos projektitiimissä avasi mahdollisuuden saada toinen post doc -tutkija tukemaan häntä DHLAB:n johtamissa tehtävissä. Tuolloin työskentelin Linked Books -hankkeessa, joka oli toinen SNF: n rahoittama hanke Venetsian historiaa koskevan tieteellisen kirjallisuuden lainaamisesta. Nimettyjen kokonaisuuksien käsittely- ja täsmennystyö, jota teemme impressossa, on tutkimusintressieni ytimessä. Linkitetyt kirjat ja aiempi tutkimukseni tiedon poimimisesta humanististen tieteiden laajamittaisista digitaalisista arkistoista ovat myös jatkuvia, ja viittaukset (ja yleisemmin nimetyt yksiköt) ovat yksi tärkeimmistä kiinnostuksenkohteistani.
Mikä on sanomalehtiaineistojen merkitys historialliselle tutkimukselle?
Historialliset sanomalehdet ovat korvaamattomia ensisijaisia lähteitä humanistisille tutkijoille yleensä, ei vain historioitsijoille. Itse asiassa ne sisältävät ja säilyttävät eräänlaisen fossiilisen jäljet nykyisistä ja aiemmista yhteiskunnistamme. He tallentavat kaikenlaisia tapahtumia, sotailmoituksista lauantai-illan tanssipalloihin maaseudulla, ja he dokumentoivat monia jokapäiväisen elämän ja kulttuurin näkökohtia. Ne sisältävät erittäin rikasta ja tiheää tietoa, joka on myös jatkuvaa, koska monissa tapauksissa nämä sanomalehdet ovat toimineet pitkään ja niitä on julkaistu hyvin säännöllisesti.
Ratkaiseva haaste, jota käsittelemme impressossa, on se, miten suunnitella työkalu, joka tukee tutkijoita työskentelemään suurten digitoitujen sanomalehtien arkistojen kanssa. Työkalu yhdistää luonnollisen kielen käsittelytekniikoita (esim. nimetyn kokonaisuuden käsittely tai aiheen mallinnus) sanomalehtien sisällön semantiikan kuvaamiseksi, jotta näitä (tehostettuja) lähteitä voidaan käyttää tutkimukseen. Tärkeä periaate, jota noudatamme sen suunnittelussa, on läpinäkyvyys, mikä tarkoittaa, että pyrimme tekemään käyttäjille selväksi ja näkyväksi kaikki tiedot - tai tietojen käsittely, jota suoritamme tiedoille - jotka ovat usein vaarassa jäädä piiloon hakurajapintoihin. Tietonäkökohtia, joista haluamme tehdä läpinäkyvämpiä, ovat esimerkiksi OCR-laatu sekä vahingoittuneiden digitaalisten arkistojen aiheuttamat reiät datassa.
Miten impresso-työkaluja käytetään?
Huolimatta siitä, että impressoprojekti on vielä tekeillä, sen aineistoa ja työkaluja käytetään aktiivisesti sekä tutkimukseen että opetukseen.
Tutkimuspuolella tohtori Estelle Bunout (C2DH) - yksi hankkeemme (digitaalisista) historioitsijoista - työstää tapaustutkimusta ”Resistance to Europe”, jossa analysoidaan eurooppalaista ajatusta koskevia keskusteluja digitoiduissa sanomalehdissä Luxemburgista, Sveitsistä ja muualta. Tavoitteena on tunnistaa eurooppalaiseen ajatukseen liittyviä jännitteitä 1800-luvun lopulta vuoteen 1945. Yhteistyökumppaneidemme, Infoclio-yhdistyksen ja Lausannen yliopiston historian osaston tutkijat osallistuvat pohdintaan siitä, miten impressovälineitä voidaan soveltaa historiallisiin tutkimuskysymyksiin konkreettisten käyttötapausten yhteydessä.
Lopuksi julkaisimme ehdotuspyynnön assosioituneille tutkijoille hankkeen ensimmäisen vuoden aikana laajentaaksemme hankkeeseen liittyvien historioitsijoiden piiriä. Tämän seurauksena noin 20 historioitsijaa pääasiassa Benelux-maista, Ranskasta, Saksasta ja Sveitsistä ilmaisivat kiinnostuksensa sekä työkaluihin että impresson kokoamiin kokoelmiin ja ovat osallistuneet hankkeeseen. Niiden osallistuminen edellyttää hankkeen tulosten hyödyntämisen lisäksi säännöllistä vuoropuhelua impressotiimin kanssa työpajojen ja loppukonferenssin avulla. Tavoitteena on kerätä palautetta impressotyökalujen käytöstä ja tutkimuksesta sekä keskustella digitoitujen sanomalehtien esiin nostamista epistemologisista kysymyksistä.
Tutkijoiden aiheiden ja menetelmien moninaisuus kuvastaa sveitsiläisten ja luxemburgilaisten (digitoitujen) sanomalehtien viehätystä historiallisina lähteinä. Niihin kuuluu prosopografiatutkimus asiantuntijoista ja naispuolisista sotakirjeenvaihtajista sekä ”ajatusten historiasta”, kuten liberaalin internationalismin noususta 1800-luvun lopulla, tai pankkihistoriasta. Jokainen näistä tutkimusaiheista vaatii sanomalehtien erityistä käyttöä, erityistä tapaa kysyä niistä, mikä edistää käsitystä vuorovaikutuksesta impressokokoelman kanssa. Monipuoliset käyttötarkoitukset ovat kuitenkin kaikkien tutkijoiden käytettävissä samassa rajapinnassa, jotta voidaan monipuolistaa näitä vuorovaikutuksia ja rikastuttaa kaikenlaisia tutkimuskäytäntöjä, myös opetuskäytäntöjä, anteliaiden rajapintojen hengessä.
Opetuspuolella Martin Grandjean ja Sandra Bott ovat käyttäneet osaa impressokorpuksesta opettaessaan digitaalisen humanismin ja digitaalisen historian kurssia, joka on osa EPFL:n yhteiskunta- ja humanististen tieteiden ohjelmaa. Kurssi keskittyy siihen, miten 1900-luvun suuret tapahtumat käsiteltiin lehdistössä; sanomalehtien digitaaliset arkistot tarjoavat opiskelijoille runsaan materiaalilähteen, jolla voidaan testata erilaisia digitaalisia menetelmiä ja välineitä. Sama kurssi on suunniteltu ensi vuodelle ja se perustuu impresso-käyttöliittymään ja työkaluihin, jolloin voimme testata näiden työkalujen vahvuutta ja heikkouksia erityisesti opetuksen (eikä tutkimuksen) yhteydessä.
Ranke2 on C2DH:ssa valmisteltu alusta, joka tarjoaa opetusmateriaalia digitaalisen lähdekritiikin harjoittamisesta. Sen puitteissa toteutetulla impressohankkeella edistetään digitoitujen sanomalehtien käyttöön tarkoitetun moduulin valmistelua. Tämä moduuli kerää oppitunnit valmistelemalla läpinäkyvän käyttöliittymän, joka on mukautettu kandidaatin ja toisen asteen opetukseen, tuomalla tutkimuskäytäntöjen uusimmat suuntaukset luokkahuoneisiin.
Missä olet mukana projektissa - ja mikä on seuraava askel?
Impresso-käyttöliittymän beta-versio julkaistiin toukokuussa 2019. Tällä hetkellä se on yksityinen julkaisu, jonka tarkoituksena on pääasiassa saada palautetta käyttöliittymän suunnittelusta ja toiminnoista asiaan liittyviltä historioitsijoilta. Rajapinta tarjoaa pääsyn 22 sveitsiläiseen sanomalehteen, joissa on yhteensä lähes 3,2 miljoonaa sivua, 360 000 sanomalehteä ja yli 26 miljoonaa sisältöä (esim. artikkeleita, mainoksia jne.), enimmäkseen ranskaksi ja saksaksi.
Mitä tulee käyttöliittymän toimintoihin, beta-versio sisältää kaikki perusominaisuudet, joita odotat sanomalehtirajapinnalta: etsiä, etsiä puolia ja katsoja, jonka avulla voit lukea ja tutkia sanomalehtiartikkeleita. Lisäksi se tarjoaa joitain edistyneempiä ominaisuuksia, kuten mahdollisuuden etsiä nimettyjä yksiköitä, käyttää aihemalleja suodattimina hakutulosten kaventamiseksi ja käyttäjän mahdollisuuden luoda ja tallentaa kohteiden kokoelmia. Uusimmat toiminnot, jotka lisättiin uusimpaan versioon, sisältävät visuaalisen haun ensimmäisen version (kyky suodattaa kaikki saatavilla olevat kuvat päivämäärän ja sanomalehden mukaan) ja metatietojen joukkolatauksen.
Mitä seuraavaksi tapahtuu? Heinäkuussa julkaisemme käyttöliittymän julkisen version, jossa on uusia toimintoja ja uusia sanomalehtilähteitä (erityisesti Luxemburgin kansalliskirjaston digitoitu aineisto). Paras tapa seurata hanketta sen kehittyessä on liittyä impresso-postituslistalle – ja siihen liittyvään historioitsijoiden ryhmään – tai seurata meitä Twitterissä, sillä lähikuukausina tapahtuu joitakin jännittäviä uusia tapahtumia!
