Utforska SHIFT Audio Toolkit för kulturarv

Publicerad 15 maj 2025 av

Maria Kagkelidou (Heritage Management Organisation)

Shift är ett projekt som finansieras genom EU:s Horisont Europa-program för att utveckla specialiserade verktygslådor som är skräddarsydda för olika aspekter av kulturarvsengagemang. Den första som presenteras är SHIFT Audio Toolkit, som banar väg för AI-driven röstsyntes, känslostyrt tal, flerspråkig tillgänglighet och uppslukande ljudlandskap.

Skapad av SHIFT-konsortiet med audEERING som tar ledningen, kommer denna Toolkit att utnyttja kraften i text-till-tal (TTS), känsloigenkänning, videodubbning och ljudlandskapsgenerering för att skapa uppslukande upplevelser som ger arv till liv.

Skift-TTS: ett affektivt, flerspråkigt text-till-tal-system

SHIFT TTS är ett text-till-tal-system (en teknik som kan läsa högt vilken skriven text som helst) som genererar högkvalitativt, känslomässigt uttrycksfullt tal på flera språk. Till skillnad från traditionella TTS-verktyg, som låter robotiskt, innehåller Shift TTS affektiv talsyntes – vilket innebär att det kan uttrycka känslor som spänning, lugn eller högtidlighet baserat på det innehåll som det berättar.

SHIFT TTS-verktyget stöder flera språk, inklusive albanska, ungerska, rumänska, serbiska, tyska, grekiska och engelska, med över 200 affektiva engelska röster med inhemska och icke-inhemska accenter. Verktygslådan fungerar med undertexter eller vanlig textinmatning och erbjuder röstanpassning, så att användarna kan klona röster för unik och anpassad berättarröst eller välja bland de 200 röster som verktyget gör tillgängliga. Titta på verktyget som används.

TTS-verktyget kan förbättra tillgängligheten och engagemanget för kulturarvsinnehåll, till exempel genom att lägga till flerspråkiga, känslomässigt rika berättelser för att göra utställningar mer engagerande för olika målgrupper. Dessutom ger verktyget en resurs för synskadade besökare genom att erbjuda tillgängligt innehåll i form av detaljerade ljudbeskrivningar. Det kan omvandla historiska dokument till engagerande ljudberättelser, vilket ger användarna en uppslukande historisk upplevelse.

Video dubbning eller bild-till-tal berättarröst

Museer och kulturinstitutioner förlitar sig ofta på videor för att utbilda och engagera besökare. Att skapa flerspråkiga versioner eller berätta tysta bilder kan dock vara utmanande. SHIFT TTS-systemet erbjuder sömlös funktionalitet för videodubbning och generering av berättad video från bilder.

En av de viktigaste funktionerna i videodubbningsfunktionen gör det möjligt för användare att ersätta den ursprungliga rösten i en video med AI-genererat tal (även kloning av historiska figurers röst) samtidigt som innehållets känslomässiga ton noggrant bevaras. Systemet utmärker sig också i tyst bild vocalisation, konvertera stillbilder via textbeskrivningar till berättade videor, vilket gör visuellt innehåll mer tillgängligt och engagerande för olika målgrupper. Se ett exempel.

Funktionerna för videodubbning och bild-till-tal-berättande gör det möjligt för museer att skapa flerspråkiga versioner av sitt videoinnehåll, vilket breddar tillgängligheten för internationell publik. Dessa verktyg kan användas för att lägga till berättande till konstverk och historiska artefakter i digitala utställningar, vilket ger rikare och mer engagerande berättande som förbättrar besökarupplevelsen. Genom att integrera AI-genererade voiceovers kan SHIFT TTS-verktyget göra online-museiupplevelser mer interaktiva och tillgängliga, särskilt för dem som kan ha synnedsättningar eller föredrar ljudbaserat innehåll.

Röstkloning för personligt berättande

En av de mest innovativa funktionerna i Shift TTS är dess röstkloningskapacitet, som gör det möjligt för användare att replikera en talares röst för berättande. Denna funktion är särskilt användbar för att bevara historiska figurers eller berättares röster och erbjuder ett unikt och autentiskt sätt att få historien till liv.

Användarna kan ladda upp ett kort ljudprov, och Shift TTS kommer att generera tal som efterliknar personens röst. Detta säkerställer att den klonade rösten behåller autentiska känslor och talegenskaper, vilket skapar en mer realistisk och engagerande upplevelse. Röstkloningsfunktionen öppnar möjligheter för personligt berättande, särskilt för historiska utställningar, där figurer som Andy Warhol eller Salvador Dalí kan få sina röster klonade för att berätta sina egna historier och erbjuda en djupare koppling till innehållet.

Röstkloningen gör det möjligt att återskapa förlorade eller ofullständiga historiska inspelningar, vilket ger långvariga röster tillbaka till livet för publiken att uppleva. Museikuratorer, innehållsskapare och andra kan också dra nytta av denna funktion genom att använda sina egna röster för berättelser, vilket säkerställer en konsekvent och personlig touch till ljudguider, utställningar och andra typer av innehåll.

AI-genererade ljudlandskap för uppslukande berättande

För att skapa helt uppslukande upplevelser har SHIFT testat att integrera AudioGen, ett AI-verktyg som genererar realistiska ljudlandskap från textbeskrivningar. Denna funktion gör det möjligt att lägga till miljö- eller omgivningsljud till utställningar och berika dem med anpassade ljudlandskap som matchar den specifika tidsperioden eller inställningen som beskrivs i utställningen. Forntida marknader, slagfält eller heliga utrymmen kan väckas till liv med autentiska, era-lämpliga bakgrundsljud, lägga till ett sensoriskt lager till historieberättandet som fördjupar besökarnas samband med historien. Verktyget fungerar på flera språk, vilket säkerställer att det är tillgängligt för internationella målgrupper och ökar det tvärkulturella engagemanget. Titta på den i aktion med huvudbilden av det här stycket nedan!

Denna funktion kan också visa sig vara mycket effektiv i virtuell verklighet (VR) och förstärkt verklighet (AR) museum turer, där uppslukande ljud kan avsevärt förbättra känslan av närvaro och realism. Ljudlandskapen kan också förbättra tillgängligheten för synskadade besökare och erbjuda detaljerade ljudbeskrivningar av historiska miljöer och händelser.

Varför dessa verktyg är viktiga för kulturarvsarbetare

Museer och kulturinstitutioner förväntas i allt högre grad engagera en global, flerspråkig och mångsidig publik. Att skapa uppslukande innehåll kräver dock tid, resurser och expertis som många institutioner saknar.

SHIFT audio toolkit stöder tillgänglighet genom att tillhandahålla fängslande ljudbeskrivningar för synskadade besökare och flerspråkig berättarröst för en mängd olika målgrupper, så att alla kan engagera sig i innehållet. Det ökar också engagemanget genom att använda AI-driven affektiv tal och ljudlandskap för att fördjupa publiken i historia och kultur, vilket skapar en fängslande upplevelse.

Läs mer

Alla verktyg i SHIFT Audio Toolkit kommer att finnas tillgängliga under ett tak på SHIFT-plattformen, som för närvarande är under utveckling. Denna plattform kommer att erbjuda enkel tillgång till alla SHIFT-verktyg, inklusive text-till-tal-systemet, videodubbning, ljudlandskapsgenerering och mer.

För att hålla dig uppdaterad om den senaste utvecklingen, nya funktioner och den officiella lanseringen av SHIFT-plattformen, besök SHIFT-webbplatsen och anmäl dig till SHIFT-nyhetsbrevet för att få aktuella uppdateringar, tips och meddelanden direkt till din inkorg.

Det här inlägget skrevs av Dionyssos Kounadis-Bastian, Senior AI Researcher, audEERING GmbH och Maria Kagkelidou, kommunikationschef, The Heritage Management Organization.