SHIFT je projekt financovaný z programu EÚ Horizont Európa na vývoj špecializovaných súborov nástrojov prispôsobených rôznym aspektom angažovanosti v oblasti kultúrneho dedičstva. Prvým, ktorý bude predstavený, je SHIFT Audio Toolkit, ktorý je priekopníkom hlasovej syntézy poháňanej umelou inteligenciou, rečou poháňanou emóciami, viacjazyčnou prístupnosťou a pohlcujúcimi zvukovými scénami.
Tento súbor nástrojov, ktorý vytvorilo konzorcium SHIFT s vedúcim postavením audEERING, využije silu text-to-speech (TTS), rozpoznávanie emócií, video dabing a generovanie zvukovej scény na vytvorenie pohlcujúcich zážitkov, ktoré oživia dedičstvo.
SHIFT TTS: afektívny viacjazyčný systém prevodu textu na reč
SHIFT TTS je systém prevodu textu na reč (technológia, ktorá dokáže čítať nahlas akýkoľvek písaný text), ktorý vytvára vysoko kvalitnú, emocionálne expresívnu reč vo viacerých jazykoch. Na rozdiel od tradičných nástrojov TTS, ktoré znejú roboticky, SHIFT TTS zahŕňa afektívnu syntézu reči – to znamená, že môže vyjadrovať emócie, ako je vzrušenie, pokoj alebo slávnosť na základe obsahu, ktorý rozpráva.
Nástroj SHIFT TTS podporuje viacero jazykov vrátane albánčiny, maďarčiny, rumunčiny, srbčiny, nemčiny, gréčtiny a angličtiny s viac ako 200 afektívnymi anglickými hlasmi s rodným a nepôvodným akcentom. Súbor nástrojov pracuje s titulkami alebo jednoduchým textovým vstupom a ponúka personalizáciu hlasu, čo používateľom umožňuje klonovať hlasy pre jedinečné a prispôsobené rozprávanie alebo si vybrať z 200 hlasov, ktoré nástroj sprístupňuje. Pozrite sa na nástroj, ktorý sa používa.
Nástroj TTS môže zlepšiť prístupnosť a zapojenie obsahu kultúrneho dedičstva, napríklad pridaním viacjazyčných, emocionálne bohatých príbehov, aby boli výstavy zaujímavejšie pre rôzne publikum. Okrem toho nástroj poskytuje zdroj pre zrakovo postihnutých návštevníkov tým, že ponúka prístupný obsah vo forme podrobných zvukových opisov. Dokáže transformovať historické dokumenty do pútavých zvukových príbehových zážitkov, čo používateľom umožňuje pohlcujúci historický zážitok.
Video dabing alebo rozprávanie z obrazu do reči
Múzeá a kultúrne inštitúcie sa pri vzdelávaní a zapájaní návštevníkov často spoliehajú na videá. Vytváranie viacjazyčných verzií alebo rozprávanie tichých obrázkov však môže byť náročné. Systém SHIFT TTS ponúka bezproblémovú funkčnosť pre dabovanie videa a generovanie rozprávaných videí z obrázkov.
Jedna z kľúčových vlastností zariadenia na dabovanie videí umožňuje používateľom nahradiť pôvodný hlas vo videu rečou generovanou umelou inteligenciou (dokonca aj klonovaním hlasu historických postáv) pri starostlivom zachovaní emocionálneho tónu obsahu. Systém vyniká aj tichou vokalizáciou obrázkov, konverziou statických obrázkov prostredníctvom textových opisov na rozprávané videá, čím sa vizuálny obsah stáva prístupnejším a pútavejším pre rôzne publikum. Pozri príklad.
Funkcie dabingu videí a rozprávania obrázkov na reč umožňujú múzeám vytvárať viacjazyčné verzie svojho video obsahu, čím sa rozširuje prístupnosť pre medzinárodné publikum. Tieto nástroje môžu byť použité na pridanie rozprávania k umeleckým dielam a historickým artefaktom v digitálnych exponátoch, ktoré poskytujú bohatšie a pútavejšie rozprávanie, ktoré zvyšuje zážitok návštevníka. Integráciou hlasových hovorov vytvorených umelou inteligenciou môže nástroj SHIFT TTS zvýšiť interaktívnosť a prístupnosť online múzejných zážitkov, najmä pre tých, ktorí môžu mať zrakové postihnutie alebo uprednostňujú zvukový obsah.
Klonovanie hlasu pre personalizované rozprávanie
Jednou z najinovatívnejších vlastností technológie SHIFT TTS je jej schopnosť klonovania hlasu, ktorá používateľom umožňuje replikovať hlas rečníka na rozprávanie. Táto funkcia je obzvlášť užitočná na zachovanie hlasov historických osobností alebo rozprávačov a ponúka jedinečný a autentický spôsob, ako oživiť históriu.
Používatelia môžu nahrať krátku zvukovú vzorku a funkcia SHIFT TTS vygeneruje reč, ktorá napodobňuje hlas osoby. To zaisťuje, že klonovaný hlas si zachováva autentické emócie a rečové charakteristiky, čím vytvára realistickejší a pútavý zážitok. Funkcia klonovania hlasu otvára možnosti pre personalizované rozprávanie príbehov, najmä pre historické výstavy, kde by postavy ako Andy Warhol alebo Salvador Dalí mohli mať svoje hlasy klonované, aby rozprávali svoje vlastné príbehy a ponúkali hlbšie spojenie s obsahom.
Klonovanie hlasu umožňuje rekreáciu stratených alebo neúplných historických nahrávok, čím prináša dlhotrvajúce hlasy späť do života, aby diváci mohli zažiť. Túto funkciu môžu využívať aj kurátori múzeí, tvorcovia obsahu a iní, ktorí používajú svoje vlastné hlasy na rozprávanie, čím zabezpečujú konzistentný a osobný kontakt so zvukovými sprievodcami, výstavami a inými typmi obsahu.
Zvukové scény vytvorené umelou inteligenciou pre pohlcujúce rozprávanie príbehov
Na vytvorenie plne pohlcujúcich zážitkov spoločnosť SHIFT testovala integráciu AudioGen, nástroja umelej inteligencie, ktorý generuje realistické zvukové scény z textových popisov. Táto funkcia umožňuje pridávanie environmentálnych alebo okolitých zvukov na pozadí k výstavám a obohacuje ich o prispôsobené zvukové scény, ktoré zodpovedajú konkrétnemu časovému obdobiu alebo nastaveniu opísanému v expozícii. Staroveké trhy, bojové polia alebo posvätné priestory môžu byť oživené autentickými zvukmi pozadia vhodnými pre éru, ktoré pridávajú do rozprávania zmyslovú vrstvu, ktorá prehlbuje spojenie návštevníkov s históriou. Nástroj funguje vo viacerých jazykoch, pričom zabezpečuje jeho dostupnosť pre medzinárodné publikum a posilňuje medzikultúrnu angažovanosť. Pozrite sa na to v akcii s hlavným obrázkom tohto kusu nižšie!
Táto funkcia sa môže ukázať ako vysoko účinná aj pri prehliadkach múzeí virtuálnej reality (VR) a rozšírenej reality (AR), kde pohlcujúci zvuk môže výrazne zvýšiť pocit prítomnosti a realizmu. Zvukové scény môžu tiež zlepšiť prístupnosť pre zrakovo postihnutých návštevníkov a ponúknuť podrobné zvukové opisy historického prostredia a udalostí.
Prečo sú tieto nástroje dôležité pre odborníkov v oblasti kultúrneho dedičstva
Od múzeí a kultúrnych inštitúcií sa čoraz viac očakáva, že budú zapájať globálne, viacjazyčné a rôznorodé publikum. Vytváranie imerzívneho obsahu si však vyžaduje čas, zdroje a odborné znalosti, ktoré mnohým inštitúciám chýbajú.
Súbor zvukových nástrojov SHIFT podporuje prístupnosť tým, že poskytuje pútavé zvukové opisy pre zrakovo postihnutých návštevníkov a viacjazyčné rozprávanie pre rôznorodé publikum, čím sa zabezpečuje, aby sa s obsahom mohol zapojiť každý. Zvyšuje tiež angažovanosť tým, že využíva afektívnu reč a zvukové scény založené na umelej inteligencii na ponorenie publika do histórie a kultúry, čím vytvára fascinujúci zážitok.
Ďalšie informácie
Všetky nástroje v SHIFT Audio Toolkit budú k dispozícii pod jednou strechou na platforme SHIFT, ktorá je v súčasnosti vo vývoji. Táto platforma ponúkne jednoduchý prístup ku všetkým nástrojom SHIFT vrátane systému Text-to-Speech, video dabingu, generovania zvukovej scény a ďalších.
Ak chcete získať aktuálne informácie o najnovšom vývoji, nových funkciách a oficiálnom spustení platformy SHIFT, navštívte webovú stránku SHIFT a zaregistrujte sa do bulletinu SHIFT, aby ste dostávali aktuálne aktualizácie, tipy a oznámenia priamo do vašej schránky doručenej pošty.
Tento príspevok napísal Dionyssos Kounadis-Bastian, Senior AI Researcher, audEERING GmbH a Maria Kagkelidou, komunikačná manažérka, Organizácia pre správu dedičstva.
