SHIFT es un proyecto financiado por el programa Horizonte Europa de la UE para desarrollar herramientas especializadas adaptadas a diferentes aspectos de la participación en el patrimonio cultural. El primero en ser presentado es el kit de herramientas de audio SHIFT, que es pionero en la síntesis de voz impulsada por IA, el habla impulsada por la emoción, la accesibilidad multilingüe y los paisajes sonoros inmersivos.
Creado por el consorcio SHIFT con audEERING a la cabeza, este kit de herramientas aprovechará el poder del texto a voz (TTS), el reconocimiento de emociones, el doblaje de video y la generación de paisajes sonoros para crear experiencias inmersivas que dan vida al patrimonio.
SHIFT TTS: un sistema afectivo y multilingüe de texto a voz
SHIFT TTS es un sistema de texto a voz (una tecnología que puede leer en voz alta cualquier texto escrito) que genera un habla emocionalmente expresiva de alta calidad en múltiples idiomas. A diferencia de las herramientas TTS tradicionales, que suenan robóticas, SHIFT TTS incorpora la síntesis afectiva del habla, lo que significa que puede expresar emociones como emoción, calma o solemnidad en función del contenido que narra.
La herramienta SHIFT TTS admite múltiples idiomas, incluidos el albanés, el húngaro, el rumano, el serbio, el alemán, el griego y el inglés, con más de 200 voces inglesas afectivas con acentos nativos y no nativos. El kit de herramientas funciona con subtítulos o entrada de texto sin formato, y ofrece personalización de voz, lo que permite a los usuarios clonar voces para una narración única y personalizada, o elegir entre las 200 voces que la herramienta pone a disposición. Ver la herramienta en uso.
La herramienta TTS puede mejorar la accesibilidad y la participación de los contenidos del patrimonio cultural, por ejemplo, añadiendo narraciones multilingües y emocionalmente ricas para hacer que las exposiciones sean más atractivas para diversos públicos. Además, la herramienta proporciona un recurso para los visitantes con discapacidad visual al ofrecer contenido accesible en forma de descripciones de audio detalladas. Puede transformar documentos históricos en experiencias de narración de audio atractivas, lo que permite a los usuarios una experiencia histórica inmersiva.
Doblaje de vídeo o narración de imagen a voz
Los museos y las instituciones culturales a menudo dependen de videos para educar e involucrar a los visitantes. Sin embargo, crear versiones multilingües o narrar imágenes silenciosas puede ser un desafío. El sistema SHIFT TTS ofrece una funcionalidad perfecta para el doblaje de videos y la generación de videos narrados a partir de imágenes.
Una de las características clave de la instalación de doblaje de video permite a los usuarios reemplazar la voz original en un video con el habla generada por IA (incluso clonando la voz de figuras históricas) al tiempo que preserva cuidadosamente el tono emocional del contenido. El sistema también sobresale en la vocalización silenciosa de imágenes, convirtiendo imágenes fijas a través de descripciones de texto en videos narrados, haciendo que el contenido visual sea más accesible y atractivo para diversas audiencias. Véase un ejemplo.
Las características de doblaje de video y narración de imagen a voz permiten a los museos crear versiones multilingües de su contenido de video, ampliando la accesibilidad para audiencias internacionales. Estas herramientas se pueden utilizar para agregar narración a obras de arte y artefactos históricos en exposiciones digitales, proporcionando una narración más rica y atractiva que mejora la experiencia del visitante. Al integrar voces en off generadas por IA, la herramienta SHIFT TTS puede hacer que las experiencias museísticas en línea sean más interactivas y accesibles, especialmente para aquellos que pueden tener discapacidades visuales o prefieren contenido basado en audio.
Clonación de voz para una narración personalizada
Una de las características más innovadoras de SHIFT TTS es su capacidad de clonación de voz, que permite a los usuarios reproducir la voz de un orador para la narración. Esta característica es particularmente útil para preservar las voces de figuras históricas o narradores, ofreciendo una forma única y auténtica de dar vida a la historia.
Los usuarios pueden cargar una breve muestra de audio, y SHIFT TTS generará un discurso que imita la voz de la persona. Esto asegura que la voz clonada retenga emociones auténticas y características del habla, creando una experiencia más realista y atractiva. La función de clonación de voz abre posibilidades para la narración personalizada, particularmente para exposiciones históricas, donde figuras como Andy Warhol o Salvador Dalí podrían clonar sus voces para narrar sus propias historias, ofreciendo una conexión más profunda con el contenido.
La clonación de voz permite la recreación de grabaciones históricas perdidas o incompletas, haciendo que las voces desaparecidas vuelvan a la vida para que el público las experimente. Los curadores de museos, creadores de contenido y otros también pueden beneficiarse de esta función utilizando sus propias voces para narraciones, asegurando un toque consistente y personal a las audioguías, exposiciones y otros tipos de contenido.
Paisajes sonoros generados por IA para una narración inmersiva
Para crear experiencias totalmente inmersivas, SHIFT ha probado la integración de AudioGen, una herramienta de IA que genera paisajes sonoros realistas a partir de descripciones de texto. Esta característica permite la adición de sonidos ambientales o de fondo ambiental a las exposiciones, enriqueciéndolas con paisajes sonoros personalizados que coinciden con el período de tiempo específico o el entorno descrito en la exposición. Los mercados antiguos, los campos de batalla o los espacios sagrados pueden cobrar vida con sonidos de fondo auténticos y apropiados para la época, agregando una capa sensorial a la narración que profundiza la conexión de los visitantes con la historia. La herramienta funciona en varios idiomas, garantizando su accesibilidad a audiencias internacionales y mejorando el compromiso intercultural. ¡Míralo en acción con la imagen principal de esta pieza a continuación!
Esta característica también puede resultar altamente efectiva en visitas a museos de realidad virtual (VR) y realidad aumentada (AR), donde el audio inmersivo puede mejorar significativamente la sensación de presencia y realismo. Los paisajes sonoros también pueden mejorar la accesibilidad para los visitantes con discapacidad visual, ofreciendo descripciones de audio detalladas de escenarios y eventos históricos.
Por qué estas herramientas son importantes para los profesionales del patrimonio cultural
Se espera cada vez más que los museos y las instituciones culturales involucren a audiencias globales, multilingües y diversas. Sin embargo, crear contenido inmersivo requiere tiempo, recursos y experiencia de los que carecen muchas instituciones.
El kit de herramientas de audio SHIFT admite la accesibilidad al proporcionar descripciones de audio cautivadoras para visitantes con discapacidad visual y narración multilingüe para una amplia gama de audiencias, asegurando que todos puedan interactuar con el contenido. También mejora el compromiso mediante el uso del habla afectiva impulsada por la IA y los paisajes sonoros para sumergir a las audiencias en la historia y la cultura, creando una experiencia cautivadora.
Descubre más
Todas las herramientas del kit de herramientas de audio SHIFT estarán disponibles bajo un mismo techo en la plataforma SHIFT, que se encuentra actualmente en desarrollo. Esta plataforma ofrecerá un fácil acceso a todas las herramientas SHIFT, incluido el sistema Text-to-Speech, doblaje de video, generación de paisaje sonoro y más.
Para mantenerse actualizado sobre los últimos desarrollos, nuevas características y el lanzamiento oficial de la plataforma SHIFT, visite el sitio web de SHIFT e inscríbase en el boletín informativo de SHIFT para recibir actualizaciones oportunas, consejos y anuncios directamente en su bandeja de entrada.
Este post fue escrito por Dionyssos Kounadis-Bastian, Senior AI Researcher, audEERING GmbH y Maria Kagkelidou, Gerente de Comunicaciones, The Heritage Management Organization.
