Incontri ravvicinati con l'IA: un'intervista sulla sottotitolazione automatica

Pubblicato 13 giugno 2024 di

Marco Rendina (European Fashion Heritage Association)

Mauro Cettolo (Bruno Kessler Foundation)

Marco Rendina: Partiamo dall'inizio. Puoi darci una definizione di sottotitoli?

Mauro Cettolo: Certo che sì. I sottotitoli sono brevi pezzi di testo che di solito appaiono nella parte inferiore di uno schermo. Molti, se non tutti, hanno visto i sottotitoli almeno una volta nella vita, ad esempio quando guardano un film in una lingua che non parliamo. Estendono l'accessibilità dei contenuti audiovisivi a persone che non conoscono la lingua in cui sono parlati o, per vari motivi, non possono ascoltare l'audio.

MR: Ah, naturalmente, quindi i sottotitoli sono traduzioni di ciò che viene detto?

MC: In realtà, ci sono diversi tipi di sottotitoli. Oltre ai sottotitoli che presentano agli utenti traduzioni effettive di ciò che viene detto, c'è la sottotitolazione nella stessa lingua del discorso, così come una forma più ricca di sottotitoli, che include la descrizione dei suoni, rendendo i contenuti più accessibili.

MR: A che tipo di sottotitolazione sta lavorando il progetto AI4Culture?

Ci stiamo concentrando sulla sottotitolazione multilingue, seguendo il nostro sogno di rendere i contenuti video disponibili attraverso Europeana.eu accessibili attraverso le lingue a un pubblico sempre più diversificato. Questa è una linea di ricerca attiva e stimolante che negli ultimi anni ha visto l'emergere di vari approcci automatici. Questi includono i cosiddetti approcci "a cascata", in cui il compito è affrontato da una serie di componenti di IA separate per la segmentazione audio, la trascrizione vocale, la traduzione di testo e la temporizzazione. Include anche nuove soluzioni, in cui l'attività viene eseguita da un unico modello neurale progettato per eseguire tutte le fasi del processo.

MR: Quali sfide pone lo sviluppo di approcci automatici per la sottotitolazione?

MC: La sottotitolazione multilingue non è una semplice traduzione. È un compito sfaccettato, reso più complicato dalla necessità di bilanciare molti aspetti contemporaneamente.

Partiamo dall'input audio: solo questo aspetto, preso isolatamente, presenta delle sfide in un'area di ricerca oggi molto attiva, nota come Speech Translation. Si consideri, ad esempio, il fatto che le parole nel testo scritto sono delimitate da spazi, mentre nel discorso audio ci raggiunge come un flusso continuo, in cui spesso le parole diventano difficili da distinguere l'una dall'altra.

Se aggiungiamo a questo il fatto che le parole pronunciate ci arrivano distorte da particolari accenti, pronuncia, esitazioni, con l'interferenza della musica e dei rumori di sottofondo, o con la confusione causata dalla sovrapposizione di più altoparlanti, possiamo immaginare le difficoltà che una macchina, un modello software, affronta in un compito apparentemente semplice come la traduzione del discorso.

MR: Ora capiamo perché hai definito il sottotitolaggio come un compito sfaccettato! Cos'altro lo rende difficile?

MC: Bene - il tipo di traduzione richiesta dalla sottotitolazione è un tipico esempio di quella che chiamiamo traduzione vincolata. Un buon sottotitolo deve soddisfare requisiti specifici, deve essere minimamente invasivo. Per essere di facile utilizzo, i sottotitoli devono ridurre al minimo il carico cognitivo richiesto all'utente per leggere il testo mentre guarda il contenuto. In questo modo, una persona può godere dei contenuti video senza distrazioni e, soprattutto, senza sforzi eccessivi dovuti alla lettura.

MR: Quali vincoli deve soddisfare un sottotitolo per evitare di essere invasivo?

MC: I vincoli sono temporali, spaziali e sintattici. Da un punto di vista temporale, i sottotitoli devono essere perfettamente allineati con il flusso video, per evitare situazioni in cui qualcuno sta parlando ma non possiamo leggere quello che stanno dicendo. Da un punto di vista spaziale, i sottotitoli devono essere abbastanza concisi da non richiedere troppo tempo per leggere e ridurre i movimenti oculari (noti come saccades) necessari per la lettura. Infine, ci sono vincoli sintattici; la suddivisione di un sottotitolo in righe non dovrebbe separare i costituenti delle frasi. Non si tratta di principi generali: esistono norme rigorose, anche se leggermente diverse tra i fornitori di contenuti.

MR: È possibile per le macchine eseguire questi compiti che, solo pochi anni fa, erano considerati irraggiungibili?

MC: In parte sì, grazie anche a progetti come AI4Culture. Oggi abbiamo modelli basati sulla rete neurale in grado di generare sottotitoli accettabili per diverse coppie di lingue. "Accettabile" significa che non sono certamente adatte alle principali produzioni hollywoodiane, ma utilizzabili per quell'enorme quantità di materiale audiovisivo che altrimenti rimarrebbe per sempre inaccessibile a causa delle barriere linguistiche e della mancanza di risorse per la traduzione. A volte i nostri modelli commettono ancora errori, anche divertenti, ma siamo sulla strada giusta: formiamo modelli su linguaggi specifici, e i risultati sono sufficienti per trasmettere il significato di ciò che è stato detto e, se possibile, sono adatti per revisioni manuali - molto meglio che partire da zero!

MR: Suona grande - quali sono le prossime sfide che dovremo affrontare allora?

MC: Ne menzionerò tre.

La prima riguarda la valutazione automatica dei sistemi. Al momento, le nostre valutazioni sono frammentate in una moltitudine di metriche per valutare i modelli rispetto a ciascuno dei vincoli in gioco. Combinare questi giudizi in un singolo punteggio rimane un problema complesso, così come uno dei miei principali interessi di ricerca nell'immediato futuro.

Il secondo è quello della copertura linguistica: Oggi siamo in grado di affrontare un insieme molto limitato di coppie linguistiche, per lo più incentrate sull'inglese. Tuttavia, ci sono oltre 7.000 lingue nel mondo e, per la maggior parte di esse, non ci sono dati, né strumenti e modelli informatici.

La terza sfida è quella ambientale. L'intelligenza artificiale di oggi è in grado di fare grandi cose, ma i costi energetici dei cosiddetti modelli di base, che dipendono da enormi risorse computazionali, sono estremamente elevati. Ancora molto da fare, ma progetti come AI4Culture ci danno la possibilità di condividere il nostro lavoro con il mondo e avanzare collettivamente sul campo.

MR: Grazie per le vostre intuizioni in questa area di ricerca stimolante ed emozionante. D'ora in poi, godremo di sottotitoli con una prospettiva completamente diversa e molto più consapevole!

Scopri di più

Entro la fine dell'estate, la pipeline di sottotitolaggio automatico presentata sopra sarà integrata in uno strumento di sottotitolaggio automatico open source e di facile utilizzo. Consentirà agli istituti di tutela del patrimonio culturale di creare automaticamente sottotitoli in otto lingue per i loro materiali audiovisivi, consentendone anche l'editing e la convalida manuali.

A settembre 2024, AI4Culture lancerà anche una piattaforma in cui gli strumenti aperti, come lo strumento di sottotitolazione automatica, saranno resi disponibili online, insieme alla relativa documentazione e ai materiali di formazione.

Tieni d'occhio la pagina del progetto su Europeana Pro per maggiori dettagli e resta sintonizzato sul progetto LinkedIn e sull'account X! Per ora, tutte le persone interessate a implementare la pipeline di sottotitolazione automatica possono esplorare il codice open source disponibile su GitHub.

Incontri ravvicinati con l'IA: un'intervista sulla sottotitolazione automatica

Condividi

Scopri di più

Scopri i contenuti correlati