• Non ci sono risultati.

2.5 Problematiche e sfide della traduzione automatica del parlato

2.5.1 Analisi delle problematiche e delle sfide della traduzione automatica

Se la FAHQMT rimane un sogno nell'ambito della traduzione automatica di testi scritti, questo vale a maggior ragione per la traduzione automatica del parlato (Zong e Seligman, 2005). Questo tipo di tecnologia presenta infatti le stesse problematiche della MT tradizionale, dal momento ch e si avvale di un modulo di traduzione automatica, e numerose problematiche aggiuntive, che nel corso degli ultimi anni sono state superate solo parzialmente.

Un primo grande ostacolo è rappresentato dal linguaggio parlato stesso. Occorre considerare, infatti, che un sistema di SST, contrariamente a un sistema di MT, traduce testi orali, idealmente dialoghi. Questo rappresenta un compito molto più complesso rispetto alla traduzione di testi scritti (Nakamura, 2009: 36), soprattutto se si considera che trad izionalmente la MT si è sempre concentrata su testi “ben formulati” e caratterizzati da un linguaggio tecnico-scientifico (Hutchins, 2009: 16). La lingua parlata, con cui si deve confrontare la Speech -to-Speech Translation, presenta caratteristiche molto diverse rispetto a quella scritta, nonché difficoltà aggiuntive per una macchina: basti pensare a false partenze, riformulazioni e ripetizioni, all'uso di termini colloquiali o di espressioni idiomatiche, alla sintassi tipica del parlato, e così via. Questi elementi possono mettere in difficoltà non solo il modulo di riconoscimento vocale, ma anche quello di traduzione automatica.

Il parlato, inoltre, non è visualizzabile graficamente; ciò significa, ad esempio, che quello che in un testo scritto è facilmen te riconoscibile come nome proprio grazie all'iniziale maiuscola, non è altrettanto riconoscibile all'interno di una conversazione, soprattutto se questa viene analizzata da una macchina che non ha conoscenza del mondo. Allo stesso modo, non è possibile visualizzare la punteggiatura in un testo pronunciato (Nakamura,

2009: 36). Il sistema di SST deve quindi essere progettato in modo da riuscire a scomporre la frase enunciata negli elementi che la compongono, percepire pause e cambi di intonazione. Non di ra do però insorgono problemi derivanti da una scorretta interpretazione della punteggiatura della frase da parte del sistema, ad esempio nel caso di frasi interrogative scambiate dal sistema per frasi affermative (si pensi all'italiano, dove spesso la domand a viene segnalata esclusivamente dall'intonazione della frase).

Occorre inoltre ricordare che la comunicazione, anche in una situazione in cui sono due parlanti della stessa lingua ad interagire vis à vis, “può essere soggetta a molte incomprensioni per l a mancanza di un senso comune condiviso” (Lazzari, 2002: 213); tali incomprensioni non sono di certo assenti in una conversazione mediata da un sistema di SST. La comunicazione, come ricorda Lazzari, è spesso orientata al raggiungimento di un obiettivo (ibid.) e si basa su meccanismi sottili, difficilmente percepibili da una macchina (come modestia, eufemismo, ironia, ecc.). Ostacoli inerenti il parlato che interessano in modo specifico la performance del modulo di riconoscimento vocale riguardano la veloc ità di eloquio, le espressioni non verbali (come risate, colpi di tosse, ecc.; Lazzari, 2002: 213), e la variabilità dell'input vocale (Hutchins, 2009: 16), che si traduce in diversi accenti e pronunce, che possono variare anche fra i parlanti della stessa lingua. Per quanto riguarda quest'ultimo aspetto, occorre considerare che solamente i sistemi di SST speaker-dependent possono essere “addestrati” a riconoscere il modo di parlare di un determinato utente; i sistemi speaker-independent, invece, pur avendo il pregio di essere utilizzabili da tutti, necessariamente non potranno essere altrettanto precisi nel riconoscimento vocale (Zong e Seligman, 2005).

Ulteriori difficoltà per il modulo ASR hanno origine dal rumore ambientale (Lazzari, 2002: 213), che può interferire con il riconoscimento vocale del vero e proprio “testo” da tradurre. In particolare, nel caso delle app per la traduzione automatica del parlato, che possono essere utilizzate ovunque, compresi i luoghi più affollati, l'input vocale viene tras messo attraverso il microfono interno del cellulare, e, nel caso non avvenga una corretta soppressione del rumore di sottofondo, questo rischia di pregiudicare la performance del sistema di SST.

Sebbene negli ultimi anni si sia verificato un forte migliora mento nelle prestazioni dei sistemi di riconoscimento vocale, esistono ancora circostanze in cui il livello di accuratezza non è sufficiente. In un sistema di SST, in cui un corretto riconoscimento vocale è condizione fondamentale per ottenere un output tradotto di qualità, eventuali errori del modulo ASR si riflettono anche sulla performance del modulo di traduzione automatica, che tenderà a propagarli, generando traduzioni errate o insensate (Nakamura, 2009: 36). Anche escludendo errori da parte del modu lo ASR, la traduzione automatica della lingua parlata risulta comunque particolarmente difficoltosa. Ciò, fra gli altri motivi, è dovuto al fatto che la comunicazione dialogica è interpersonale e in genere dipendente dal contesto (Hutchins, 2009: 16); questo significa che molti elementi possono essere compresi correttamente solo nel contesto immediato della conversazione, oppure vengono dati per scontati dagli interlocutori e non vengono espressi esplicitamente.

Anche la struttura sintattica e le caratteri stiche della frase possono variare da lingua scritta a lingua parlata, rendendo più arduo il compito del modulo di traduzione automatica del sistema di SST; nel parlato alcuni elementi della frase vengono talvolta sottintesi (ellissi), la frase può rimaner e incompleta (Hutchins, 2005) e, in italiano, sono frequenti costrutti sintattici come la dislocazione a destra o a sinistra, che modificano l'ordine tradizionale della frase SVO e possono facilmente generare errori di traduzione.

Infine, per quanto riguarda il modulo di sintesi vocale, più che di problematiche vere e proprie, è corretto parlare di sfide; queste riguardano ad esempio la capacità del modulo TTS di riprodurre le emozioni espresse dal parlante e la sua prosodia, di dare un'intonazione corrett a alle domande, ecc.

Nella sezione successiva si vedrà che, come per la traduzione automatica, anche nel caso della traduzione automatica del parlato esistono alcuni accorgimenti che consentono di ridurre le probabilità di errore e di sopperire ai limiti della tecnologia SST.

2.5.2 La cooperazione dell'utente come strumento per sopperire ai