• Non ci sono risultati.

Come già accennato nelle sezioni precedenti, i sistemi di traduzione automatica del parlato consentono di tradurre in modo automatico e quasi istantaneo un testo orale, pronunciato da un parlante , da una lingua A a una lingua B. La traduzione, fornita nel giro di pochi s econdi, può avere forma scritta, nel caso della Spoken Language Translation (SLT), oppure forma orale, nel caso dei veri e propri sistemi di Speech -to-Speech Translation (AA.VV., 2006: 54-55).

Gli strumenti SLT, simili ai sistemi di SST, ma meno ambiziosi, partono da un input orale per produrre un output (tradotto) in forma scritta; possono quindi essere utilizzati come supporto alla comunicazione, pur non consentendo un dialogo vero e proprio. Altri strumenti con scopo simile sono i cosiddetti “voice activated phrase lookup systems” (Zhang, 2003), frasari elettronici attivati tramite input vocale. Un prodotto di questo genere è Phraselator, un dispositivo portatile creato da VoxTec per la traduzione vocale unidirezionale, che consente all'utente di sceglier e fra migliaia di parole o frasi predefinite mostrate sul display e di ottenere la traduzione corrispondente in diverse lingue. In questo caso, la “pronuncia” dell'output non avviene grazie a un modulo di sintesi vocale, ma grazie a traduzioni pre - registrate, pronunciate da parlanti nativi delle lingue target offerte da Phraselator (ibid.). Anche questo strumento non rappresenta un vero e proprio sistema di SST e non consente una comunicazione bidirezionale, ma è stato utilizzato con successo dall'esercito americano durante operazioni in Croazia, Iraq, Indonesia, ecc. (Hutchins, 2009: 17).

I veri e propri sistemi di Speech -to-Speech Translation, invece, presentano un maggiore grado di complessità. Infatti la tecnologia SST consente, almeno sulla carta, una sorta di dialogo vero e proprio fra parlante della lingua A e parlante della lingua B, in cui il sistema di SST assume il ruolo di “mediatore linguistico”.

Per consentire questo tipo di comunicazione un sistema di SST si avvale di tre tecnologie distinte (Nakamura, 2009: 35):

 riconoscimento vocale, o Automatic Speech Recognition (ASR), che permette alla macchina di riconoscere l'input vocale di chi parla; questa è una tecnologia ampiamente diffusa oggi, come dimostrano l'utilizzo di sistemi di dettatura e il fatto che smartphone, automobili e altri dispositivi elettronici siano spesso dotati di funzioni attivabili tramite comandi vocali o di “assistenti virtuali”, a cui è possibile chiedere informazioni semplicemente parlando (si pensi a Siri sui dispositivi Apple o alla app Ask Ziggy su Windows Phone).24 Nella traduzione automatica del parlato il riconoscimento vocale avviene in genere in pochi secondi: deve essere più rapido rispetto alla digitazione manuale, altrimenti, a parità di tempo impiegato, l'alternativa più vantaggiosa per gli utenti risulterebbe essere quest'ultima, indubbiamente più precisa rispetto alla tecnologia ASR (è l'utente stesso a digitare il testo da tradurre e dunque ad averne il controllo);

 traduzione automatica (MT o SLT), che consente di tradurre in modo automatico le parole riconosciute tramite l'ASR; il modulo di traduzione automatica può presentare diversi tipi di architettura, come spiegato nella sezione 1.3 (ad esclusione degli approcci transfer e diretto, che non vengono adottati nella SST);

 sintesi vocale, o Text to Speech Synthesis (TTS), che sintetizza il testo tradotto nella lingua di arrivo, riproducendo artificialmente la voce umana, idealmente preservando l'identità del parlante della SL (Source Language) e le caratteristiche prosodiche del testo source.

In termini pratici, il funzionamento di un sistema di SST può essere riassunto schematicamente come segue

[l]a voce di chi parla viene immessa nel computer tramite un microfono ed elaborata da un programma di riconosci mento vocale che trasforma i suoni

24 Microsoft, Microsoft Research: How technology can bridge language gaps. Speech-to-speech

translation promises to help connect our world. Visitato: 30/03/2016. Link: http://research.microsoft.com/en-us/research/stories/speech-to-speech.aspx

in lettere e parole. Una volta che un testo orale è stato immesso e trasformato in testo scritto, esso viene tradotto e infine elaborato da un programma di sintesi vocale che trasforma le parole scritte in suoni emessi da un altoparlante.

(Zanettin, 2001: 40)

Un'ulteriore rappresentazione del funzionamento di un sistema di Speech -to- Speech Translation è fornita in Figura 1 (adattata da: AA.VV., 2006: 54):

Speech in source language

Figura 1

Funzionamento di un sistema di traduzione automatica del parlato .

Come si vede in figura, il parlato della lingua source viene convertito in testo dal modulo di riconoscimento vocale automatico (ASR). L'ouput prodotto dal modulo ASR passa poi al modulo di traduzion e automatica (MT o SLT), che analizza il testo (incluse eventuali false partenze, esitazioni, frasi sgrammaticate e altri elementi tipici del parlato) e lo traduce automaticamente. L'output prodotto da questo modulo, ovvero il testo nella lingua target, costituisce l'input per il modulo di sintesi vocale (TTS), che sintetizza il parlato nella lingua target, sfruttando anche le informazioni

Automatic Speech Recognition (ASR)

Text in source language Spoken Language

Translation (SLT)

Text in target language

Text-To-Speech (TTS)

Speech in target language

Voice characteristics

sulla lingua source (ad esempio, dati relativi alla prosodia) fornite dal modulo ASR (AA.VV., 2006: 54).

Per quanto riguarda il funzionamento specifico del modulo MT, sono due gli approcci adottati (Grazina, 2010: 6 -7): l'approccio interlingua, il primo ad essere applicato ai sistemi di SST, adottato ad esempio nel sistema NESPOLE! (si veda sezione 2.3); l'approccio stati stico, introdotto più tardi e oggi prevalente. Il funzionamento dei moduli ASR e TTS, invece, si basa spesso su database di conversazioni registrate; in questo caso si parla di “corpus-based speech recognition and synthesis” (Nakamura, 2009: 39). La Figura 1 mostra quanto un sistema di SST possa essere complesso, dal momento che si basa su diverse tecnologie interdipendenti, introdotte in tempi relativamente recenti e ancora da perfezionare.

Esiste tuttavia un'alternativa ancora più ambiziosa della normale SST: la SST simultanea, una delle sfide più ardue nel campo della traduzione della lingua parlata (Grazina, 2010: 9). Idealmente, un sistema di SST simultaneo offrirebbe la traduzione simultanea di qualsiasi tipo di discorso e potrebbe essere utilizzato per tradurre ad esempio il contenuto di lezioni, seminari e presentazioni (ibid.). È facile intuire come in questo caso le sfide da affrontare si moltiplichino: alle “tradizionali” difficoltà della tecnologia SST si aggiungono quelle legate alla traduzione simultanea, una tecnica in cui il fattore tempo, la segmentazione della frase e la riformulazione dei contenuti rivestono un ruolo fondamentale.

Nonostante le difficoltà, la traduzione automatica simultanea del parlato, ormai da alcuni anni oggetto di studio di alcuni gruppi di ricercatori internazionali, produce già i primi risultati: un esempio è il Lecture Translator, sviluppato dall'università tedesca di Karlsruhe. Questo sofisticato sistema, finora testato durante alcune lezioni tenutesi presso l'univ ersità stessa, si avvale delle tecnologie ASR e MT per fornire la traduzione automatica e simultanea delle lezioni dal tedesco all'inglese, in forma scritta (è dunque assente il modulo TTS); ogni traduzione è consultabile da PC o smartphone,25 e viene poi pubblicata online su un sito accessibile agli studenti dell'università.

25 Karlsruhe Institute of Technology, Interactive System Labs: Lecture Translation. Visitato: 12/04/2016.

2.5 Problematiche e sfide della traduzione automatica del