• Non ci sono risultati.

Come sottolineato nella sezione 1.7 .1 di questo elaborato, valutare la qualità di una traduzione non è un compito affatto semplice, principalmente perché “quality of a translation is a subjective measure” (Tirronen, 2011: 26). Se si considera la valutazione della qualità di un testo orale, la situazione si complica ulteriormente. Nel saggio “Aspetti della qualità in interpretazione”, Viezzi sottolinea “l'intrinseca difficoltà di analisi di un prodotto evanescente come il testo orale” (Viezzi, 1999: 142). Pur non spingendosi fino a paragonare l'output di un sistema di traduzione automatica del parlato a

quello prodotto da un interprete umano, una difficoltà simile a quella descritta da Viezzi sembra riscontrabile anche nella valutazione della traduzione automatica del parlato.

Benché sia “extremely difficult theoretically to evaluate the accuracy of speech translation” (Nakamura, 2009: 39), come per altre Human Language Technologies, anche per la traduzione automatica del parlato la valutazione della qualità è fondamentale, non solo per gli utenti stessi della SST, ma anche, e soprattutto, ai fini del pro gresso scientifico e tecnologico in questo campo.26 A questo scopo ogni anno vengono organizzati alcuni International evaluation workshops, workshop internazionali durante i quali gli istituti di ricerca partecipanti sono chiamati a creare sistemi di SST pa rtendo da un “common dataset” (Nakamura, 2009: 41), in quella che diventa una vera e propria competizione. La valutazione dei vari sistemi così creati, dei loro pregi e punti deboli, rappresenta un importante motore per lo sviluppo della tecnologia SST (ibid.).

Attualmente, come per la MT, la comunità scientifica adotta diversi metodi per valutare la qualità nella traduzione automatica del parlato (per una definizione di qualità, si veda 1.7 .1). Innanzitutto è possibile distinguere le varie tipologie di valutazione in base all'oggetto della valutazione stessa. Nella SST, infatti, un primo tipo di valutazione si concentra sulla qualità audio dell'output, ovvero sulla performance del modulo di sintesi vocale;27 un secondo tipo di valutazione è invece incentrato sul “meaning preservation”,28 quindi sul contenuto dell'output tradotto e sulla “equivalence

between the source and the target language” (Tirronen, 2011: 26).

Per quest'ultimo tipo di valutazione, Nakamura descrive un metodo simile a quello adottato per la valutazione della qualità nella traduzione automatica (Nakamura, 2009: 39): escludendo la valutazione della performance del modulo di sintesi vocale, è suffic iente sottoporre al sistema SST una serie di frasi (pronunciate oralmente) da tradurre, e valuta re l'output prodotto,

26 ELRA (European Language Resources Association), Human Language Technologies Evaluation: Why

is Evaluation important?. Visitato: 11/04/2016. Link:http://www.hlt-evaluation.org/spip.php?article139

27 ELRA (European Language Resources Association), Human Language Technologies Evaluation:

Speech-to-Speech Translation, Measures. Visitato: 11/04/2016. Link: http://www.hlt-evaluation.org/spip.php?article146

secondo parametri oggettivi o soggettivi.

L'adozione di parametri di valutazione oggettivi, come B LEU, NIST (si veda sezione 1.7.2) e WER (Word Error Rate), è indubbiamente vantaggiosa: da un lato, producendo come risultato valori nu merici, permette di confrontare le prestazioni di sistemi diversi in modo oggettivo (Nakamura, 2009: 39); dall'altro consente ai ricercatori di effettuare in modo rapido ed economico una grande quantità di valutazioni (Grazina, 2010), processo fondamentale durante le fasi di sviluppo di un nuovo sistema di SST.

Un'altra opzione è quella della valutazione soggettiva, basata cioè sul giudizio di traduttori e interpreti professionisti, linguisti, parlanti bilingue o altri esperti (Grazina, 2010: 11). In quest o caso la valutazione può essere effettuata tramite il confronto fra l'output prodotto dal sistema di SST e una o più traduzioni di riferimento preparate in precedenza (Nakamura, 2009: 39), oppure fra testo source e testo target. A seconda dei casi, la val utazione soggettiva dell'output può basarsi anche su test di comprensione o questionari di vario tipo (compilabili anche da utenti monolingue), ma in genere, anche in questi casi, alla base c'è comunque un confronto fra l'output automatico e una traduzione di riferimento (effettuata idealmente da un interprete umano).29

Pur presentando alcuni svantaggi pratici, quali i costi elevati, e altri svantaggi relativi all'efficacia (si veda sezione 1.7.2 ) la valutazione soggettiva resta molto importante: “because of the linguistic knowledge humans possess, subjective evaluation reflects the actual, true quality of the translation” (Tirronen, 2011: 26).

È inoltre possibile sia valutare il sistema SST nel suo complesso, sia valutare separatamente i moduli che lo compon gono, in modo da identificare i singoli moduli responsabili di eventuali errori contenuti nell'output (si veda Rossato et al., 2002). Un metodo per compiere questo tipo di valutazione è quello di verificare dapprima la correttezza dell'output del modulo AS R nella lingua source (quando possibile), e solo in un secondo luogo la correttezza della traduzione effettuata dal modulo MT (Tirronen, 2011: 27).

Occorre infine considerare che lo scenario di impiego dei sistemi di SST è

quello di una conversazione fra i nterlocutori che parlano due lingue diverse. Ecco perché è importante che questi sistemi vengano testati anche tramite field experiments, ovvero test condotti nel mondo reale, o, in generale, in situazioni in cui l'interazione fra gli interlocutori dipende dalla “mediazione” garantita dal sistema di traduzione automatica del parlato. L'importanza di questo tipo di test valutativo viene sottolineata anche da Nakamura, che, a proposito dei metodi oggettivi di valutazione della qualità, spiega come questi, pur avendo molti lati positivi, non possano fornire un'indicazione sulla performance del sistema di SST nel mondo reale (Nakamura, 2009: 39). Un field experiment prevede in genere l'interazione fra interlocutori che parlano lingue diverse e può essere condott o, ad esempio, in uffici di informazioni turistiche o in altri contesti in cui abitualmente avviene il contatto fra persone di lingue e culture diverse. Ai partecipanti può essere chiesto di portare a termine incarichi più o meno complessi; in un test condotto in ambito turistico tali incarichi potrebbero includere la richiesta di indicazioni o informazioni, la prenotazione di un alloggio, e così via. Infine viene valutata l'efficacia della comunicazione mediata dal sistema SST, analizzando ad esempio il numero di frasi che è stato necessario ripetere, il numero di frasi tradotte correttamente, il numero di incarichi portati a termine dai partecipanti, ecc., a seconda dei parametri scelti dai ricercatori. Nel prossimo capitolo verrà presentato un test di valutazione di due applicazioni per la traduzione automatica del parlato, condotto alla luce delle precedenti considerazioni sulla va lutazione della qualità in SST. Di tale test verranno descritte in particolare la metodologia, gli obiettivi , lo svolgimento e le modalità di valutazione adottate.

III

Google Translate e Microsoft Translator: Valutazione di

due applicazioni per la traduzione automatica del

parlato

3.1 Introduzione

In questo capitolo verrà presentato un test di valutazione condotto su due applicazioni per smartphone e tablet create da due multinazionali concorrenti che operano nel settore informatico e da anni si occupano di traduzione automatica. Le applicazioni oggetto di valutazione sono Google Translate (sviluppata da Google Inc.) e Microsoft Translator (sviluppata da Microsoft Corporation), che verranno analizzate e valutate unicamente in merito al servizio di traduzione automatica del parlato.

È importante sottolineare che con il test descritto in questo capitolo non si intende dare un giudizio complessivo della performance delle due applicazioni. La valutazione è da considerarsi limitata innanzitutto al servizio di traduzione automatica del parlato e in secondo luogo agli output prodotti dalle due applicazioni nell'ambito del test condotto.

In questo capitolo verrà presentata la metodologia adottata per lo svolgimento del test. Verranno descritti dapprima gli obiettivi del test, le caratteristiche delle applicazioni d'oggetto d'analisi, il materiale selezionato per la traduzione automatica del parlato e i partecipanti; infine verrà illustrato lo svolgimento del test di valutazione, nonché i criteri adottati per valutare i risultati, che verranno presentati nel capitolo IV.