Traduzione e computer
Cris%na Bosco
Informa%ca applicata alla comunicazione mul%mediale
2016-‐2017
Problemi nel valutare la MT
Prima di affrontare il problema della valutazione della MT occorre chiarire che la valutazione
della stessa traduzione in generale è un
problema complesso, non risolto e su cui ci sono molte proposte e modelli in parte in contrasto tra loro.
Problemi nel valutare la traduzione
Manca chiarezza in generale su come si deve valutare una traduzione perché:
-‐ è un problema estremamente complesso -‐ la valutazione della traduzione implica una
intrinseca ed ineliminabile componente sogge?va
-‐ si parla di metodologia della valutazione della traduzione solo a par@re dal 1959 (convegno della Federazione Internazionale TraduGori)
Problemi nel valutare la traduzione
Si propongono modelli diversi di valutazione della traduzione, che fanno riferimento a teorie diverse della traduzione.
In par@colare per alcuni modelli la traduzione deve essere vista come un testo a se’ stante, per altri invece come un’en@tà dipendente dal testo originale.
Una varietà di parametri vengono propos@ per confrontare frasi e interi tes@.
Problemi nel valutare traduzione
I modelli concordano tuGavia su alcuni principi fondamentali generali:
la valutazione deve cercare di misurare il
grado di adeguatezza della traduzione rispeGo
• al dato seman@co, sinta?co e pragma@co del testo sorgente
• al quadro culturale del testo sorgente
• alle possibilità espressive del testo sorgente
• tenendo conto dello scopo comunica@vo.
Problemi nel valutare la traduzione
L’interesse “teorico” dei modelli di valutazione è spesso inversamente proporzionale alla loro semplicità di applicazione.
Da una parte vi è la ricerca di esaus@vità del mondo accademico, dall’altra gli impera@vi di ordine
economico di chi si trova a ges@re il controllo di qualità in ambito professionale (traduzione giusta al momento giusto, nel posto giusto e al costo
giusto, con la giusta formaGazione).
Problemi nel valutare la traduzione
Livelli di qualità:
• qualità-‐traduzione: garan@sce la res@tuzione fedele del contenuto del testo di partenza e la correGezza sinta?ca e ortografica del testo di arrivo, ma adaGo comunque solo ad una diffusione limitata.
• qualità-‐adaGamento: il testo viene rifinito fino ad
oGenere l’equivalenza totale, testuale e contestuale, sul piano del geos@le e del socios@le.
• qualità-‐edi@ng: è lo “zero dife?” pronto da
stampare, assemblato con le immagini, le foto ed i disegni.
Problemi nel valutare la traduzione
Metrica SAE (Society of Automi@ve Engineers) con 7 categorie di errore:
• errore terminologico, errore sinta?co, omissione, errore di concordanza o di morfologia, errore di ortografia, errore di interpunzione, altro.
Ogni errore è pesato come lieve o grave, cioè che può causare un malinteso o far compiere errore nell’eseguire le istruzioni descriGe.
La somma dei pun@ è divisa per il numero di parole.
Valutare la MT
Un problema messo a fuoco dal rapporto ALPAC è quello della valutazione dei risulta@ prodo?
dai sistemi di MT.
Non esiste tuG’ora una metodologia condivisa
ed universalmente acceGata per la valutazione in toto della MT. Esistono però delle metriche u@li anche per il confronto tra i sistemi e degli aspe? che devono essere considera@.
Problemi nel valutare la MT
Uno dei principali problemi è la scelta di chi valuta:
-‐ Se il valutatore è completamente ignorante di MT non esprime una valutazione realis@ca e non evidenzia le potenzialità dei limi@
-‐ Se è invece esperto di MT si rischia che si basi su campioni troppo scel@ di linguaggio e che evidenzi problemi irrilevan@.
Passi di sviluppo e valutazione per MT
Nella costruzione di un sistema di MT, il primo
passo è la costruzione di un proto@po di sistema (esper@).
Il secondo passo è lo sviluppo di un sistema che possa operare in un ambiente reale, con
associate u@lity per pre e post edi@ng (sviluppatori).
Il terzo passo è la valutazione da parte degli
acquiren@ ed u@lizzatori che possono esprimere giudizi su come il sistema modificherebbe il loro lavoro.
Valutazione dell’output
In tu? i passi occorre valutare l’output che il sistema produce sulla base di 3 parametri:
-‐ Fedeltà o accuratezza -‐ in che misura l’output con@ene le stesse informazioni dell’input
-‐ Intelligibilità o chiarezza -‐ la facilità con cui si può comprendere il significato della
traduzione
-‐ S%le e registro -‐ in che misura l’output usa un linguaggio appropriato al contesto d’uso
Valutazione dell’output
Fedeltà o accuratezza -‐ in che misura l’output con@ene le stesse informazioni dell’input.
Per verificare si possono applicare tecniche empiriche:
-‐ vedere se seguendo le istruzioni di un manuale tradoGo si possono fare le stesse cose che
seguendo l’originale (leggibilità ed equivalenza di effeGo sul leGore)
-‐ applicare la traduzione all’indietro
Valutazione dell’output
Intelligibilità o chiarezza -‐ la facilità con cui si può comprendere il significato della
traduzione.
Viene applicata a frasi isolate o a interi tes@, prendendo in considerazione anche la
coerenza o consistenza tradu?va delle varie par@.
Si valuta con scale numeriche standard.
Valutazione dell’output
S%le e registro -‐ in che misura l’output usa un linguaggio appropriato al contesto d’uso.
È un faGore molto importante, sopraGuGo in cer@ @pi di documen@, che richiede una
valutazione difficile da quan@ficare.
Vari faGori determinano infa? il @po di registro, come la scelta dei termini e il modo in cui ci si rivolge al leGore.
Analisi dell’errore
Il conteggio degli errori presen@ nell’output di un sistema di MT fornisce informazioni molto u@li su come migliorarli.
Si traGa di quan@ficare il lavoro da svolgere sull’output per renderlo acceGabile come traduzione. Si contano le aggiunte e
cancellazioni, le sos@tuzioni e si calcola la percentuale di parole correGe nel testo tradoGo. Non è un processo ogge?vo, dipende dal revisore e dal livello di
acceGabilità richiesto, e dai 3 parametri.
Analisi dell’errore
Si osservi che il semplice conteggio degli errori può non essere sufficiente: occorre anche
classificarli in base al fenomeno ed alla difficoltà di correzione.
Il risultato di queste analisi si rivela u@le per lo sviluppatore del sistema e per l’acquirente.
Ma serve anche a confrontare diversi sistemi di MT. Ma questo richiederebbe però
l’applicazione ad un benchmark condiviso.
Valutazione degli esper@
Durante lo sviluppo del proto@po la valutazione è faGa dagli esper@ allo scopo di decidere in che direzione procedere.
L’output mostra carenze che richiedono
modifiche dell’algoritmo o dei da@, per@nen@
ad uno o più livelli di analisi o di generazione.
La valutazione viene ripetuta ad ogni modifica del sistema allo scopo di verificare i progressi, in accordo con i 3 parametri.
Valutazione degli esper@
Durante lo sviluppo del sistema la valutazione è faGa dagli sviluppatori che si devono
preoccupare del funzionamento del sistema in un ambiente reale, quindi correggere i
problemi correggibili, e costruire u@lity per
supplire alle carenze del sistema che si decide di acceGare, cercando di bilanciare cos@ e
benefici.
La valutazione viene faGa prima su piccoli frammen@ di testo e poi su corpora.
Valutazione degli acquiren@
Spesso acquiren@ ed u@lizzatori intervengono
già nella fase di sviluppo, ad es. selezionando i da@ su cui testare il sistema.
É una valutazione @po scatola-‐nera, solo sul risultato senza pensare al processo per
oGenerlo.
È una valutazione fortemente condizionata da interessi pra@ci ed economici che devono essere chiaramente defini@ (@po di tes@,
uten@, pubblicazione o uso interno, quan@tà di tes@ …)
Valutazione degli acquiren@
Per l’u@lizzo di un sistema in un ambiente reale occorre anche ges@rne la compa@bilità
rispeGo a sistemi opera@vi ed eventuali sistemi di input e di output, come OCR ed editor di testo o stampan@ e scanner.
Molto raramente un sistema di MT è una en@tà isolata, di solito è integrato in un sistema più ampio.
Valutazione dei traduGori
Gli u@lizzatori dei sistemi di MT sono
principalmente i traduGori di professione, che sono quindi coinvol@ nei processi di valutazione.
La loro valutazione riguarda i 3 parametri e
sopraGuGo in relazione alla quan@tà di lavoro di pre e post edi@ng, e l’u@lizzabilità delle rela@ve u@lity. Il sistema di MT deve garan@re facilità di revisione dell’input e dell’output.
Valutazione e metriche
Nel rapporto ALPAC si fa un primo tenta@vo di
valutare la qualità della traduzione e il compito di valutare è affidato ad un gruppo di esper@ umani che leggono il testo originale e quello tradoGo e li confrontano.
Riconoscendo che questo modo di valutare ha il difeGo della componente di sogge?vità, in
seguito vengono proposte metriche ogge?ve per la valutazione.
BLEU Bilingual Evalua@on Understudy
BLEU è un algoritmo che valuta la qualità di un testo tradoGo da una macchina
confrontandolo con una traduzione faGo da un umano. Per limitare la sogge?vità è
preferibile il confronto con più traduzioni.
Il risultato è compreso tra 0 e 1, dove 1 è la perfeGa iden@tà.
La valutazione si basa sul numero di parole uguali nei due tes@ confronta@.
TER Transla@on Error Rate
Anche TER valuta la qualità di un testo tradoGo da una macchina confrontandolo con una
traduzione faGo da un umano.
La distanza tra i due tes@ è calcolata come
numero di modifiche (inserimen@ di parole nuove, cancellazioni, sos@tuzioni e
spostamen@) necessarie a trasformare il testo prodoGo dalla macchina in quello di
riferimento. Il risultato è diviso per il numero di parole del testo di riferimento. Il valore
migliore è 0.
TER Transla@on Error Rate
Saudi Arabia denied this week informa@on
published in the American New York Times This week the Saudis denied informa@on
published in the New York Times
1 spostamento, 2 sos@tuzioni, 1 cancellazione 13 parole
4/13 = 0.31 = 31%