Traduzione e computer

(1)

Cris%na Bosco

Informa%ca applicata alla comunicazione mul%mediale

2016-‐2017

(2)

Problemi nel valutare la MT

Prima di aﬀrontare il problema della valutazione della MT occorre chiarire che la valutazione

della stessa traduzione in generale è un

problema complesso, non risolto e su cui ci sono molte proposte e modelli in parte in contrasto tra loro.

(3)

Problemi nel valutare la traduzione

Manca chiarezza in generale su come si deve valutare una traduzione perché:

-‐  è un problema estremamente complesso -‐  la valutazione della traduzione implica una

intrinseca ed ineliminabile componente sogge?va

-‐  si parla di metodologia della valutazione della traduzione solo a par@re dal 1959 (convegno della Federazione Internazionale TraduGori)

(4)

Si propongono modelli diversi di valutazione della traduzione, che fanno riferimento a teorie diverse della traduzione.

In par@colare per alcuni modelli la traduzione deve essere vista come un testo a se’ stante, per altri invece come un’en@tà dipendente dal testo originale.

Una varietà di parametri vengono propos@ per confrontare frasi e interi tes@.

(5)

Problemi nel valutare traduzione

I modelli concordano tuGavia su alcuni principi fondamentali generali:

la valutazione deve cercare di misurare il

grado di adeguatezza della traduzione rispeGo

•  al dato seman@co, sinta?co e pragma@co del testo sorgente

•  al quadro culturale del testo sorgente

•  alle possibilità espressive del testo sorgente

•  tenendo conto dello scopo comunica@vo.

(6)

L’interesse “teorico” dei modelli di valutazione è spesso inversamente proporzionale alla loro semplicità di applicazione.

Da una parte vi è la ricerca di esaus@vità del mondo accademico, dall’altra gli impera@vi di ordine

economico di chi si trova a ges@re il controllo di qualità in ambito professionale (traduzione giusta al momento giusto, nel posto giusto e al costo

giusto, con la giusta formaGazione).

(7)

Livelli di qualità:

•  qualità-‐traduzione: garan@sce la res@tuzione fedele del contenuto del testo di partenza e la correGezza sinta?ca e ortograﬁca del testo di arrivo, ma adaGo comunque solo ad una diﬀusione limitata.

•  qualità-‐adaGamento: il testo viene riﬁnito ﬁno ad

oGenere l’equivalenza totale, testuale e contestuale, sul piano del geos@le e del socios@le.

•  qualità-‐edi@ng: è lo “zero dife?” pronto da

stampare, assemblato con le immagini, le foto ed i disegni.

(8)

Metrica SAE (Society of Automi@ve Engineers) con 7 categorie di errore:

•  errore terminologico, errore sinta?co, omissione, errore di concordanza o di morfologia, errore di ortograﬁa, errore di interpunzione, altro.

Ogni errore è pesato come lieve o grave, cioè che può causare un malinteso o far compiere errore nell’eseguire le istruzioni descriGe.

La somma dei pun@ è divisa per il numero di parole.

(9)

Valutare la MT

Un problema messo a fuoco dal rapporto ALPAC è quello della valutazione dei risulta@ prodo?

dai sistemi di MT.

Non esiste tuG’ora una metodologia condivisa

ed universalmente acceGata per la valutazione in toto della MT. Esistono però delle metriche u@li anche per il confronto tra i sistemi e degli aspe? che devono essere considera@.

(10)

Problemi nel valutare la MT

Uno dei principali problemi è la scelta di chi valuta:

-‐  Se il valutatore è completamente ignorante di MT non esprime una valutazione realis@ca e non evidenzia le potenzialità dei limi@

-‐  Se è invece esperto di MT si rischia che si basi su campioni troppo scel@ di linguaggio e che evidenzi problemi irrilevan@.

(11)

Passi di sviluppo e valutazione per MT

Nella costruzione di un sistema di MT, il primo

passo è la costruzione di un proto@po di sistema (esper@).

Il secondo passo è lo sviluppo di un sistema che possa operare in un ambiente reale, con

associate u@lity per pre e post edi@ng (sviluppatori).

Il terzo passo è la valutazione da parte degli

acquiren@ ed u@lizzatori che possono esprimere giudizi su come il sistema modiﬁcherebbe il loro lavoro.

(12)

Valutazione dell’output

In tu? i passi occorre valutare l’output che il sistema produce sulla base di 3 parametri:

-‐  Fedeltà o accuratezza -‐ in che misura l’output con@ene le stesse informazioni dell’input

-‐  Intelligibilità o chiarezza -‐ la facilità con cui si può comprendere il signiﬁcato della

traduzione

-‐  S%le e registro -‐ in che misura l’output usa un linguaggio appropriato al contesto d’uso

(13)

Fedeltà o accuratezza -‐ in che misura l’output con@ene le stesse informazioni dell’input.

Per veriﬁcare si possono applicare tecniche empiriche:

-‐  vedere se seguendo le istruzioni di un manuale tradoGo si possono fare le stesse cose che

seguendo l’originale (leggibilità ed equivalenza di eﬀeGo sul leGore)

-‐  applicare la traduzione all’indietro

(14)

Intelligibilità o chiarezza -‐ la facilità con cui si può comprendere il signiﬁcato della

traduzione.

Viene applicata a frasi isolate o a interi tes@, prendendo in considerazione anche la

coerenza o consistenza tradu?va delle varie par@.

Si valuta con scale numeriche standard.

(15)

S%le e registro -‐ in che misura l’output usa un linguaggio appropriato al contesto d’uso.

È un faGore molto importante, sopraGuGo in cer@ @pi di documen@, che richiede una

valutazione diﬃcile da quan@ﬁcare.

Vari faGori determinano infa? il @po di registro, come la scelta dei termini e il modo in cui ci si rivolge al leGore.

(16)

Analisi dell’errore

Il conteggio degli errori presen@ nell’output di un sistema di MT fornisce informazioni molto u@li su come migliorarli.

Si traGa di quan@ﬁcare il lavoro da svolgere sull’output per renderlo acceGabile come traduzione. Si contano le aggiunte e

cancellazioni, le sos@tuzioni e si calcola la percentuale di parole correGe nel testo tradoGo. Non è un processo ogge?vo, dipende dal revisore e dal livello di

acceGabilità richiesto, e dai 3 parametri.

(17)

Analisi dell’errore

Si osservi che il semplice conteggio degli errori può non essere suﬃciente: occorre anche

classiﬁcarli in base al fenomeno ed alla diﬃcoltà di correzione.

Il risultato di queste analisi si rivela u@le per lo sviluppatore del sistema e per l’acquirente.

Ma serve anche a confrontare diversi sistemi di MT. Ma questo richiederebbe però

l’applicazione ad un benchmark condiviso.

(18)

Valutazione degli esper@

Durante lo sviluppo del proto@po la valutazione è faGa dagli esper@ allo scopo di decidere in che direzione procedere.

L’output mostra carenze che richiedono

modiﬁche dell’algoritmo o dei da@, per@nen@

ad uno o più livelli di analisi o di generazione.

La valutazione viene ripetuta ad ogni modiﬁca del sistema allo scopo di veriﬁcare i progressi, in accordo con i 3 parametri.

(19)

Valutazione degli esper@

Durante lo sviluppo del sistema la valutazione è faGa dagli sviluppatori che si devono

preoccupare del funzionamento del sistema in un ambiente reale, quindi correggere i

problemi correggibili, e costruire u@lity per

supplire alle carenze del sistema che si decide di acceGare, cercando di bilanciare cos@ e

beneﬁci.

La valutazione viene faGa prima su piccoli frammen@ di testo e poi su corpora.

(20)

Valutazione degli acquiren@

Spesso acquiren@ ed u@lizzatori intervengono

già nella fase di sviluppo, ad es. selezionando i da@ su cui testare il sistema.

É una valutazione @po scatola-‐nera, solo sul risultato senza pensare al processo per

oGenerlo.

È una valutazione fortemente condizionata da interessi pra@ci ed economici che devono essere chiaramente deﬁni@ (@po di tes@,

uten@, pubblicazione o uso interno, quan@tà di tes@ …)

(21)

Valutazione degli acquiren@

Per l’u@lizzo di un sistema in un ambiente reale occorre anche ges@rne la compa@bilità

rispeGo a sistemi opera@vi ed eventuali sistemi di input e di output, come OCR ed editor di testo o stampan@ e scanner.

Molto raramente un sistema di MT è una en@tà isolata, di solito è integrato in un sistema più ampio.

(22)

Valutazione dei traduGori

Gli u@lizzatori dei sistemi di MT sono

principalmente i traduGori di professione, che sono quindi coinvol@ nei processi di valutazione.

La loro valutazione riguarda i 3 parametri e

sopraGuGo in relazione alla quan@tà di lavoro di pre e post edi@ng, e l’u@lizzabilità delle rela@ve u@lity. Il sistema di MT deve garan@re facilità di revisione dell’input e dell’output.

(23)

Valutazione e metriche

Nel rapporto ALPAC si fa un primo tenta@vo di

valutare la qualità della traduzione e il compito di valutare è aﬃdato ad un gruppo di esper@ umani che leggono il testo originale e quello tradoGo e li confrontano.

Riconoscendo che questo modo di valutare ha il difeGo della componente di sogge?vità, in

seguito vengono proposte metriche ogge?ve per la valutazione.

(24)

BLEU Bilingual Evalua@on Understudy

BLEU è un algoritmo che valuta la qualità di un testo tradoGo da una macchina

confrontandolo con una traduzione faGo da un umano. Per limitare la sogge?vità è

preferibile il confronto con più traduzioni.

Il risultato è compreso tra 0 e 1, dove 1 è la perfeGa iden@tà.

La valutazione si basa sul numero di parole uguali nei due tes@ confronta@.

(25)

TER Transla@on Error Rate

Anche TER valuta la qualità di un testo tradoGo da una macchina confrontandolo con una

traduzione faGo da un umano.

La distanza tra i due tes@ è calcolata come

numero di modiﬁche (inserimen@ di parole nuove, cancellazioni, sos@tuzioni e

spostamen@) necessarie a trasformare il testo prodoGo dalla macchina in quello di

riferimento. Il risultato è diviso per il numero di parole del testo di riferimento. Il valore

migliore è 0.

(26)

TER Transla@on Error Rate

Saudi Arabia denied this week informa@on

published in the American New York Times This week the Saudis denied informa@on

published in the New York Times

1 spostamento, 2 sos@tuzioni, 1 cancellazione 13 parole

4/13 = 0.31 = 31%