Computer assisted translation (CAT - 2)

(1)

Computer assisted translation (CAT - 2)

Cristina Bosco

Informatica applicata alla comunicazione multimediale

2015-2016

(2)

Cosa è una Memoria di Traduzione

Una TM (Translation Memory) è un archivio di materiali linguistici, in formato elettronico, in lingua originale (LS) e tradotta (LT).

È costruita da traduttori umani grazie a sistemi di CAT ed organizzata in frammenti di testo

detti Unità di Traduzione (UdiT) solitamente di lunghezza pari ad una frase.

(3)

Cosa è una Memoria di Traduzione

I sistemi di gestione delle TM servono per

costruire ed ampliare le TM e per utilizzarle.

Il risultato è di incrementare la produttività dl traduttore che non si trova a tradurre più di una volta il frammento di testo che ha

precedentemente tradotto, ma anche

l’uniformità terminologica e stilistica della traduzione.

(4)

Cosa è una Memoria di Traduzione

Un sistema di CAT memorizza coppie bilingui allineate nella TM.

Quando, nel corso della traduzione, un

segmento di testo identico o simile ad uno

precedentemente tradotto viene trovato nella TM (match) , il sistema ne propone la

traduzione.

Il traduttore può accettarla, modificarla o rifiutarla.

(5)

Come funziona una Memoria di Traduzione

Supponiamo che nella TM ci siano le seguenti UdiT:

UdiT-1: Io mangiavo ieri una pera.

allineata con Yesterday I ate a pear.

UdiT-2: Io mangio sovente una mela.

allineata con I often eat an apple.

(se sono nella TM vuol dire che il traduttore le ha tradotte e il sistema le ha allineate)

(6)

Come funziona una Memoria di Traduzione

Quando il traduttore traduce la nuova frase:

Io mangio una mela Il sistema propone:

I often eat an apple.

perché il sistema riconosce una somiglianza tra la frase nuova e una delle frasi presenti nella TM (UdiT-2) e propone di conseguenza la

traduzione di UdiT-2.

(7)

Come funziona una Memoria di Traduzione

Quanto sono simili le UdiT?

UdiT-1: Io mangiavo ieri una pera (Yesterday I ate a pear)

UdiT-2: Io mangio sovente una mela (I often eat an apple)

Nuova frase: Io mangio una mela

Il sistema conta le parole uguali (2 su 4 per UdiT-1 e 4 su 4 per UdiT-2) e sceglie UdiT-2.

(8)

Come funziona una Memoria di Traduzione

Il sistema non è in grado di riconoscere in cosa consiste la differenza tra la frase nuova e

quella che trova nella TM e di fare qualche considerazione di natura linguistica.

È solo un calcolo sulle parole che sono uguali e che sono diverse nelle due frasi; se questo calcolo porta ad un risultato che supera la

soglia stabilita dal traduttore allora il sistema propone la traduzione.

(9)

Come funziona una Memoria di Traduzione

Se il il sistema si basasse solo su exact match, sarebbe in grado di proporre la traduzione solo quando la frase nuova è esattamente identica ad una frase precedentemente tradotta (che si trova nella MT).

Ma poiché il sistema considera anche i fuzzy

match, propone traduzioni anche di frasi non identiche a quelle che trova nella sua MT, a condizione che siano sufficientemente simili con esse.

(10)

Come funziona una Memoria di Traduzione

I match che vengono trovati tra il testo da tradurre e quello contenuto nella TM non sono infatti solo quelli perfetti, ma anche quelli parziali, in accordo con le impostazioni scelte dal traduttore.

Per questo motivo i sistemi di CAT si rivelano utili per testi con:

• omogeneità terminologica

• omogeneità fraseologica

• frasi semplici e brevi, poco ambigue e ripetitive

(11)

Costruire una Memoria di Traduzione

Nel corso della traduzione, in un sistema di CAT, tutto il testo in LS e la sua traduzione in LT

viene automaticamente memorizzato in forma allineata nella TM scelta dal traduttore.

È anche possibile importare altre TM o allineare testi disponibili in LS e in LT utilizzando

programmi appositi.

(12)

Costruire una Memoria di Traduzione

(13)

Costruire una Memoria di Traduzione

(14)

Costruire una Memoria di Traduzione

(15)

Gestire una Memoria di Traduzione

Ogni UdiT in una TM consiste in una coppia di

segmenti di testo, il segmento in LS e quello in LT, insieme a informazioni relative alla date di creazione e modifica dei segmenti, alla

persona che ha creato o modificato il

segmento, al progetto e al cliente per cui quella particolare UdiT viene adoperata.

Questo consente di filtrare le TM per future traduzioni.

(16)

Utilizzare una Memoria di Traduzione

Una volta che si ha a disposizione una TM la si utilizza durante il successivo lavoro di

traduzione e si continua anche ad arricchirla.

Il sistema di CAT infatti utilizza la TM per

proporre all’utente possibili traduzioni per la nuove UdiT da tradurre, ma continua anche ad aggiungere tutte le traduzioni nuove che il

traduttore introduce nel sistema.

(17)

Utilizzare una Memoria di Traduzione

I sistemi di gestione delle TM usano algoritmi per la ricerca di corrispondenze che si basano su criteri come la somiglianza tra stringhe di caratteri.

La percentuale di somiglianza viene impostata dal traduttore.

La percezione della somiglianza può però essere differente per il sistema e il traduttore.

(18)

Utilizzare una Memoria di Traduzione

I sistemi di gestione delle TM possono funzionare in due modi alternativi:

Interattivo, il testo da tradurre è mostrato

suddiviso in UdiT e il traduttore sceglie quale UdiT tradurre, il sistema cerca il match nella TM e produce di conseguenza una proposta di traduzione

(19)

Utilizzare una Memoria di Traduzione

I sistemi di gestione delle TM possono funzionare in due modi alternativi:

Automatico, il sistema analizza tutto il testo e per tutte le UdiT cerca il match nella TM e produce di conseguenza una proposta di traduzione

(20)

Utilizzare una Memoria di Traduzione

Un sistema di CAT basato su TM risulta utile

perché evita di ripetere la traduzione di frasi già tradotte, ma funziona bene soprattutto se si ha a disposizione una TM di grandi

dimensioni.

(21)

Effetti negativi di una Memoria di Traduzione

L’utilizzo di una TM può anche avere

conseguenze negative sulla qualità della traduzione: una TM opera generalmente a livello della frase e il pericolo è che il

traduttore si concentri troppo su frasi isolate trascurando il contesto in cui esse sono

inserite. Limita la ridistribuzione del testo in più frasi.

(22)

Una nota TM

Una reale TM è quella dell’Acquis

Communautaire, nota con il nome di DGT-TM (European Commission's Directorate-General for Translation) e accessibile alla pagina

http://ipsc.jrc.ec.europa.eu/index.php?id=197 resa disponibile a partire dal 2007 allo scopo di

supportare il multilinguismo, la diversità

linguistica e il riutilizzo della informazioni della Commissione.

(23)

DGT-TM

L’Acquis Communautaire è l’intero corpus legislativo della Comunità Europea,

comprensivo di trattati regolamenti e direttive.

È un corpus parallelo tradotto nelle 23 lingue ufficiali della Comunità rappresentate nelle seguenti sezioni: Bulgarian, Czech, Danish, Dutch, English, Estonian, German, Greek, Finnish, French, Irish, Hungarian, Italian, Latvian, Lithuanian, Maltese, Polish,

Portuguese, Romanian, Slovak, Slovene, Spanish e Swedish.

(24)

DGT-TM

I testi paralleli, o bi-testi, sono prodotti

manualmente tramite traduzione e raccolti nella DGT-TM in forma di unità di traduzione.

DGT-TM è attualmente il più grande corpus

parallelo esistente, per la dimensione e per il numero di lingue che comprende.

Il suo valore dipende però anche dal fatto che include coppie di lingue rare.

(25)

DGT-TM

La prima release di DGT-TM risale al 2007 e

includeva i documenti pubblicati fino al 2006.

La seconda release è stata resa pubblica nel

2012 ed include i documenti dal 2007 al 2010.

Ogni anno viene rilasciata una nuova release.

L’allineamento dei dati è manuale fino al 2007, automatico dopo il 2007.

Il formato dei dati è sempre Translation Memory eXchange (TMX).

(26)

DGT-TM

Il numero di unità di traduzione varia da una release all’altra e da una lingua all’altra:

2007: 19.071.485 2011: 379.963.629 2012: 6.226.855 totale: 63.261.969

(27)

DGT-TM

Il numero di unità di traduzione varia tra le diverse lingue.

Ad esempio la sezione Irish del corpus, in gaelico, esiste solo nell’ultima release e

contiene 2.848 unità di traduzione, mentre la sezione English in inglese contiene 322.377 unità.

(28)

DGT-TM

Il numero di unità di traduzione varia tra le diverse lingue.

Ad esempio la sezione Irish del corpus, in gaelico, esiste solo nell’ultima release e

contiene 2.848 unità di traduzione, mentre la sezione English in inglese contiene 322.377 unità.

(29)

TM e formati

Il World Wide Web Consortium (W3C), fondato nel 1994 per promuovere l'interoperabilità in Internet, ha definito formati di interscambio dei dati basati su testo con marcatori, derivati dal metalinguaggio di marcatura SGML (definito nel 1980). Dall'SGML

derivano HTML e XML (definito nel 1998).

Alla definizione di tali standard generici per il Web

seguirono le definizioni di vari standard per il settore della traduzione, basati su XML, orientati a rendere compatibili e massimamente riutilizzabili le risorse sviluppate.

(30)

TM e formati

Sono stati definiti formati standard per i vari tipi di dati e risorse che i sistemi di CAT devono gestire:

• per le memorie di traduzione: TMX (Translation Memory eXchange), sviluppato dal gruppo OSCAR (Open Standards for Container/Content Allowing Re- use), parte della LISA (Localization Industry Standards Association), nel 1998, è basato su XML ed è

supportato da pressoché tutti gli strumenti CAT/TM, anche se non sempre in modo perfettamente

interoperabile.

(31)

TM e formati

• per la localizzazione: XLIFF (XML Localisation

Interchange File Format), sviluppato nel 2003 da OASIS.

• per la terminologia coesistono attualmente vari

standard, ognuno costruito per scopi diversi, tra cui:

– MARTIF (MAchine-Readable Terminology

Interchange Format), corrispondente allo standard ISO 12200, definito nel 1998 e basato su SGML,

per l'archiviazione di dati terminologici basato sui concetti

(32)

TM e formati

– OLIF (Open Lexicon Interchange Format), definito da SAP nel 1999 e basato su XML, per descrivere dati lessicali da utilizzare con sistemi di traduzione

automatica

– XLT (XML representation of Lexicons and

Terminologies), definito da SALT (Standards-based Access service to multilingual Lexicons and

Terminologies) nel 2000 con l'intento di riunire le capacità dei formati MARTIF E OLIF

– TBX (TermBase eXchange), definito da OSCAR nel 2000 e basato su XML. Il formato TBX è in realtà un'implementazione dello standard XLT.

(33)

CAT: software

I sistemi di CAT offrono tutti sostanzialmente le stesse funzionalità.

Alcuni strumenti offrono al traduttore un ambiente di traduzione proprietario (Déjà Vu, Transit, SDLX), altri si appoggiano a un editor di testi esistente, tipicamente Microsoft Word (Trados WorkBench, Wordfast). Questi ultimi consentono al traduttore un approccio più amichevole con la nuova

tecnologia, grazie all'ambiente di lavoro già in parte noto.

(34)

CAT: software

I primi, d'altro canto, offrono il vantaggio di rendere del tutto trasparente per l'utente il processo di

conversione dei file da uno qualsiasi dei formati supportati all'ambiente di lavoro unificato e di riconversione al formato originale, nonché

l'opzione di presentare tutti i file del progetto insieme in un'unica finestra, come se fossero un solo file.