Computer assisted transla0on (CAT -‐ 2)

(1)

Computer assisted transla0on (CAT -‐ 2)

Cris%na Bosco

Informa%ca applicata alla comunicazione mul%mediale

2015-‐2016

(2)

Cosa è una Memoria di Traduzione

Una TM (Transla0on Memory) è un archivio di materiali linguis0ci, in formato eleBronico, in lingua originale (LS) e tradoBa (LT).

È costruita da traduBori umani grazie a sistemi di CAT ed organizzata in frammen0 di testo

deG Unità di Traduzione (UdiT) solitamente di lunghezza pari ad una frase.

(3)

Cosa è una Memoria di Traduzione

I sistemi di ges0one delle TM servono per

costruire ed ampliare le TM e per u0lizzarle.

Il risultato è di incrementare la produGvità dl traduBore che non si trova a tradurre più di una volta il frammento di testo che ha

precedentemente tradoBo, ma anche

l’uniformità terminologica e s0lis0ca della traduzione.

(4)

Cosa è una Memoria di Traduzione

Un sistema di CAT memorizza coppie bilingui allineate nella TM.

Quando, nel corso della traduzione, un

segmento di testo iden0co o simile ad uno

precedentemente tradoBo viene trovato nella TM (match) , il sistema ne propone la

traduzione.

Il traduBore può acceBarla, modiﬁcarla o riﬁutarla.

(5)

Come funziona una Memoria di Traduzione

Supponiamo che nella TM ci siano le seguen0 UdiT:

UdiT-‐1: Io mangiavo ieri una pera.

allineata con Yesterday I ate a pear.

UdiT-‐2: Io mangio sovente una mela.

allineata con I o;en eat an apple.

(se sono nella TM vuol dire che il traduBore le ha tradoBe e il sistema le ha allineate)

(6)

Come funziona una Memoria di Traduzione

Quando il traduBore traduce la nuova frase:

Io mangio una mela Il sistema propone:

I o;en eat an apple.

perché il sistema riconosce una somiglianza tra la frase nuova e una delle frasi presen0 nella TM (UdiT-‐2) e propone di conseguenza la

traduzione di UdiT-‐2.

(7)

Come funziona una Memoria di Traduzione

Quanto sono simili le UdiT?

UdiT-‐1: Io mangiavo ieri una pera (Yesterday I ate a pear)

UdiT-‐2: Io mangio sovente una mela (I o;en eat an apple)

Nuova frase: Io mangio una mela

Il sistema conta le parole uguali (2 su 4 per UdiT-‐1 e 4 su 4 per UdiT-‐2) e sceglie UdiT-‐2.

(8)

Come funziona una Memoria di Traduzione

Il sistema non è in grado di riconoscere in cosa consiste la diﬀerenza tra la frase nuova e

quella che trova nella TM e di fare qualche considerazione di natura linguis0ca.

È solo un calcolo sulle parole che sono uguali e che sono diverse nelle due frasi; se questo calcolo porta ad un risultato che supera la

soglia stabilita dal traduBore allora il sistema propone la traduzione.

(9)

Come funziona una Memoria di Traduzione

Se il il sistema si basasse solo su exact match, sarebbe in grado di proporre la traduzione solo quando la frase nuova è esaBamente iden0ca ad una frase precedentemente tradoBa (che si trova nella MT).

Ma poiché il sistema considera anche i fuzzy

match, propone traduzioni anche di frasi non iden0che a quelle che trova nella sua MT, a condizione che siano suﬃcientemente simili con esse.

(10)

Come funziona una Memoria di Traduzione

I match che vengono trova0 tra il testo da tradurre e quello contenuto nella TM non sono infaG solo quelli perfeG, ma anche quelli parziali, in accordo con le impostazioni scelte dal traduBore.

Per questo mo0vo i sistemi di CAT si rivelano u0li per tes0 con:

•  omogeneità terminologica

•  omogeneità fraseologica

•  frasi semplici e brevi, poco ambigue e ripe00ve

(11)

Costruire una Memoria di Traduzione

Nel corso della traduzione, in un sistema di CAT, tuBo il testo in LS e la sua traduzione in LT

viene automa0camente memorizzato in forma allineata nella TM scelta dal traduBore.

È anche possibile importare altre TM o allineare tes0 disponibili in LS e in LT u0lizzando

programmi apposi0.

(12)

Costruire una Memoria di Traduzione

(13)

Costruire una Memoria di Traduzione

(14)

Costruire una Memoria di Traduzione

(15)

Ges0re una Memoria di Traduzione

Ogni UdiT in una TM consiste in una coppia di

segmen0 di testo, il segmento in LS e quello in LT, insieme a informazioni rela0ve alla date di creazione e modiﬁca dei segmen0, alla

persona che ha creato o modiﬁcato il

segmento, al progeBo e al cliente per cui quella par0colare UdiT viene adoperata.

Questo consente di ﬁltrare le TM per future traduzioni.

(16)

U0lizzare una Memoria di Traduzione

Una volta che si ha a disposizione una TM la si u0lizza durante il successivo lavoro di

traduzione e si con0nua anche ad arricchirla.

Il sistema di CAT infaG u0lizza la TM per

proporre all’utente possibili traduzioni per la nuove UdiT da tradurre, ma con0nua anche ad aggiungere tuBe le traduzioni nuove che il

traduBore introduce nel sistema.

(17)

U0lizzare una Memoria di Traduzione

I sistemi di ges0one delle TM usano algoritmi per la ricerca di corrispondenze che si basano su criteri come la somiglianza tra stringhe di caraBeri.

La percentuale di somiglianza viene impostata dal traduBore.

La percezione della somiglianza può però essere diﬀerente per il sistema e il traduBore.

(18)

U0lizzare una Memoria di Traduzione

I sistemi di ges0one delle TM possono funzionare in due modi alterna0vi:

InteraGvo, il testo da tradurre è mostrato

suddiviso in UdiT e il traduBore sceglie quale UdiT tradurre, il sistema cerca il match nella TM e produce di conseguenza una proposta di traduzione

(19)

U0lizzare una Memoria di Traduzione

I sistemi di ges0one delle TM possono funzionare in due modi alterna0vi:

Automa0co, il sistema analizza tuBo il testo e per tuBe le UdiT cerca il match nella TM e produce di conseguenza una proposta di traduzione

(20)

U0lizzare una Memoria di Traduzione

Un sistema di CAT basato su TM risulta u0le

perché evita di ripetere la traduzione di frasi già tradoBe, ma funziona bene sopraBuBo se si ha a disposizione una TM di grandi

dimensioni.

(21)

EﬀeG nega0vi di una Memoria di Traduzione

L’u0lizzo di una TM può anche avere

conseguenze nega0ve sulla qualità della traduzione: una TM opera generalmente a livello della frase e il pericolo è che il

traduBore si concentri troppo su frasi isolate trascurando il contesto in cui esse sono

inserite. Limita la ridistribuzione del testo in più frasi.

(22)

Una nota TM

Una reale TM è quella dell’Acquis

Communautaire, nota con il nome di DGT-‐TM (European Commission's Directorate-‐General for Transla0on) e accessibile alla pagina

hBp://ipsc.jrc.ec.europa.eu/index.php?id=197 resa disponibile a par0re dal 2007 allo scopo di

supportare il mul0linguismo, la diversità

linguis0ca e il riu0lizzo della informazioni della Commissione.

(23)

DGT-‐TM

L’Acquis Communautaire è l’intero corpus legisla0vo della Comunità Europea,

comprensivo di traBa0 regolamen0 e direGve.

È un corpus parallelo tradoBo nelle 23 lingue uﬃciali della Comunità rappresentate nelle seguen0 sezioni: Bulgarian, Czech, Danish, Dutch, English, Estonian, German, Greek, Finnish, French, Irish, Hungarian, Italian, Latvian, Lithuanian, Maltese, Polish,

Portuguese, Romanian, Slovak, Slovene, Spanish e Swedish.

(24)

DGT-‐TM

I tes0 paralleli, o bi-‐tes0, sono prodoG

manualmente tramite traduzione e raccol0 nella DGT-‐TM in forma di unità di traduzione.

DGT-‐TM è aBualmente il più grande corpus

parallelo esistente, per la dimensione e per il numero di lingue che comprende.

Il suo valore dipende però anche dal faBo che include coppie di lingue rare.

(25)

DGT-‐TM

La prima release di DGT-‐TM risale al 2007 e

includeva i documen0 pubblica0 ﬁno al 2006.

La seconda release è stata resa pubblica nel

2012 ed include i documen0 dal 2007 al 2010.

Ogni anno viene rilasciata una nuova release.

L’allineamento dei da0 è manuale ﬁno al 2007, automa0co dopo il 2007.

Il formato dei da0 è sempre Transla0on Memory eXchange (TMX).

(26)

DGT-‐TM

Il numero di unità di traduzione varia da una release all’altra e da una lingua all’altra:

2007: 19.071.485 2011: 379.963.629 2012: 6.226.855 totale: 63.261.969

(27)

DGT-‐TM

Il numero di unità di traduzione varia tra le diverse lingue.

Ad esempio la sezione Irish del corpus, in gaelico, esiste solo nell’ul0ma release e

con0ene 2.848 unità di traduzione, mentre la sezione English in inglese con0ene 322.377 unità.

(28)

DGT-‐TM

Il numero di unità di traduzione varia tra le diverse lingue.

Ad esempio la sezione Irish del corpus, in gaelico, esiste solo nell’ul0ma release e

con0ene 2.848 unità di traduzione, mentre la sezione English in inglese con0ene 322.377 unità.

(29)

TM e forma0

Il World Wide Web Consor0um (W3C), fondato nel 1994 per promuovere l'interoperabilità in Internet, ha deﬁnito forma0 di interscambio dei da0 basa0 su testo con marcatori, deriva0 dal metalinguaggio di marcatura SGML (deﬁnito nel 1980). Dall'SGML

derivano HTML e XML (deﬁnito nel 1998).

Alla deﬁnizione di tali standard generici per il Web

seguirono le deﬁnizioni di vari standard per il seBore della traduzione, basa0 su XML, orienta0 a rendere compa0bili e massimamente riu0lizzabili le risorse sviluppate.

(30)

TM e forma0

Sono sta0 deﬁni0 forma0 standard per i vari 0pi di da0 e risorse che i sistemi di CAT devono ges0re:

•  per le memorie di traduzione: TMX (Transla>on Memory eXchange), sviluppato dal gruppo OSCAR (Open Standards for Container/Content Allowing Re-‐

use), parte della LISA (Localiza>on Industry Standards Associa>on), nel 1998, è basato su XML ed è

supportato da pressoché tuG gli strumen0 CAT/TM, anche se non sempre in modo perfeBamente

interoperabile.

(31)

TM e forma0

•  per la localizzazione: XLIFF (XML Localisa>on

Interchange File Format), sviluppato nel 2003 da OASIS.

•  per la terminologia coesistono aBualmente vari

standard, ognuno costruito per scopi diversi, tra cui:

– MARTIF (MAchine-‐Readable Terminology

Interchange Format), corrispondente allo standard ISO 12200, deﬁnito nel 1998 e basato su SGML, per l'archiviazione di da0 terminologici basato sui conceG

(32)

TM e forma0

– OLIF (Open Lexicon Interchange Format), deﬁnito da SAP nel 1999 e basato su XML, per descrivere da0 lessicali da u0lizzare con sistemi di traduzione automa0ca

– XLT (XML representa>on of Lexicons and

Terminologies), deﬁnito da SALT (Standards-‐based Access service to mul>lingual Lexicons and

Terminologies) nel 2000 con l'intento di riunire le capacità dei forma0 MARTIF E OLIF

– TBX (TermBase eXchange), deﬁnito da OSCAR nel 2000 e basato su XML. Il formato TBX è in realtà un'implementazione dello standard XLT.

(33)

CAT: sosware

I sistemi di CAT oﬀrono tuG sostanzialmente le stesse funzionalità.

Alcuni strumen0 oﬀrono al traduBore un ambiente di traduzione proprietario (Déjà Vu, Transit, SDLX), altri si appoggiano a un editor di tes0 esistente, 0picamente Microsos Word (Trados WorkBench, Wordfast). Ques0 ul0mi consentono al traduBore un approccio più amichevole con la nuova

tecnologia, grazie all'ambiente di lavoro già in parte noto.

(34)

CAT: sosware

I primi, d'altro canto, oﬀrono il vantaggio di rendere del tuBo trasparente per l'utente il processo di

conversione dei ﬁle da uno qualsiasi dei forma0 supporta0 all'ambiente di lavoro uniﬁcato e di riconversione al formato originale, nonché

l'opzione di presentare tuG i file del progeBo insieme in un'unica finestra, come se fossero un solo file.

Computer assisted transla0on (CAT -­‐ 2)