Computer Assisted Translation (CAT)

(1)

Computer Assisted Translation (CAT)

Cristina Bosco

Informatica applicata alla comunicazione multimediale

2015-2016

(2)

Breve storia

L’idea di sistema di CAT nasce negli anni ‘60,

quando la European Coal and Steel Community (ECSC) sviluppa un sistema per la ricerca di

termini e del loro contesto in traduzioni memorizzate in formato elettronico.

Il principale obiettivo è di mostrare i termini nel

Linguaggio Sorgente (LS) ed i loro equivalenti

nel Linguaggio Target (LT) all’interno dei loro

rispettivi contesti.

(3)

Breve storia

L’idea moderna di sistema consiste invece nel cercare le unità di traduzione uguali per riutilizzarle, e la si trova per la prima volta all’inizio degli anni ‘70, nel modello sviluppato da Krollman per l’esercito

tedesco.

“For revised new editions of translations only the changed passages would have to be retyped.

Insertion of changes and corrections into the old text would automatically be done by computer.”

(Krollmann 1971)

(4)

Breve storia

Alla fine degli anni ‘70 Arthern, un traduttore della EC, propone un ulteriore sviluppo,

nell’ambito di una discussione sull’uso dei database terminologici e l’introduzione di Systran.

Arthern suggerisce di sviluppare il sistema in

modo che possa trovare non solo le unità di

traduzione uguali al testo da tradurre, ma

anche quelle simili.

(5)

Breve storia

Accanto all’idea di “exact match” nasce quindi l’idea di “fuzzy match” (the nearest available equivalent), ma anche la proposta di integrare sistemi di CAT e di MT, per poter ottenere

come risultato la maggior quantità di

materiale tradotto e limitare l’intervento umano. Realizzare quindi, in accordo con

ALPAC, sistemi di traduzione con al centro il

traduttore invece della macchina.

(6)

Breve storia

Solo all’inizio degli anni ‘80 la ricerca di “exact matches” viene implementata da ALPS

Incorporated, in una semplice componente detta “repetitions processing” del Translation Support System (TTS), un sistema di MT.

L’idea del “fuzzy matching” è implementata per la prima volta all’inizio degli anni ‘90, nei primi sistemi commercializzati di TM, IBM

Translation Manager e SDL Trados.

(7)

I sistemi di TM

Componenti di un sistema di TM:

• Editor multilingue – serve a leggere il testo in LS e a scriverne la traduzione in tutti i formati necessari

• Manager della terminologia – per gestire tutto ciò che riguarda la memorizzazione e modifica dei

termini organizzati per soggetto, cliente e progetto

• Riconoscitore di termini – per orientare la ricerca

nel database terminologico

(8)

I sistemi di TM

Componenti di un sistema di TM:

• Riconoscitore di concordanze – per cercare

tutte le istanze di una stringa di ricerca nel loro contesto

• Calcolatore statistiche – per avere una

panoramica quantitativa sulla TM e sapere ad

es. quanto del materiale esistente è riutilizzato

nella nuova traduzione

(9)

I sistemi di TM

Componenti di un sistema di TM:

• Strumenti di allineamento – per creare la TM con dentro i documenti precedentemente

tradotti, confrontarli con i testi da tradurre

facendo il match dei segmenti corrispondenti,

e legare insieme le unità di traduzione.

(10)

I sistemi di TM

Alcuni sistemi offrono anche gli strumenti per la creazione e gestione di basi terminologiche, e per l’integrazione con sistemi di MT che

comportano quindi la gestione di vari tipi di file all’interno di progetti complessi.

In sostanza dagli anni ’90 i sistemi di MT sono

rimasti sostanzialmente uguali, con l’eccezione degli algoritmi di matching e l’aggiunta di

funzioni più sofisticate.

(11)

I sistemi di TM

(12)

I sistemi di TM

Dagli anni ’90 quello che è cambiato è però il modo in cui il processo traduttivo viene

organizzato e il modo in cui le persone

coinvolte in esso possono interagire grazie

all’architettura client/server e grazie al cloud

computing e crowd sourcing.

(13)

Cloud computing

Con cloud computing si indica un paradigma di

erogazione di risorse informatiche (archiviazione, elaborazione e trasmissione di dati) on demand tramite il web.

Le risorse non vengono pienamente configurate e messe in opera dal fornitore apposta per l'utente, ma gli sono assegnate, rapidamente e

convenientemente, grazie a procedure

automatizzate, a partire da un insieme di risorse

condivise con altri utenti lasciando all'utente parte

dell'onere della configurazione.

(14)

Crowdsourcing

Con crowdsourcing (da crowd, "folla", e outsourcing

"esternalizzazione di una parte delle proprie attività”) si indica un modello di business per cui si affida la

progettazione, la realizzazione o lo sviluppo di un progetto, oggetto o idea ad un insieme indefinito di persone non organizzate precedentemente,

solitamente tramite siti e portali web.

Questo modello è sovente applicato per lo sviluppo di

risorse linguistiche, e consente di ottenere dati che non risentono di bias e sono quindi manifestazione della

conoscenza condivisa dalla comunità dei parlanti.

(15)

Tipi di sistemi di TM

Una Translation Memory (TM) è solitamente un database in cui ogni record contiene una

Translation Unit (TU), che consiste in una coppia di segmenti in LS e LT e in varie

informazioni sulla TU (data di creazione, autore, progetto, cliente).

Una TM è un database dinamico, che può essere

popolato in diversi modi.

(16)

Tipi di sistemi di TM

Esistono tre modi di popolare il database TM:

• Mentre si traduce – ogni TU tradotta viene salvata nella TM

• Importando una TM – sia creata con lo stesso sistema di TM, sia creata con un altro, ma con un formato compatibile

• Allineando un testo con una traduzione –

esistono strumenti di allineamento per mettere

insieme testi tradotti ad es. in altri progetti

(17)

Tipi di sistemi di TM

Alcuni sistemi di TM non sono database, ma gestiscono il testo nel loro complesso.

Rispetto ai sistemi basati su database hanno il vantaggio di mettere a disposizione maggiori informazioni sul contesto.

Per questo motivo nei sistemi basati su database le TU vengono arricchite con informazioni sul contesto,

senza le quali le TU sono completamente

decontestualizzate.

(18)

MT e TM

MT e TM sono due cose distinte, ma hanno certe cose in comune:

TM trae spunto dalla MT example-based e dalla statistical MT, entrambi approcci rivolti alla

ricerca del best matching per la frase da tradurre.

Ci sono però differenze sostanziali di obiettivo tra

TM da un lato e MT example-based e statistical

MT dall’altro.

(19)

MT e TM

Un sistema di TM svolge una forma di

Information Retrieval che delega al traduttore la decisione su quanto e come utilizzare e

modificare il risultato che il sistema produce.

Un sistema di MT example-based o statistical MT invece produce traduzioni selezionando le

informazioni necessarie nella base di

conoscenza costituita da testi tradotti.

(20)

MT e TM

TM e MT si possono utilmente integrare in diversi modi:

• Batch processing – in un sistema che provi a valutare per ogni TU i match (esatti e fuzzy) prima dell’intervento del traduttore, è

possibile far intervenire un sistema di MT per tutte quelle TU che non hanno nessun match, segnalando il fatto che si tratta di una

traduzione non ricavata dalla TM.

(21)

MT e TM

• Batch processing, una nota

Alcuni sistemi di TM valutano la TU nel

momento in cui il traduttore la seleziona per iniziare a tradurre

Altri sistemi valutano tutte le unità del testo da tradurre prima che il traduttore inizi il suo

lavoro.

(22)

MT e TM

TM e MT si possono utilmente integrare in diversi modi:

• Interactive processing – in un sistema di TM

che è in comunicazione con un sistema di MT,

il traduttore può richiamare la MT su ogni TU

su cui la TM non gli offre suggerimenti per la

traduzione, e poi se serve può modificare il

risultato offerto dalla MT.

(23)

MT e TM

L’integrazione di TM e MT risulta

particolarmente produttiva quando il sistema di MT viene addestrato su grandi corpora e precisamente su quelli che contengono le TU che utilizza il sistema di TM.

I vantaggi si vedono in termini di velocità, costo, qualità più stabile e quindi aumento della

produttività.

(24)

Vantaggi e limiti delle TM

L’uso di TM aumenta la produttività dei

traduttori e la qualità dei materiali tradotti garantendo l’omogeneità soprattutto

terminologica.

I report mostrano aumenti di produttività tra il 25 e il 60%.

Il numero di parole tradotte al giorno si attesta

intorno ad un massimo di 2.400.

(25)

Vantaggi e limiti delle TM

L’uso di TM ha però anche effetti negativi sulla qualità della traduzione.

Il principale problema è che le TU sono viste come isolate dal contesto e questo rende

difficile ad es. la traduzione corretta di legami

anaforici cross sentenziali.

(26)

Vantaggi e limiti delle TM

L’uso di TM ha però anche effetti negativi sulla qualità della traduzione.

Un altro problema è il fatto che la nozione di similarità tra TU di un traduttore e di un

computer possono essere sensibilmente diverse tra loro e quindi il sistema può

presentare come exact match delle traduzione

errate dal punto di vista del traduttore, oppure

come fuzzy macth delle cose che non c’entrano.

(27)

Migliorare l’IR delle TM

I sistemi di IR che stanno dietro le TM non sono molto cambiati nel tempo.

Il principale loro limite consiste nel fatto che si basano su caratteri e stringhe, senza utilizzare aspetti linguistici come quelli derivanti da

analisi morfologica, sintattica e semantica per

determinare il match tra TU.

(28)

Migliorare l’IR delle TM

Ad esempio, i sistemi di TM non sono in grado di riconoscere il match tra due TU quando ci

sono semplici cambiamenti nell’ordine degli elementi della frase.

ES. Il cane dorme da oltre un’ora dentro la sua cuccia in giardino

Il cane dorme in giardino dentro la sua cuccia

da oltre un’ora

(29)

Migliorare l’IR delle TM

L’uso di conoscenza linguistica potrebbe

notevolmente migliorare le prestazioni dei sistemi di TM per due motivi:

• Migliorare la precision e recall del retrieval monolingue

• Aumentare la riusabilità delle TU

suddividendole in parti più piccole

(30)

Migliorare l’IR delle TM

ES. A[Il cane dorme] B[da oltre un’ora] C[dentro la sua cuccia] D[in giardino]

A[Il cane dorme] D[in giardino] C[dentro la sua

cuccia] B[da oltre un’ora]

(31)

Migliorare l’IR delle TM

L’uso di conoscenza linguistica è quindi l’obiettivo dei sistemi di TM di seconda

generazione, che integrano metodi di analisi linguistica e di shallow parsing per aumentare le possibilità di match.

Questo ha effetti positivi soprattutto per certe

coppie di lingue.

(32)

Migliorare l’IR delle TM

Empirically documented knowledge about the nature and applications of TM systems and

translators’ interaction with them is both scarce and fragmented. In particular, more research is needed on how translators interact with TM

technology and on how it influences translators’

cognitive processes. The translation profession

itself will also welcome more knowledge about the translators’ perspective on TM technology.

(Christensen and Schjoldager 2010, 99)