Computer Assisted Transla2on (CAT)

(1)

Computer Assisted Transla2on (CAT)

Cris%na Bosco

Informa%ca applicata alla comunicazione mul%mediale

2015-‐2016

(2)

Breve storia

L’idea di sistema di CAT nasce negli anni ‘60,

quando la European Coal and Steel Community (ECSC) sviluppa un sistema per la ricerca di

termini e del loro contesto in traduzioni memorizzate in formato eleEronico.

Il principale obieIvo è di mostrare i termini nel

Linguaggio Sorgente (LS) ed i loro equivalen2

nel Linguaggio Target (LT) all’interno dei loro

rispeIvi contes2.

(3)

Breve storia

L’idea moderna di sistema consiste invece nel cercare le unità di traduzione uguali per

riu2lizzarle, e la si trova per la prima volta

all’inizio degli anni ‘70, nel modello sviluppato da Krollman per l’esercito tedesco.

“For revised new edi2ons of transla2ons only the changed passages would have to be retyped.

Inser2on of changes and correc2ons into the old text would automa2cally be done by computer.”

(Krollmann 1971)

(4)

Breve storia

Alla ﬁne degli anni ‘70 Arthern, un traduEore della EC, propone un ulteriore sviluppo,

nell’ambito di una discussione sull’uso dei database terminologici e l’introduzione di Systran.

Arthern suggerisce di sviluppare il sistema in

modo che possa trovare non solo le unità di

traduzione uguali al testo da tradurre, ma

anche quelle simili.

(5)

Breve storia

Accanto all’idea di “exact match” nasce quindi l’idea di “fuzzy match” (the nearest available equivalent), ma anche la proposta di integrare sistemi di CAT e di MT, per poter oEenere

come risultato la maggior quan2tà di

materiale tradoEo e limitare l’intervento umano. Realizzare quindi, in accordo con

ALPAC, sistemi di traduzione con al centro il

traduEore invece della macchina.

(6)

Breve storia

Solo all’inizio degli anni ‘80 la ricerca di “exact matches” viene implementata da ALPS

Incorporated, in una semplice componente deEa “repe22ons processing” del Transla2on Support System (TTS), un sistema di MT.

L’idea del “fuzzy matching” è implementata per la prima volta all’inizio degli anni ‘90, nei primi sistemi commercializza2 di TM, IBM

Transla2on Manager e SDL Trados.

(7)

I sistemi di TM

Componen2 di un sistema di TM:

•  Editor mul2lingue – serve a leggere il testo in LS e a scriverne la traduzione in tuI i forma2

necessari

•  Manager della terminologia – per ges2re tuEo ciò che riguarda la memorizzazione e modiﬁca dei

termini organizza2 per soggeEo, cliente e progeEo

•  Riconoscitore di termini – per orientare la ricerca nel database terminologico

(8)

I sistemi di TM

Componen2 di un sistema di TM:

•  Riconoscitore di concordanze – per cercare

tuEe le istanze di una stringa di ricerca nel loro contesto

•  Calcolatore sta2s2che – per avere una

panoramica quan2ta2va sulla TM e sapere ad

es. quanto del materiale esistente è riu2lizzato

nella nuova traduzione

(9)

I sistemi di TM

Componen2 di un sistema di TM:

•  Strumen2 di allineamento – per creare la TM con dentro i documen2 precedentemente

tradoI, confrontarli con i tes2 da tradurre

facendo il match dei segmen2 corrisponden2,

e legare insieme le unità di traduzione.

(10)

I sistemi di TM

Alcuni sistemi oﬀrono anche gli strumen2 per la creazione e ges2one di basi terminologiche, e per l’integrazione con sistemi di MT che

comportano quindi la ges2one di vari 2pi di ﬁle all’interno di progeI complessi.

In sostanza dagli anni ’90 i sistemi di MT sono

rimas2 sostanzialmente uguali, con l’eccezione degli algoritmi di matching e l’aggiunta di

funzioni più soﬁs2cate.

(11)

I sistemi di TM

(12)

I sistemi di TM

Dagli anni ’90 quello che è cambiato è però il modo in cui il processo traduIvo viene

organizzato e il modo in cui le persone

coinvolte in esso possono interagire grazie

all’architeEura client/server e grazie al cloud

compu2ng e crowd sourcing.

(13)

Cloud compu2ng

Con cloud compu%ng si indica un paradigma di

erogazione di risorse informa2che (archiviazione, elaborazione e trasmissione di da2) on demand tramite il web.

Le risorse non vengono pienamente conﬁgurate e messe in opera dal fornitore apposta per l'utente, ma gli sono assegnate, rapidamente e

convenientemente, grazie a procedure

automa2zzate, a par2re da un insieme di risorse condivise con altri uten2 lasciando all'utente

parte dell'onere della conﬁgurazione.

(14)

Crowdsourcing

Con crowdsourcing (da crowd, "folla", e

outsourcing "esternalizzazione di una parte delle proprie aIvità”) si indica un modello di business per cui si aﬃda la progeEazione, la realizzazione o lo sviluppo di un progeEo, oggeEo o idea ad un insieme indeﬁnito di persone non organizzate

precedentemente, solitamente tramite si2 e portali web.

Questo modello è sovente applicato per lo sviluppo di risorse linguis2che, e consente di oEenere da2 che non risentono di bias e sono quindi

manifestazione della conoscenza condivisa dalla comunità dei parlan2.

(15)

Tipi di sistemi di TM

Una Transla2on Memory (TM) è solitamente un database in cui ogni record con2ene una

Transla2on Unit (TU), che consiste in una coppia di segmen2 in LS e LT e in varie

informazioni sulla TU (data di creazione, autore, progeEo, cliente).

Una TM è un database dinamico, che può essere

popolato in diversi modi.

(16)

Tipi di sistemi di TM

Esistono tre modi di popolare il database TM:

•  Mentre si traduce – ogni TU tradoEa viene salvata nella TM

•  Importando una TM – sia creata con lo stesso

sistema di TM, sia creata con un altro, ma con un formato compa2bile

•  Allineando un testo con una traduzione –

esistono strumen2 di allineamento per meEere insieme tes2 tradoI ad es. in altri progeI

(17)

Tipi di sistemi di TM

Alcuni sistemi di TM non sono database, ma ges2scono il testo nel loro complesso.

RispeEo ai sistemi basa2 su database hanno il vantaggio di meEere a disposizione maggiori informazioni sul contesto.

Per questo mo2vo nei sistemi basa2 su database le TU vengono arricchite con informazioni sul

contesto, senza le quali le TU sono completamente decontestualizzate.

(18)

MT e TM

MT e TM sono due cose dis2nte, ma hanno certe cose in comune:

TM trae spunto dalla MT example-‐based e dalla sta2s2cal MT, entrambi approcci rivol2 alla ricerca del best matching per la frase da

tradurre.

Ci sono però diﬀerenze sostanziali di obieIvo tra TM da un lato e MT example-‐based e

sta2s2cal MT dall’altro.

(19)

MT e TM

Un sistema di TM svolge una forma di

Informa2on Retrieval che delega al traduEore la decisione su quanto e come u2lizzare e

modiﬁcare il risultato che il sistema produce.

Un sistema di MT example-‐based o sta2s2cal MT invece produce traduzioni selezionando le

informazioni necessarie nella base di

conoscenza cos2tuita da tes2 tradoI.

(20)

MT e TM

TM e MT si possono u2lmente integrare in diversi modi:

•  Batch processing – in un sistema che provi a valutare per ogni TU i match (esaI e fuzzy) prima dell’intervento del traduEore, è

possibile far intervenire un sistema di MT per tuEe quelle TU che non hanno nessun match, segnalando il faEo che si traEa di una

traduzione non ricavata dalla TM.

(21)

MT e TM

•  Batch processing, una nota

Alcuni sistemi di TM valutano la TU nel

momento in cui il traduEore la seleziona per iniziare a tradurre

Altri sistemi valutano tuEe le unità del testo da tradurre prima che il traduEore inizi il suo

lavoro.

(22)

MT e TM

TM e MT si possono u2lmente integrare in diversi modi:

•  Interac2ve processing – in un sistema di TM

che è in comunicazione con un sistema di MT,

il traduEore può richiamare la MT su ogni TU

su cui la TM non gli oﬀre suggerimen2 per la

traduzione, e poi se serve può modiﬁcare il

risultato oﬀerto dalla MT.

(23)

MT e TM

L’integrazione di TM e MT risulta

par2colarmente produIva quando il sistema di MT viene addestrato su grandi corpora e precisamente su quelli che contengono le TU che u2lizza il sistema di TM.

I vantaggi si vedono in termini di velocità, costo, qualità più stabile e quindi aumento della

produIvità.

(24)

Vantaggi e limi2 delle TM

L’uso di TM aumenta la produIvità dei

traduEori e la qualità dei materiali tradoI garantendo l’omogeneità sopraEuEo

terminologica.

I report mostrano aumen2 di produIvità tra il 25 e il 60%.

Il numero di parole tradoEe al giorno si aEesta

intorno ad un massimo di 2.400.

(25)

Vantaggi e limi2 delle TM

L’uso di TM ha però anche eﬀeI nega2vi sulla qualità della traduzione.

Il principale problema è che le TU sono viste come isolate dal contesto e questo rende

diﬃcile ad es. la traduzione correEa di legami

anaforici cross sentenziali.

(26)

Vantaggi e limi2 delle TM

L’uso di TM ha però anche eﬀeI nega2vi sulla qualità della traduzione.

Un altro problema è il faEo che la nozione di similarità tra TU di un traduEore e di un

computer possono essere sensibilmente diverse tra loro e quindi il sistema può

presentare come exact match delle traduzione errate dal punto di vista del traduEore, oppure come fuzzy macth delle cose che non

c’entrano.

(27)

Migliorare l’IR delle TM

I sistemi di IR che stanno dietro le TM non sono molto cambia2 nel tempo.

Il principale loro limite consiste nel faEo che si basano su caraEeri e stringhe, senza u2lizzare aspeI linguis2ci come quelli derivan2 da

analisi morfologica, sintaIca e seman2ca per

determinare il match tra TU.

(28)

Migliorare l’IR delle TM

Ad esempio, i sistemi di TM non sono in grado di riconoscere il match tra due TU quando ci

sono semplici cambiamen2 nell’ordine degli elemen2 della frase.

ES. Il cane dorme da oltre un’ora dentro la sua cuccia in giardino

Il cane dorme in giardino dentro la sua cuccia

da oltre un’ora

(29)

Migliorare l’IR delle TM

L’uso di conoscenza linguis2ca potrebbe

notevolmente migliorare le prestazioni dei sistemi di TM per due mo2vi:

•  Migliorare la precision e recall del retrieval monolingue

•  Aumentare la riusabilità delle TU

suddividendole in par2 più piccole

(30)

Migliorare l’IR delle TM

ES. A[Il cane dorme] B[da oltre un’ora] C[dentro la sua cuccia] D[in giardino]

A[Il cane dorme] D[in giardino] C[dentro la sua

cuccia] B[da oltre un’ora]

(31)

Migliorare l’IR delle TM

L’uso di conoscenza linguis2ca è quindi l’obieIvo dei sistemi di TM di seconda

generazione, che integrano metodi di analisi linguis2ca e di shallow parsing per aumentare le possibilità di match.

Questo ha eﬀeI posi2vi sopraEuEo per certe

coppie di lingue.

(32)

Migliorare l’IR delle TM

Empirically documented knowledge about the nature and applica2ons of TM systems and

translators’ interac2on with them is both scarce and fragmented. In par2cular, more research is needed on how translators interact with TM

technology and on how it inﬂuences translators’

cogni2ve processes. The transla2on profession itself will also welcome more knowledge about the translators’ perspec2ve on TM technology.

(Christensen and Schjoldager 2010, 99)

Computer Assisted Transla2on (CAT)