Computer Assisted Transla2on (CAT)
Cris%na Bosco
Informa%ca applicata alla comunicazione mul%mediale
2015-‐2016
Breve storia
L’idea di sistema di CAT nasce negli anni ‘60,
quando la European Coal and Steel Community (ECSC) sviluppa un sistema per la ricerca di
termini e del loro contesto in traduzioni memorizzate in formato eleEronico.
Il principale obieIvo è di mostrare i termini nel
Linguaggio Sorgente (LS) ed i loro equivalen2
nel Linguaggio Target (LT) all’interno dei loro
rispeIvi contes2.
Breve storia
L’idea moderna di sistema consiste invece nel cercare le unità di traduzione uguali per
riu2lizzarle, e la si trova per la prima volta
all’inizio degli anni ‘70, nel modello sviluppato da Krollman per l’esercito tedesco.
“For revised new edi2ons of transla2ons only the changed passages would have to be retyped.
Inser2on of changes and correc2ons into the old text would automa2cally be done by computer.”
(Krollmann 1971)
Breve storia
Alla fine degli anni ‘70 Arthern, un traduEore della EC, propone un ulteriore sviluppo,
nell’ambito di una discussione sull’uso dei database terminologici e l’introduzione di Systran.
Arthern suggerisce di sviluppare il sistema in
modo che possa trovare non solo le unità di
traduzione uguali al testo da tradurre, ma
anche quelle simili.
Breve storia
Accanto all’idea di “exact match” nasce quindi l’idea di “fuzzy match” (the nearest available equivalent), ma anche la proposta di integrare sistemi di CAT e di MT, per poter oEenere
come risultato la maggior quan2tà di
materiale tradoEo e limitare l’intervento umano. Realizzare quindi, in accordo con
ALPAC, sistemi di traduzione con al centro il
traduEore invece della macchina.
Breve storia
Solo all’inizio degli anni ‘80 la ricerca di “exact matches” viene implementata da ALPS
Incorporated, in una semplice componente deEa “repe22ons processing” del Transla2on Support System (TTS), un sistema di MT.
L’idea del “fuzzy matching” è implementata per la prima volta all’inizio degli anni ‘90, nei primi sistemi commercializza2 di TM, IBM
Transla2on Manager e SDL Trados.
I sistemi di TM
Componen2 di un sistema di TM:
• Editor mul2lingue – serve a leggere il testo in LS e a scriverne la traduzione in tuI i forma2
necessari
• Manager della terminologia – per ges2re tuEo ciò che riguarda la memorizzazione e modifica dei
termini organizza2 per soggeEo, cliente e progeEo
• Riconoscitore di termini – per orientare la ricerca nel database terminologico
I sistemi di TM
Componen2 di un sistema di TM:
• Riconoscitore di concordanze – per cercare
tuEe le istanze di una stringa di ricerca nel loro contesto
• Calcolatore sta2s2che – per avere una
panoramica quan2ta2va sulla TM e sapere ad
es. quanto del materiale esistente è riu2lizzato
nella nuova traduzione
I sistemi di TM
Componen2 di un sistema di TM:
• Strumen2 di allineamento – per creare la TM con dentro i documen2 precedentemente
tradoI, confrontarli con i tes2 da tradurre
facendo il match dei segmen2 corrisponden2,
e legare insieme le unità di traduzione.
I sistemi di TM
Alcuni sistemi offrono anche gli strumen2 per la creazione e ges2one di basi terminologiche, e per l’integrazione con sistemi di MT che
comportano quindi la ges2one di vari 2pi di file all’interno di progeI complessi.
In sostanza dagli anni ’90 i sistemi di MT sono
rimas2 sostanzialmente uguali, con l’eccezione degli algoritmi di matching e l’aggiunta di
funzioni più sofis2cate.
I sistemi di TM
I sistemi di TM
Dagli anni ’90 quello che è cambiato è però il modo in cui il processo traduIvo viene
organizzato e il modo in cui le persone
coinvolte in esso possono interagire grazie
all’architeEura client/server e grazie al cloud
compu2ng e crowd sourcing.
Cloud compu2ng
Con cloud compu%ng si indica un paradigma di
erogazione di risorse informa2che (archiviazione, elaborazione e trasmissione di da2) on demand tramite il web.
Le risorse non vengono pienamente configurate e messe in opera dal fornitore apposta per l'utente, ma gli sono assegnate, rapidamente e
convenientemente, grazie a procedure
automa2zzate, a par2re da un insieme di risorse condivise con altri uten2 lasciando all'utente
parte dell'onere della configurazione.
Crowdsourcing
Con crowdsourcing (da crowd, "folla", e
outsourcing "esternalizzazione di una parte delle proprie aIvità”) si indica un modello di business per cui si affida la progeEazione, la realizzazione o lo sviluppo di un progeEo, oggeEo o idea ad un insieme indefinito di persone non organizzate
precedentemente, solitamente tramite si2 e portali web.
Questo modello è sovente applicato per lo sviluppo di risorse linguis2che, e consente di oEenere da2 che non risentono di bias e sono quindi
manifestazione della conoscenza condivisa dalla comunità dei parlan2.
Tipi di sistemi di TM
Una Transla2on Memory (TM) è solitamente un database in cui ogni record con2ene una
Transla2on Unit (TU), che consiste in una coppia di segmen2 in LS e LT e in varie
informazioni sulla TU (data di creazione, autore, progeEo, cliente).
Una TM è un database dinamico, che può essere
popolato in diversi modi.
Tipi di sistemi di TM
Esistono tre modi di popolare il database TM:
• Mentre si traduce – ogni TU tradoEa viene salvata nella TM
• Importando una TM – sia creata con lo stesso
sistema di TM, sia creata con un altro, ma con un formato compa2bile
• Allineando un testo con una traduzione –
esistono strumen2 di allineamento per meEere insieme tes2 tradoI ad es. in altri progeI
Tipi di sistemi di TM
Alcuni sistemi di TM non sono database, ma ges2scono il testo nel loro complesso.
RispeEo ai sistemi basa2 su database hanno il vantaggio di meEere a disposizione maggiori informazioni sul contesto.
Per questo mo2vo nei sistemi basa2 su database le TU vengono arricchite con informazioni sul
contesto, senza le quali le TU sono completamente decontestualizzate.
MT e TM
MT e TM sono due cose dis2nte, ma hanno certe cose in comune:
TM trae spunto dalla MT example-‐based e dalla sta2s2cal MT, entrambi approcci rivol2 alla ricerca del best matching per la frase da
tradurre.
Ci sono però differenze sostanziali di obieIvo tra TM da un lato e MT example-‐based e
sta2s2cal MT dall’altro.
MT e TM
Un sistema di TM svolge una forma di
Informa2on Retrieval che delega al traduEore la decisione su quanto e come u2lizzare e
modificare il risultato che il sistema produce.
Un sistema di MT example-‐based o sta2s2cal MT invece produce traduzioni selezionando le
informazioni necessarie nella base di
conoscenza cos2tuita da tes2 tradoI.
MT e TM
TM e MT si possono u2lmente integrare in diversi modi:
• Batch processing – in un sistema che provi a valutare per ogni TU i match (esaI e fuzzy) prima dell’intervento del traduEore, è
possibile far intervenire un sistema di MT per tuEe quelle TU che non hanno nessun match, segnalando il faEo che si traEa di una
traduzione non ricavata dalla TM.
MT e TM
• Batch processing, una nota
Alcuni sistemi di TM valutano la TU nel
momento in cui il traduEore la seleziona per iniziare a tradurre
Altri sistemi valutano tuEe le unità del testo da tradurre prima che il traduEore inizi il suo
lavoro.
MT e TM
TM e MT si possono u2lmente integrare in diversi modi:
• Interac2ve processing – in un sistema di TM
che è in comunicazione con un sistema di MT,
il traduEore può richiamare la MT su ogni TU
su cui la TM non gli offre suggerimen2 per la
traduzione, e poi se serve può modificare il
risultato offerto dalla MT.
MT e TM
L’integrazione di TM e MT risulta
par2colarmente produIva quando il sistema di MT viene addestrato su grandi corpora e precisamente su quelli che contengono le TU che u2lizza il sistema di TM.
I vantaggi si vedono in termini di velocità, costo, qualità più stabile e quindi aumento della
produIvità.
Vantaggi e limi2 delle TM
L’uso di TM aumenta la produIvità dei
traduEori e la qualità dei materiali tradoI garantendo l’omogeneità sopraEuEo
terminologica.
I report mostrano aumen2 di produIvità tra il 25 e il 60%.
Il numero di parole tradoEe al giorno si aEesta
intorno ad un massimo di 2.400.
Vantaggi e limi2 delle TM
L’uso di TM ha però anche effeI nega2vi sulla qualità della traduzione.
Il principale problema è che le TU sono viste come isolate dal contesto e questo rende
difficile ad es. la traduzione correEa di legami
anaforici cross sentenziali.
Vantaggi e limi2 delle TM
L’uso di TM ha però anche effeI nega2vi sulla qualità della traduzione.
Un altro problema è il faEo che la nozione di similarità tra TU di un traduEore e di un
computer possono essere sensibilmente diverse tra loro e quindi il sistema può
presentare come exact match delle traduzione errate dal punto di vista del traduEore, oppure come fuzzy macth delle cose che non
c’entrano.
Migliorare l’IR delle TM
I sistemi di IR che stanno dietro le TM non sono molto cambia2 nel tempo.
Il principale loro limite consiste nel faEo che si basano su caraEeri e stringhe, senza u2lizzare aspeI linguis2ci come quelli derivan2 da
analisi morfologica, sintaIca e seman2ca per
determinare il match tra TU.
Migliorare l’IR delle TM
Ad esempio, i sistemi di TM non sono in grado di riconoscere il match tra due TU quando ci
sono semplici cambiamen2 nell’ordine degli elemen2 della frase.
ES. Il cane dorme da oltre un’ora dentro la sua cuccia in giardino
Il cane dorme in giardino dentro la sua cuccia
da oltre un’ora
Migliorare l’IR delle TM
L’uso di conoscenza linguis2ca potrebbe
notevolmente migliorare le prestazioni dei sistemi di TM per due mo2vi:
• Migliorare la precision e recall del retrieval monolingue
• Aumentare la riusabilità delle TU
suddividendole in par2 più piccole
Migliorare l’IR delle TM
ES. A[Il cane dorme] B[da oltre un’ora] C[dentro la sua cuccia] D[in giardino]
A[Il cane dorme] D[in giardino] C[dentro la sua
cuccia] B[da oltre un’ora]
Migliorare l’IR delle TM
L’uso di conoscenza linguis2ca è quindi l’obieIvo dei sistemi di TM di seconda
generazione, che integrano metodi di analisi linguis2ca e di shallow parsing per aumentare le possibilità di match.
Questo ha effeI posi2vi sopraEuEo per certe
coppie di lingue.
Migliorare l’IR delle TM
Empirically documented knowledge about the nature and applica2ons of TM systems and
translators’ interac2on with them is both scarce and fragmented. In par2cular, more research is needed on how translators interact with TM
technology and on how it influences translators’
cogni2ve processes. The transla2on profession itself will also welcome more knowledge about the translators’ perspec2ve on TM technology.
(Christensen and Schjoldager 2010, 99)