Computer Assisted Transla2on

(1)

Computer Assisted Transla2on

Informa2ca Applicata alla Comunicazione Mul2mediale

2016/2017

Cris2na Bosco

(2)

Ausili alla Traduzione

In senso generale sono ausili alla traduzione gli

strumen2 di elaborazione del linguaggio umano:

•  elaboratori di tes2

•  soBware OCR (Op#cal Character Recogni#on)

•  strumen2 per il riconoscimento e la sintesi vocale

•  strumen2 per la ricerca e sos2tuzione di testo

•  risorse linguis2che

(3)

Sistemi di traduzione

In senso streKo sistemi informa2ci per la traduzione sono invece sistemi che svolgono compi2 di traduzione:

•  sos2tuendo il traduKore (traduKori automa2ci = machine transla2on)

•  supportando il traduKore con strumen2 per lo svolgimento di aMvità tradizionalmente svolte manualmente come (CAT):

–  analisi sul testo sorgente o target

–  creazione, ges2one e consultazione di glossari e basi terminologiche

–  ricerche in corpora linguis2ci

(4)

CAT

Alle applicazioni che supportano il lavoro umano di traduzione si fa riferimento colleMvamente con il nome di CAT (Computer Aided

Transla#on o Computer Assisted Transla#on).

Non sono propriamente strumen2 CAT quelli per la traduzione automa2ca (MT, Machine

Transla#on), anche nella sua varietà assis2ta

(HAMT, Human Aided Machine Transla#on).

(5)

CAT e TM

I sistemi per la traduzione assis2ta aKualmente più diﬀusi forniscono al traduKore

professionista vari strumen2 tra cui

sopraKuKo la memoria di traduzione (TM, Transla#on Memory).

Per questo mo2vo che il termine TM viene

spesso, sebbene in modo impreciso, usato

interscambiabilmente con il termine CAT.

(6)

Breve storia

Con il rapporto ALPAC del 1966 la ricerca nel campo della traduzione automa2ca subisce una baKuta di arresto e si cominciano a cercare modi di meKere la tecnologia informa2ca al servizio del traduKore umano.

Le prime soluzioni consistevano essenzialmente in banche da2 terminologiche, che a causa dei cos2 eleva2 delle tecnologie informa2che, negli anni '70, erano retaggio di poche grandi aziende.

Tra la ﬁne degli anni '70 e l'inizio degli anni '80

cominciarono a circolare idee che cos2tuivano la base del conceKo di memoria di traduzione.

(7)

Breve storia

"It must in fact be possible to produce a program which would enable the word processor to

'remember' whether any part of a new text typed into it had already been translated, and to fetch this part, together with the transla#on which had already been done, and display it on screen or

print it out, automa#cally."

[P. J. Arthern, Aids unlimited: the scope for machine

aids in a large organiza#on, in Aslib Proceedings

volume 33, no. 8, Machine Aids for Translators,

Aslib, London, 1981.]

(8)

Breve storia

Negli anni '80 compaiono sul mercato i primi personal computer e i sistemi di CAT

cominciarono eﬀeMvamente a essere realizza2.

Il pioniere è TSS (Transla2on Support System), un

soBware per sistema opera2vo OS/2 realizzato da ALPS, una società statunitense produKrice di

soBware per applicazioni linguis2che, poi divenuta Alpnet.

TSS fu realizzato aKorno alla metà degli anni '80 e

fu adoKato da alcune grandi società, tra le quali

IBM, per la propria aMvità di traduzione interna.

(9)

Breve storia

La seconda metà degli anni '80 vede un grande fermento nel seKore: la società olandese INK realizza nel 1987 un sistema ispirato a TSS e integrato da un componente

terminologico (TermTracer), producendo un paccheKo denominato Text Tools.

La società Trados, fondata nel 1984, oMene il diriKo di

commercializzare tale paccheKo in Germania. Lo stesso anno la società svizzera Star AG, specializzata in

traduzioni tecniche, realizza per i collaboratori interni un soBware di traduzione denominato Transit,

funzionante soKo DOS. Diverse altre aziende realizzano strumen2 simili a uso interno.

(10)

Breve storia

La commercializzazione di tali paccheM al di fuori delle grandi aziende inizia nei primi anni '90.

Nel 1990 esce la prima versione di Trados Mul2Term per DOS.

Nel 1992 IBM lancia sul mercato il suo SAA AD/Cycle Transla2on Manager/2 (TM/2) per OS/2.

Lo stesso anno fa il suo esordio sul mercato Trados Translator's Workbench per DOS.

L'anno successivo Atril realizza e immeKe sul mercato Déjà Vu per Windows.

Nel 1994 anche Star meKe in commercio la versione per Windows del proprio sistema.

I prezzi eleva2 di ques2 strumen2 (diversi milioni di lire) e i

requisi2 hardware non contenu2 ne rallentano la diﬀusione fra i traduKori indipenden2.

(11)

Breve storia

Nello stesso quinquennio vedono la luce diversi altri soBware basa2 sul conceKo di memoria di

traduzione, che hanno però scarso successo e il cui sviluppo viene abbandonato.

Nella seconda metà degli anni '90, mentre alcuni dei soBware na2 agli inizi del decennio

conquistano una sempre maggiore popolarità fra

i traduKori, grazie anche a un sostanziale ribasso

dei prezzi, fanno la loro comparsa prodoM nuovi,

tra i quali SDLX (1998).

(12)

Breve storia

Alla ﬁne degli ’90 e nel primo decennio del 2000, videro la luce diversi soBware economici

oppure gratui2 come Wordfast (1999), Omega T (2002), Memo Q (2009) o online come

Translator’s Toolkit di Google (2008).

Oggi i sistemi di CAT più no2 sono SDL Trados,

Star Transit, Across, Atril Déjà Vu, incalza2 da

WordFast, Omega T e Memo Q.

(13)

Breve storia

(14)

Breve storia

L’idea di sistema di CAT nasce negli anni ‘60,

quando la European Coal and Steel Community (ECSC) sviluppa un sistema per la ricerca di

termini e del loro contesto in traduzioni memorizzate in formato eleKronico.

Il principale obieMvo è di mostrare i termini nel

Linguaggio Sorgente (LS) ed i loro equivalen2

nel Linguaggio Target (LT) all’interno dei loro

rispeMvi contes2.

(15)

Breve storia

L’idea moderna di sistema consiste invece nel cercare le unità di traduzione uguali per

riu2lizzarle, e la si trova per la prima volta

all’inizio degli anni ‘70, nel modello sviluppato da Krollman per l’esercito tedesco.

“For revised new edi2ons of transla2ons only the changed passages would have to be retyped.

Inser2on of changes and correc2ons into the old text would automa2cally be done by computer.”

(Krollmann 1971)

(16)

Breve storia

Alla ﬁne degli anni ‘70 Arthern, un traduKore della EC, propone un ulteriore sviluppo,

nell’ambito di una discussione sull’uso dei database terminologici e l’introduzione di Systran.

Arthern suggerisce di sviluppare il sistema in

modo che possa trovare non solo le unità di

traduzione uguali al testo da tradurre, ma

anche quelle simili.

(17)

Breve storia

Accanto all’idea di “exact match” nasce quindi l’idea di “fuzzy match” (the nearest available equivalent), ma anche la proposta di integrare sistemi di CAT e di MT, per poter oKenere

come risultato la maggior quan2tà di

materiale tradoKo e limitare l’intervento umano. Realizzare quindi, in accordo con

ALPAC, sistemi di traduzione con al centro il

traduKore invece della macchina.

(18)

Breve storia

Solo all’inizio degli anni ‘80 la ricerca di “exact matches” viene implementata da ALPS

Incorporated, in una semplice componente deKa “repe22ons processing” del Transla2on Support System (TTS), un sistema di MT.

L’idea del “fuzzy matching” è implementata per la prima volta all’inizio degli anni ‘90, nei primi sistemi commercializza2 di TM, IBM

Transla2on Manager e SDL Trados.

(19)

Memoria di traduzione: UT

Una memoria di traduzione è un archivio

eleKronico in cui i tes2 in lingua sorgente e i corrisponden2 tes2 in una o più lingue target sono memorizza2 in modo parallelo.

I tes2 sono segmenta2 in unità minime deKe Unità di Traduzione (UT) e allinea2 in modo che ad ogni segmento in lingua sorgente

corrisponda il proprio traducente in ciascuna

delle lingue target.

(20)

Memoria di traduzione: creazione

I sistemi di CAT consentono di creare una

memoria di traduzione in due modi diﬀeren2:

-‐ costruendola durante il processo di traduzione;

l’utente crea una nuova memoria vuota e il sistema si occupa di riempirla durante la

traduzione, man mano che il traduKore lavora, archiviando in modo automa2co nella

memoria di traduzione le traduzioni prodoKe.

(21)

Memoria di traduzione: creazione

-‐ Indipendentemente dal processo di traduzione.

Se sono disponibili in formato eleKronico sia il testo in lingua sorgente, sia il corrispondente testo in lingua target, è infaM possibile

alimentare una memoria di traduzione tramite procedure di allineamento automa2co. I tes2 sorgente e target vengono segmenta2 ed

inseri2 nella memoria di traduzione appaia2

(con interven2 manuali più o meno estesi).

(22)

Memoria di traduzione: u2lizzo

Quando si traduce u2lizzando uno strumento di CAT, questo segmenta il testo da tradurre e per ogni segmento, man mano che si traduce, controlla se

esistono corrispondenze nella memoria di traduzione.

Se trova un segmento uguale (exact match,

corrispondenza esaKa) o simile (fuzzy match,

corrispondenza parziale) nella lingua di partenza,

presenta al traduKore il segmento corrispondente nella lingua di arrivo che il traduKore potrà acceKare,

correggere come necessario o ignorare facendo una traduzione ex-‐novo.

(23)

Memoria di traduzione: search

La maggior parte degli strumen2 di CAT consente di cercare nella memoria di

traduzione singoli termini o espressioni per veriﬁcare come sono sta2 tradoM in

precedenza.

Una memoria di traduzione è uno strumento potente per la traduzione di tes2 ripe22vi

(documentazione tecnica, manualis2ca, tes2

legali e commerciali), che coerenza s2lis2ca e

terminologica e tempi di traduzione ridoM.

(24)

I sistemi di TM

Componen2 di un sistema di TM:

•  Editor mul2lingue – serve a leggere il testo in LS e a scriverne la traduzione in tuM i forma2

necessari

•  Manager della terminologia – per ges2re tuKo ciò che riguarda la memorizzazione e modiﬁca dei

termini organizza2 per soggeKo, cliente e progeKo

•  Riconoscitore di termini – per orientare la ricerca

nel database terminologico

(25)

I sistemi di TM

Componen2 di un sistema di TM:

•  Riconoscitore di concordanze – per cercare

tuKe le istanze di una stringa di ricerca nel loro contesto

•  Calcolatore sta2s2che – per avere una

panoramica quan2ta2va sulla TM e sapere ad

es. quanto del materiale esistente è riu2lizzato

nella nuova traduzione

(26)

I sistemi di TM

Componen2 di un sistema di TM:

•  Strumen2 di allineamento – per creare la TM con dentro i documen2 precedentemente

tradoM, confrontarli con i tes2 da tradurre

facendo il match dei segmen2 corrisponden2,

e legare insieme le unità di traduzione.

(27)

I sistemi di TM

Alcuni sistemi oﬀrono anche gli strumen2 per la creazione e ges2one di basi terminologiche, e per l’integrazione con sistemi di MT che

comportano quindi la ges2one di vari 2pi di ﬁle all’interno di progeM complessi.

In sostanza dagli anni ’90 i sistemi di MT sono

rimas2 sostanzialmente uguali, con l’eccezione degli algoritmi di matching e l’aggiunta di

funzioni più soﬁs2cate.

(28)

I sistemi di TM

(29)

I sistemi di TM

Dagli anni ’90 quello che è cambiato è però il modo in cui il processo traduMvo viene

organizzato e il modo in cui le persone

coinvolte in esso possono interagire grazie

all’architeKura client/server e grazie al cloud

compu2ng e crowd sourcing.

(30)

Cloud compu2ng

Con cloud compu)ng si indica un paradigma di

erogazione di risorse informa2che (archiviazione, elaborazione e trasmissione di da2) on demand tramite il web.

Le risorse non vengono pienamente conﬁgurate e messe in opera dal fornitore apposta per l'utente, ma gli sono assegnate, rapidamente e

convenientemente, grazie a procedure

automa2zzate, a par2re da un insieme di risorse condivise con altri uten2 lasciando all'utente

parte dell'onere della conﬁgurazione.

(31)

Crowdsourcing

Con crowdsourcing (da crowd, "folla", e

outsourcing "esternalizzazione di una parte delle proprie aMvità”) si indica un modello di business per cui si aﬃda la progeKazione, la realizzazione o lo sviluppo di un progeKo, oggeKo o idea ad un insieme indeﬁnito di persone non organizzate

precedentemente, solitamente tramite si2 e portali web.

Questo modello è sovente applicato per lo sviluppo di risorse linguis2che, e consente di oKenere da2 che non risentono di bias e sono quindi

manifestazione della conoscenza condivisa dalla

comunità dei parlan2.

(32)

Tipi di sistemi di TM

Una Transla2on Memory (TM) è solitamente un database in cui ogni record con2ene una

Transla2on Unit (TU), che consiste in una coppia di segmen2 in LS e LT e in varie

informazioni sulla TU (data di creazione, autore, progeKo, cliente).

Una TM è un database dinamico, che può essere

popolato in diversi modi.

(33)

Tipi di sistemi di TM

Esistono tre modi di popolare il database TM:

•  Mentre si traduce – ogni TU tradoKa viene salvata nella TM

•  Importando una TM – sia creata con lo stesso

sistema di TM, sia creata con un altro, ma con un formato compa2bile

•  Allineando un testo con una traduzione –

esistono strumen2 di allineamento per meKere

insieme tes2 tradoM ad es. in altri progeM

(34)

Tipi di sistemi di TM

Alcuni sistemi di TM non sono database, ma ges2scono il testo nel loro complesso.

RispeKo ai sistemi basa2 su database hanno il vantaggio di meKere a disposizione maggiori informazioni sul contesto.

Per questo mo2vo nei sistemi basa2 su database le TU vengono arricchite con informazioni sul

contesto, senza le quali le TU sono

completamente decontestualizzate.

(35)

MT e TM

MT e TM sono due cose dis2nte, ma hanno certe cose in comune:

TM trae spunto dalla MT example-‐based e dalla sta2s2cal MT, entrambi approcci rivol2 alla

ricerca del best matching per la frase da tradurre.

Ci sono però diﬀerenze sostanziali di obieMvo tra TM da un lato e MT example-‐based e

sta2s2cal MT dall’altro.

(36)

MT e TM

Un sistema di TM svolge una forma di

Informa2on Retrieval che delega al traduKore la decisione su quanto e come u2lizzare e

modiﬁcare il risultato che il sistema produce.

Un sistema di MT example-‐based o sta2s2cal MT invece produce traduzioni selezionando le

informazioni necessarie nella base di

conoscenza cos2tuita da tes2 tradoM.

(37)

MT e TM

TM e MT si possono u2lmente integrare in diversi modi:

•  Batch processing – in un sistema che provi a valutare per ogni TU i match (esaM e fuzzy) prima dell’intervento del traduKore, è

possibile far intervenire un sistema di MT per tuKe quelle TU che non hanno nessun match, segnalando il faKo che si traKa di una

traduzione non ricavata dalla TM.

(38)

MT e TM

•  Batch processing, una nota

Alcuni sistemi di TM valutano la TU nel

momento in cui il traduKore la seleziona per iniziare a tradurre

Altri sistemi valutano tuKe le unità del testo da tradurre prima che il traduKore inizi il suo

lavoro.

(39)

MT e TM

TM e MT si possono u2lmente integrare in diversi modi:

•  Interac2ve processing – in un sistema di TM

che è in comunicazione con un sistema di MT,

il traduKore può richiamare la MT su ogni TU

su cui la TM non gli oﬀre suggerimen2 per la

traduzione, e poi se serve può modiﬁcare il

risultato oﬀerto dalla MT.

(40)

MT e TM

L’integrazione di TM e MT risulta

par2colarmente produMva quando il sistema di MT viene addestrato su grandi corpora e precisamente su quelli che contengono le TU che u2lizza il sistema di TM.

I vantaggi si vedono in termini di velocità, costo, qualità più stabile e quindi aumento della

produMvità.

(41)

Vantaggi e limi2 delle TM

L’uso di TM aumenta la produMvità dei

traduKori e la qualità dei materiali tradoM garantendo l’omogeneità sopraKuKo

terminologica.

I report mostrano aumen2 di produMvità tra il 25 e il 60%.

Il numero di parole tradoKe al giorno si aKesta

intorno ad un massimo di 2.400.

(42)

Vantaggi e limi2 delle TM

L’uso di TM ha però anche eﬀeM nega2vi sulla qualità della traduzione.

Il principale problema è che le TU sono viste come isolate dal contesto e questo rende

diﬃcile ad es. la traduzione correKa di legami

anaforici cross sentenziali.

(43)

Vantaggi e limi2 delle TM

L’uso di TM ha però anche eﬀeM nega2vi sulla qualità della traduzione.

Un altro problema è il faKo che la nozione di similarità tra TU di un traduKore e di un

computer possono essere sensibilmente diverse tra loro e quindi il sistema può

presentare come exact match delle traduzione errate dal punto di vista del traduKore, oppure come fuzzy macth delle cose che non

c’entrano.

(44)

Migliorare l’IR delle TM

I sistemi di IR che stanno dietro le TM non sono molto cambia2 nel tempo.

Il principale loro limite consiste nel faKo che si basano su caraKeri e stringhe, senza u2lizzare aspeM linguis2ci come quelli derivan2 da

analisi morfologica, sintaMca e seman2ca per

determinare il match tra TU.

(45)

Migliorare l’IR delle TM

Ad esempio, i sistemi di TM non sono in grado di riconoscere il match tra due TU quando ci

sono semplici cambiamen2 nell’ordine degli elemen2 della frase.

ES. Il cane dorme da oltre un’ora dentro la sua cuccia in giardino

Il cane dorme in giardino dentro la sua cuccia

da oltre un’ora

(46)

Migliorare l’IR delle TM

L’uso di conoscenza linguis2ca potrebbe

notevolmente migliorare le prestazioni dei sistemi di TM per due mo2vi:

•  Migliorare la precision e recall del retrieval monolingue

•  Aumentare la riusabilità delle TU

suddividendole in par2 più piccole

(47)

Migliorare l’IR delle TM

ES. A[Il cane dorme] B[da oltre un’ora] C[dentro la sua cuccia] D[in giardino]

A[Il cane dorme] D[in giardino] C[dentro la sua

cuccia] B[da oltre un’ora]

(48)

Migliorare l’IR delle TM

L’uso di conoscenza linguis2ca è quindi l’obieMvo dei sistemi di TM di seconda

generazione, che integrano metodi di analisi linguis2ca e di shallow parsing per aumentare le possibilità di match.

Questo ha eﬀeM posi2vi sopraKuKo per certe

coppie di lingue.

(49)

Computer Assisted Transla2on