• Non ci sono risultati.

Computer  Assisted   Transla2on  (CAT)

N/A
N/A
Protected

Academic year: 2021

Condividi "Computer  Assisted   Transla2on  (CAT)"

Copied!
32
0
0

Testo completo

(1)

Computer  Assisted   Transla2on  (CAT)  

Cris%na  Bosco  

Informa%ca  applicata  alla   comunicazione  mul%mediale  

2015-­‐2016  

(2)

Breve  storia  

L’idea  di  sistema  di  CAT  nasce  negli  anni  ‘60,  

quando  la  European  Coal  and  Steel  Community   (ECSC)  sviluppa  un  sistema  per  la  ricerca  di  

termini  e  del  loro  contesto  in  traduzioni   memorizzate  in  formato  eleEronico.  

Il  principale  obieIvo  è  di  mostrare  i  termini  nel  

Linguaggio  Sorgente  (LS)  ed  i  loro  equivalen2  

nel  Linguaggio  Target  (LT)  all’interno  dei  loro  

rispeIvi  contes2.  

(3)

Breve  storia  

L’idea  moderna  di  sistema  consiste  invece  nel   cercare  le  unità  di  traduzione  uguali  per  

riu2lizzarle,  e  la  si  trova  per  la  prima  volta  

all’inizio  degli  anni  ‘70,  nel  modello  sviluppato  da   Krollman  per  l’esercito  tedesco.  

“For  revised  new  edi2ons  of  transla2ons  only  the   changed  passages  would  have  to  be  retyped.  

Inser2on  of  changes  and  correc2ons  into  the  old   text  would  automa2cally  be  done  by  computer.”  

(Krollmann  1971)  

(4)

Breve  storia  

Alla  fine  degli  anni  ‘70  Arthern,  un  traduEore   della  EC,  propone  un  ulteriore  sviluppo,  

nell’ambito  di  una  discussione  sull’uso  dei   database  terminologici  e  l’introduzione  di   Systran.  

Arthern  suggerisce  di  sviluppare  il  sistema  in  

modo  che  possa  trovare  non  solo  le  unità  di  

traduzione  uguali  al  testo  da  tradurre,  ma  

anche  quelle  simili.  

(5)

Breve  storia  

Accanto  all’idea  di  “exact  match”  nasce  quindi   l’idea  di  “fuzzy  match”  (the  nearest  available   equivalent),  ma  anche  la  proposta  di  integrare   sistemi  di  CAT  e  di  MT,  per  poter  oEenere  

come  risultato  la  maggior  quan2tà  di  

materiale  tradoEo  e  limitare  l’intervento   umano.  Realizzare  quindi,  in  accordo  con  

ALPAC,  sistemi  di  traduzione  con  al  centro  il  

traduEore  invece  della  macchina.  

(6)

Breve  storia  

Solo  all’inizio  degli  anni  ‘80  la  ricerca  di  “exact   matches”  viene  implementata  da  ALPS  

Incorporated,  in  una  semplice  componente   deEa  “repe22ons  processing”  del  Transla2on   Support  System  (TTS),  un  sistema  di  MT.  

L’idea  del  “fuzzy  matching”  è  implementata  per   la  prima  volta  all’inizio  degli  anni  ‘90,  nei  primi   sistemi  commercializza2  di  TM,  IBM  

Transla2on  Manager  e  SDL  Trados.  

(7)

I  sistemi  di  TM  

Componen2  di  un  sistema  di  TM:  

•  Editor  mul2lingue  –  serve  a  leggere  il  testo  in  LS  e   a  scriverne  la  traduzione  in  tuI  i  forma2  

necessari  

•  Manager  della  terminologia  –  per  ges2re  tuEo  ciò   che  riguarda  la  memorizzazione  e  modifica  dei  

termini  organizza2  per  soggeEo,  cliente  e   progeEo  

•  Riconoscitore  di  termini  –  per  orientare  la  ricerca   nel  database  terminologico  

(8)

I  sistemi  di  TM  

Componen2  di  un  sistema  di  TM:  

•  Riconoscitore  di  concordanze  –  per  cercare  

tuEe  le  istanze  di  una  stringa  di  ricerca  nel  loro   contesto  

•  Calcolatore  sta2s2che  –  per  avere  una  

panoramica  quan2ta2va  sulla  TM  e  sapere  ad  

es.  quanto  del  materiale  esistente  è  riu2lizzato  

nella  nuova  traduzione  

(9)

I  sistemi  di  TM  

Componen2  di  un  sistema  di  TM:  

•  Strumen2  di  allineamento  –  per  creare  la  TM   con  dentro  i  documen2  precedentemente  

tradoI,  confrontarli  con  i  tes2  da  tradurre  

facendo  il  match  dei  segmen2  corrisponden2,  

e  legare  insieme  le  unità  di  traduzione.    

(10)

I  sistemi  di  TM  

Alcuni  sistemi  offrono  anche  gli  strumen2  per  la   creazione  e  ges2one  di  basi  terminologiche,  e   per  l’integrazione  con  sistemi  di  MT    che  

comportano  quindi  la  ges2one  di  vari  2pi  di   file  all’interno  di  progeI  complessi.  

In  sostanza  dagli  anni  ’90  i  sistemi  di  MT  sono  

rimas2  sostanzialmente  uguali,  con  l’eccezione   degli  algoritmi  di  matching  e  l’aggiunta  di  

funzioni  più  sofis2cate.    

(11)

I  sistemi  di  TM  

(12)

I  sistemi  di  TM  

Dagli  anni  ’90  quello  che  è  cambiato  è  però  il   modo  in  cui  il  processo  traduIvo  viene  

organizzato  e  il  modo  in  cui  le  persone  

coinvolte  in  esso  possono  interagire  grazie  

all’architeEura  client/server  e  grazie  al  cloud  

compu2ng  e  crowd  sourcing.  

(13)

Cloud  compu2ng  

Con  cloud  compu%ng  si  indica  un  paradigma  di  

erogazione  di  risorse  informa2che  (archiviazione,   elaborazione  e  trasmissione  di  da2)  on  demand   tramite  il  web.  

Le  risorse  non  vengono  pienamente  configurate  e   messe  in  opera  dal  fornitore  apposta  per  l'utente,   ma  gli  sono  assegnate,  rapidamente  e  

convenientemente,  grazie  a  procedure  

automa2zzate,  a  par2re  da  un  insieme  di  risorse   condivise  con  altri  uten2  lasciando  all'utente  

parte  dell'onere  della  configurazione.    

(14)

Crowdsourcing  

Con  crowdsourcing  (da  crowd,  "folla",  e  

outsourcing  "esternalizzazione  di  una  parte  delle   proprie  aIvità”)  si  indica  un  modello  di  business   per  cui  si  affida  la  progeEazione,  la  realizzazione   o  lo  sviluppo  di  un  progeEo,  oggeEo  o  idea  ad  un   insieme  indefinito  di  persone  non  organizzate  

precedentemente,  solitamente  tramite  si2  e   portali  web.  

Questo  modello  è  sovente  applicato  per  lo  sviluppo   di  risorse  linguis2che,  e  consente  di  oEenere  da2   che  non  risentono  di  bias  e  sono  quindi  

manifestazione  della  conoscenza  condivisa  dalla   comunità  dei  parlan2.  

(15)

Tipi  di  sistemi  di  TM  

Una  Transla2on  Memory  (TM)  è  solitamente  un   database  in  cui  ogni  record  con2ene  una  

Transla2on  Unit  (TU),  che  consiste  in  una   coppia  di  segmen2  in  LS  e  LT  e  in  varie  

informazioni  sulla  TU  (data  di  creazione,   autore,  progeEo,  cliente).  

Una  TM  è  un  database  dinamico,  che  può  essere  

popolato  in  diversi  modi.    

(16)

Tipi  di  sistemi  di  TM  

Esistono  tre  modi  di  popolare  il  database  TM:  

•  Mentre  si  traduce  –  ogni  TU  tradoEa  viene   salvata  nella  TM  

•  Importando  una  TM  –  sia  creata  con  lo  stesso  

sistema  di  TM,  sia  creata  con  un  altro,  ma  con  un   formato  compa2bile  

•  Allineando  un  testo  con  una  traduzione  –  

esistono  strumen2  di  allineamento  per  meEere   insieme  tes2  tradoI  ad  es.  in  altri  progeI  

(17)

Tipi  di  sistemi  di  TM  

Alcuni  sistemi  di  TM  non  sono  database,  ma   ges2scono  il  testo  nel  loro  complesso.  

RispeEo  ai  sistemi  basa2  su  database  hanno  il   vantaggio  di  meEere  a  disposizione  maggiori   informazioni  sul  contesto.    

Per  questo  mo2vo  nei  sistemi  basa2  su  database  le   TU  vengono  arricchite  con  informazioni  sul  

contesto,  senza  le  quali  le  TU  sono   completamente  decontestualizzate.  

(18)

MT  e  TM  

MT  e  TM  sono  due  cose  dis2nte,  ma  hanno  certe   cose  in  comune:  

TM  trae  spunto  dalla  MT  example-­‐based  e  dalla   sta2s2cal  MT,  entrambi  approcci  rivol2  alla   ricerca  del  best  matching  per  la  frase  da  

tradurre.  

Ci  sono  però  differenze  sostanziali  di  obieIvo   tra  TM  da  un  lato  e  MT  example-­‐based  e  

sta2s2cal  MT  dall’altro.  

(19)

MT  e  TM  

Un  sistema  di  TM  svolge  una  forma  di  

Informa2on  Retrieval  che  delega  al  traduEore   la  decisione  su  quanto  e  come  u2lizzare  e  

modificare  il  risultato  che  il  sistema  produce.  

Un  sistema  di  MT  example-­‐based  o  sta2s2cal  MT   invece  produce  traduzioni  selezionando  le  

informazioni  necessarie  nella  base  di  

conoscenza  cos2tuita  da  tes2  tradoI.  

(20)

MT  e  TM  

TM  e  MT  si  possono  u2lmente  integrare  in   diversi  modi:  

•  Batch  processing  –  in  un  sistema  che  provi  a   valutare  per  ogni  TU  i  match  (esaI  e  fuzzy)   prima  dell’intervento  del  traduEore,  è  

possibile  far  intervenire  un  sistema  di  MT  per   tuEe  quelle  TU  che  non  hanno  nessun  match,   segnalando  il  faEo  che  si  traEa  di  una  

traduzione  non  ricavata  dalla  TM.  

(21)

MT  e  TM  

•  Batch  processing,  una  nota  

Alcuni  sistemi  di  TM  valutano  la  TU  nel  

momento  in  cui  il  traduEore  la  seleziona  per   iniziare  a  tradurre  

Altri  sistemi  valutano  tuEe  le  unità  del  testo  da   tradurre  prima  che  il  traduEore  inizi  il  suo  

lavoro.  

(22)

MT  e  TM  

TM  e  MT  si  possono  u2lmente  integrare  in   diversi  modi:  

•  Interac2ve  processing  –  in  un  sistema  di  TM  

che  è  in  comunicazione  con  un  sistema  di  MT,  

il  traduEore  può  richiamare  la  MT  su  ogni  TU  

su  cui  la  TM  non  gli  offre  suggerimen2  per  la  

traduzione,  e  poi  se  serve  può  modificare  il  

risultato  offerto  dalla  MT.  

(23)

MT  e  TM  

L’integrazione  di  TM  e  MT  risulta  

par2colarmente  produIva  quando  il  sistema   di  MT  viene  addestrato  su  grandi  corpora  e   precisamente  su  quelli  che  contengono  le  TU   che  u2lizza  il  sistema  di  TM.  

I  vantaggi  si  vedono  in  termini  di  velocità,  costo,   qualità  più  stabile  e  quindi  aumento  della  

produIvità.  

(24)

Vantaggi  e  limi2  delle  TM  

L’uso  di  TM  aumenta  la  produIvità  dei  

traduEori  e  la  qualità  dei  materiali  tradoI   garantendo  l’omogeneità  sopraEuEo  

terminologica.  

I  report  mostrano  aumen2  di  produIvità  tra  il   25  e  il  60%.  

Il  numero  di  parole  tradoEe  al  giorno  si  aEesta  

intorno  ad  un  massimo  di  2.400.  

(25)

Vantaggi  e  limi2  delle  TM  

L’uso  di  TM  ha  però  anche  effeI  nega2vi  sulla   qualità  della  traduzione.  

Il  principale  problema  è  che  le  TU  sono  viste   come  isolate  dal  contesto  e  questo  rende  

difficile  ad  es.    la  traduzione  correEa  di  legami  

anaforici  cross  sentenziali.  

(26)

Vantaggi  e  limi2  delle  TM  

L’uso  di  TM  ha  però  anche  effeI  nega2vi  sulla   qualità  della  traduzione.  

Un  altro  problema  è  il  faEo  che  la  nozione  di   similarità  tra  TU  di  un  traduEore  e  di  un  

computer  possono  essere  sensibilmente   diverse  tra  loro  e  quindi  il  sistema  può  

presentare  come  exact  match  delle  traduzione   errate  dal  punto  di  vista  del  traduEore,  oppure   come  fuzzy  macth  delle  cose  che  non  

c’entrano.  

(27)

Migliorare  l’IR  delle  TM  

I  sistemi  di  IR  che  stanno  dietro  le  TM  non  sono   molto  cambia2  nel  tempo.  

Il  principale  loro  limite  consiste  nel  faEo  che  si   basano  su  caraEeri  e  stringhe,  senza  u2lizzare   aspeI  linguis2ci  come  quelli  derivan2  da  

analisi  morfologica,  sintaIca  e  seman2ca  per  

determinare  il  match  tra  TU.  

(28)

Migliorare  l’IR  delle  TM  

Ad  esempio,  i  sistemi  di  TM  non  sono  in  grado  di   riconoscere  il  match  tra  due  TU  quando  ci  

sono  semplici  cambiamen2  nell’ordine  degli   elemen2  della  frase.  

ES.  Il  cane  dorme  da  oltre  un’ora  dentro  la  sua   cuccia  in  giardino  

 Il  cane  dorme  in  giardino  dentro  la  sua  cuccia  

da  oltre  un’ora  

(29)

Migliorare  l’IR  delle  TM  

L’uso  di  conoscenza  linguis2ca  potrebbe  

notevolmente  migliorare  le  prestazioni  dei   sistemi  di  TM  per  due  mo2vi:  

•  Migliorare  la  precision  e  recall  del  retrieval   monolingue  

•  Aumentare  la  riusabilità  delle  TU  

suddividendole  in  par2  più  piccole  

(30)

Migliorare  l’IR  delle  TM  

ES.  A[Il  cane  dorme]  B[da  oltre  un’ora]  C[dentro   la  sua  cuccia]  D[in  giardino]  

 A[Il  cane  dorme]  D[in  giardino]  C[dentro  la  sua  

cuccia]  B[da  oltre  un’ora]  

(31)

Migliorare  l’IR  delle  TM  

L’uso  di  conoscenza  linguis2ca  è  quindi   l’obieIvo  dei  sistemi  di  TM  di  seconda  

generazione,  che  integrano  metodi  di  analisi   linguis2ca  e  di  shallow  parsing  per  aumentare   le  possibilità  di  match.  

Questo  ha  effeI  posi2vi  sopraEuEo  per  certe  

coppie  di  lingue.  

(32)

Migliorare  l’IR  delle  TM  

Empirically  documented  knowledge  about  the   nature  and  applica2ons  of  TM  systems  and  

translators’  interac2on  with  them  is  both  scarce   and  fragmented.  In  par2cular,  more  research  is   needed  on  how  translators  interact  with  TM  

technology  and  on  how  it  influences  translators’  

cogni2ve  processes.  The  transla2on  profession   itself  will  also  welcome  more  knowledge  about   the  translators’  perspec2ve  on  TM  technology.  

(Christensen  and  Schjoldager  2010,  99)  

Riferimenti

Documenti correlati

suddiviso in UdiT e il traduttore sceglie quale UdiT tradurre, il sistema cerca il match nella TM e produce di conseguenza una proposta di traduzione.. Utilizzare una Memoria

[r]

L’uso della terminologia corretta e consistente rende la traduzione anche più veloce perché riduce i tempi per la ricerca dei termini... Lessico comune e specialistico. In accordo

[r]

L’idea moderna di sistema consiste invece nel cercare le unità di traduzione uguali per riutilizzarle, e la si trova per la prima volta all’inizio degli anni ‘70, nel

suddiviso in UdiT e il traduttore sceglie quale UdiT tradurre, il sistema cerca il match nella TM e produce di conseguenza una proposta di traduzione.. Utilizzare una Memoria

[r]

In order to generate such feedback during spine surgery three tasks have to be fulfilled by a spinal navigation system: (a) an image or a set of images of the spine has to be