• Non ci sono risultati.

Computer assisted transla0on (CAT -­‐ 2)

N/A
N/A
Protected

Academic year: 2021

Condividi "Computer assisted transla0on (CAT -­‐ 2)"

Copied!
34
0
0

Testo completo

(1)

Computer  assisted  transla0on   (CAT  -­‐  2)  

Cris%na  Bosco  

Informa%ca  applicata  alla   comunicazione  mul%mediale  

2015-­‐2016  

(2)

Cosa  è  una  Memoria  di  Traduzione  

Una  TM  (Transla0on  Memory)  è  un  archivio  di   materiali  linguis0ci,  in  formato  eleBronico,  in   lingua  originale  (LS)  e  tradoBa  (LT).    

È  costruita  da  traduBori  umani  grazie  a  sistemi   di  CAT  ed  organizzata  in  frammen0  di  testo  

deG  Unità  di  Traduzione  (UdiT)  solitamente  di   lunghezza  pari  ad  una  frase.  

(3)

Cosa  è  una  Memoria  di  Traduzione  

I  sistemi  di  ges0one  delle  TM  servono  per  

costruire  ed  ampliare  le  TM  e  per  u0lizzarle.  

Il  risultato  è  di  incrementare  la  produGvità  dl   traduBore  che  non  si  trova  a  tradurre  più  di   una  volta  il  frammento  di  testo  che  ha  

precedentemente  tradoBo,  ma  anche  

l’uniformità  terminologica  e  s0lis0ca  della   traduzione.  

(4)

Cosa  è  una  Memoria  di  Traduzione  

Un  sistema  di  CAT  memorizza  coppie  bilingui   allineate  nella  TM.  

Quando,  nel  corso  della  traduzione,  un  

segmento  di  testo  iden0co  o  simile  ad  uno  

precedentemente  tradoBo  viene  trovato  nella   TM  (match)  ,  il  sistema  ne  propone  la  

traduzione.  

Il  traduBore  può  acceBarla,  modificarla  o   rifiutarla.    

(5)

Come  funziona  una  Memoria  di   Traduzione  

Supponiamo  che  nella  TM  ci  siano  le  seguen0   UdiT:  

 UdiT-­‐1:    Io  mangiavo  ieri  una  pera.    

allineata  con    Yesterday  I  ate  a  pear.  

UdiT-­‐2:      Io  mangio  sovente  una  mela.  

allineata  con  I  o;en  eat  an  apple.  

(se  sono  nella  TM  vuol  dire  che  il  traduBore  le   ha  tradoBe  e  il  sistema  le  ha  allineate)  

(6)

Come  funziona  una  Memoria  di   Traduzione  

Quando  il  traduBore  traduce  la  nuova  frase:  

               Io  mangio  una  mela   Il  sistema  propone:  

               I  o;en  eat  an  apple.  

perché  il  sistema  riconosce  una  somiglianza  tra   la  frase  nuova  e  una  delle  frasi  presen0  nella   TM  (UdiT-­‐2)  e  propone  di  conseguenza  la  

traduzione  di  UdiT-­‐2.  

(7)

Come  funziona  una  Memoria  di   Traduzione  

Quanto  sono  simili  le  UdiT?  

UdiT-­‐1:    Io  mangiavo  ieri  una  pera  (Yesterday  I  ate   a  pear)  

UdiT-­‐2:    Io  mangio    sovente    una    mela  (I  o;en  eat   an  apple)  

Nuova  frase:            Io  mangio  una  mela  

Il  sistema  conta  le  parole  uguali  (2  su  4  per  UdiT-­‐1   e  4  su  4  per  UdiT-­‐2)  e  sceglie  UdiT-­‐2.  

(8)

Come  funziona  una  Memoria  di   Traduzione  

Il  sistema  non  è  in  grado  di  riconoscere  in  cosa   consiste  la  differenza  tra  la  frase  nuova  e  

quella  che  trova  nella  TM  e  di  fare  qualche   considerazione  di  natura  linguis0ca.  

È  solo  un  calcolo  sulle  parole  che  sono  uguali  e   che  sono  diverse  nelle  due  frasi;  se  questo   calcolo  porta  ad  un  risultato  che  supera  la  

soglia  stabilita  dal  traduBore  allora  il  sistema   propone  la  traduzione.  

(9)

Come  funziona  una  Memoria  di   Traduzione  

Se  il  il  sistema  si  basasse  solo  su  exact  match,   sarebbe  in  grado  di  proporre  la  traduzione   solo  quando  la  frase  nuova  è  esaBamente   iden0ca  ad  una  frase  precedentemente   tradoBa  (che  si  trova  nella  MT).  

Ma  poiché  il  sistema  considera  anche  i  fuzzy  

match,  propone  traduzioni  anche  di  frasi  non   iden0che  a  quelle  che  trova  nella  sua  MT,  a   condizione  che  siano  sufficientemente  simili   con  esse.  

(10)

Come  funziona  una  Memoria  di   Traduzione  

I  match  che  vengono  trova0  tra  il  testo  da  tradurre   e  quello  contenuto  nella  TM  non  sono  infaG  solo   quelli  perfeG,  ma  anche  quelli  parziali,  in  accordo   con  le  impostazioni  scelte  dal  traduBore.  

Per  questo  mo0vo  i  sistemi  di  CAT  si  rivelano  u0li   per  tes0  con:  

•         omogeneità  terminologica  

•         omogeneità  fraseologica  

•         frasi  semplici  e  brevi,  poco  ambigue  e  ripe00ve  

(11)

Costruire  una  Memoria  di  Traduzione  

Nel  corso  della  traduzione,  in  un  sistema  di  CAT,   tuBo  il  testo  in  LS  e  la  sua  traduzione  in  LT  

viene  automa0camente  memorizzato  in  forma   allineata  nella  TM  scelta  dal  traduBore.  

È  anche  possibile  importare  altre  TM  o  allineare   tes0  disponibili  in  LS  e  in  LT  u0lizzando  

programmi  apposi0.  

(12)

Costruire  una  Memoria  di  Traduzione  

(13)

Costruire  una  Memoria  di  Traduzione  

(14)

Costruire  una  Memoria  di  Traduzione  

(15)

Ges0re  una  Memoria  di  Traduzione  

Ogni  UdiT  in  una  TM  consiste  in  una  coppia  di  

segmen0  di  testo,  il  segmento  in  LS  e  quello  in   LT,  insieme  a  informazioni  rela0ve  alla  date  di   creazione  e  modifica  dei  segmen0,  alla  

persona  che  ha  creato  o  modificato  il  

segmento,  al  progeBo  e  al  cliente  per  cui   quella  par0colare  UdiT  viene  adoperata.  

Questo  consente  di  filtrare  le  TM  per  future   traduzioni.  

(16)

U0lizzare  una  Memoria  di  Traduzione  

Una  volta  che  si  ha  a  disposizione  una  TM  la  si   u0lizza  durante  il  successivo  lavoro  di  

traduzione  e  si  con0nua  anche  ad  arricchirla.  

Il  sistema  di  CAT  infaG  u0lizza  la  TM  per  

proporre  all’utente  possibili  traduzioni  per  la   nuove  UdiT  da  tradurre,  ma  con0nua  anche  ad   aggiungere  tuBe  le  traduzioni  nuove  che  il  

traduBore  introduce  nel  sistema.  

(17)

U0lizzare  una  Memoria  di  Traduzione  

I  sistemi  di  ges0one  delle  TM  usano  algoritmi   per  la  ricerca  di  corrispondenze  che  si  basano   su  criteri  come  la  somiglianza  tra  stringhe  di   caraBeri.    

La  percentuale  di  somiglianza  viene  impostata   dal  traduBore.  

La  percezione  della  somiglianza  può  però  essere     differente  per  il  sistema  e  il  traduBore.  

(18)

U0lizzare  una  Memoria  di  Traduzione  

I  sistemi  di  ges0one  delle  TM  possono   funzionare  in  due  modi  alterna0vi:  

InteraGvo,  il  testo  da  tradurre  è  mostrato  

suddiviso  in  UdiT  e  il  traduBore  sceglie  quale   UdiT  tradurre,  il  sistema  cerca  il  match  nella   TM  e  produce  di  conseguenza  una  proposta  di   traduzione  

(19)

U0lizzare  una  Memoria  di  Traduzione  

I  sistemi  di  ges0one  delle  TM  possono   funzionare  in  due  modi  alterna0vi:  

Automa0co,  il  sistema  analizza  tuBo  il  testo  e   per  tuBe  le  UdiT  cerca  il  match  nella  TM  e   produce  di  conseguenza  una  proposta  di   traduzione  

(20)

U0lizzare  una  Memoria  di  Traduzione  

Un  sistema  di  CAT  basato  su  TM  risulta  u0le  

perché  evita  di  ripetere  la  traduzione  di  frasi   già  tradoBe,  ma  funziona  bene  sopraBuBo  se   si  ha  a  disposizione  una  TM  di  grandi  

dimensioni.  

(21)

EffeG  nega0vi  di  una  Memoria  di   Traduzione  

L’u0lizzo  di  una  TM  può  anche  avere  

conseguenze  nega0ve  sulla  qualità  della   traduzione:  una  TM  opera  generalmente  a   livello  della  frase  e  il  pericolo  è  che  il  

traduBore  si  concentri  troppo  su  frasi  isolate   trascurando  il  contesto  in  cui  esse  sono  

inserite.  Limita  la  ridistribuzione  del  testo  in   più  frasi.  

(22)

Una  nota  TM  

Una  reale  TM  è  quella  dell’Acquis  

Communautaire,  nota  con  il  nome  di  DGT-­‐TM   (European  Commission's  Directorate-­‐General   for  Transla0on)  e  accessibile  alla  pagina  

hBp://ipsc.jrc.ec.europa.eu/index.php?id=197   resa  disponibile  a  par0re  dal  2007  allo  scopo  di  

supportare  il  mul0linguismo,  la  diversità  

linguis0ca  e  il  riu0lizzo  della  informazioni  della   Commissione.  

(23)

DGT-­‐TM  

L’Acquis  Communautaire  è  l’intero  corpus   legisla0vo  della  Comunità  Europea,  

comprensivo  di  traBa0  regolamen0  e  direGve.  

È  un  corpus  parallelo  tradoBo  nelle  23  lingue   ufficiali  della  Comunità  rappresentate  nelle   seguen0  sezioni:  Bulgarian,  Czech,  Danish,   Dutch,  English,  Estonian,  German,  Greek,   Finnish,  French,  Irish,  Hungarian,  Italian,   Latvian,  Lithuanian,  Maltese,  Polish,  

Portuguese,  Romanian,  Slovak,  Slovene,   Spanish  e  Swedish.  

(24)

DGT-­‐TM  

I  tes0  paralleli,  o  bi-­‐tes0,  sono  prodoG  

manualmente  tramite  traduzione  e  raccol0   nella  DGT-­‐TM  in  forma  di  unità  di  traduzione.  

DGT-­‐TM  è  aBualmente  il  più  grande  corpus  

parallelo  esistente,  per  la  dimensione  e  per  il   numero  di  lingue  che  comprende.  

Il  suo  valore  dipende  però  anche  dal  faBo  che   include  coppie  di  lingue  rare.  

(25)

DGT-­‐TM  

La  prima  release  di  DGT-­‐TM  risale  al  2007  e  

includeva  i  documen0  pubblica0  fino  al  2006.  

La  seconda  release  è  stata  resa  pubblica  nel  

2012  ed  include  i  documen0  dal  2007  al  2010.  

Ogni  anno  viene  rilasciata  una  nuova  release.  

L’allineamento  dei  da0  è  manuale  fino  al  2007,   automa0co  dopo  il  2007.  

Il  formato  dei  da0  è  sempre  Transla0on  Memory   eXchange  (TMX).  

(26)

DGT-­‐TM  

Il  numero  di  unità  di  traduzione  varia  da  una   release  all’altra  e  da  una  lingua  all’altra:  

2007:  19.071.485   2011:  379.963.629   2012:  6.226.855     totale:  63.261.969  

(27)

DGT-­‐TM  

Il  numero  di  unità  di  traduzione  varia  tra  le   diverse  lingue.  

Ad  esempio  la  sezione  Irish  del  corpus,  in   gaelico,  esiste  solo  nell’ul0ma  release  e  

con0ene  2.848  unità  di  traduzione,  mentre  la   sezione  English  in  inglese  con0ene  322.377   unità.  

(28)

DGT-­‐TM  

Il  numero  di  unità  di  traduzione  varia  tra  le   diverse  lingue.  

Ad  esempio  la  sezione  Irish  del  corpus,  in   gaelico,  esiste  solo  nell’ul0ma  release  e  

con0ene  2.848  unità  di  traduzione,  mentre  la   sezione  English  in  inglese  con0ene  322.377   unità.  

(29)

TM  e  forma0  

Il  World  Wide  Web  Consor0um  (W3C),  fondato  nel   1994  per  promuovere  l'interoperabilità  in  Internet,   ha  definito  forma0  di  interscambio  dei  da0  basa0  su   testo  con  marcatori,  deriva0  dal  metalinguaggio  di   marcatura  SGML  (definito  nel  1980).  Dall'SGML  

derivano  HTML  e  XML  (definito  nel  1998).  

Alla  definizione  di  tali  standard  generici  per  il  Web  

seguirono  le  definizioni  di  vari  standard  per  il  seBore   della  traduzione,  basa0  su  XML,  orienta0  a  rendere   compa0bili  e  massimamente  riu0lizzabili  le  risorse   sviluppate.    

(30)

TM  e  forma0  

Sono  sta0  defini0  forma0  standard  per  i  vari  0pi  di  da0   e  risorse  che  i  sistemi  di  CAT  devono  ges0re:  

•  per  le  memorie  di  traduzione:  TMX  (Transla>on   Memory  eXchange),  sviluppato  dal  gruppo  OSCAR   (Open  Standards  for  Container/Content  Allowing  Re-­‐

use),  parte  della  LISA  (Localiza>on  Industry  Standards   Associa>on),  nel  1998,  è  basato  su  XML  ed  è  

supportato  da  pressoché  tuG  gli  strumen0  CAT/TM,   anche  se  non  sempre  in  modo  perfeBamente  

interoperabile.  

(31)

TM  e  forma0  

•  per  la  localizzazione:  XLIFF  (XML  Localisa>on  

Interchange  File  Format),  sviluppato  nel  2003  da   OASIS.  

•  per  la  terminologia  coesistono  aBualmente  vari  

standard,  ognuno  costruito  per  scopi  diversi,  tra  cui:    

– MARTIF  (MAchine-­‐Readable  Terminology  

Interchange  Format),  corrispondente  allo  standard   ISO  12200,  definito  nel  1998  e  basato  su  SGML,   per  l'archiviazione  di  da0  terminologici  basato  sui   conceG  

(32)

TM  e  forma0  

– OLIF  (Open  Lexicon  Interchange  Format),  definito   da  SAP  nel  1999  e  basato  su  XML,  per  descrivere   da0  lessicali  da  u0lizzare  con  sistemi  di  traduzione   automa0ca  

– XLT  (XML  representa>on  of  Lexicons  and  

Terminologies),  definito  da  SALT  (Standards-­‐based   Access  service  to  mul>lingual  Lexicons  and  

Terminologies)  nel  2000  con  l'intento  di  riunire  le   capacità  dei  forma0  MARTIF  E  OLIF  

– TBX  (TermBase  eXchange),  definito  da  OSCAR  nel   2000  e  basato  su  XML.  Il  formato  TBX  è  in  realtà   un'implementazione  dello  standard  XLT.  

(33)

CAT:  sosware  

I  sistemi  di  CAT  offrono  tuG  sostanzialmente  le   stesse  funzionalità.  

Alcuni  strumen0  offrono  al  traduBore  un  ambiente   di  traduzione  proprietario  (Déjà  Vu,  Transit,  SDLX),   altri  si  appoggiano  a  un  editor  di  tes0  esistente,   0picamente  Microsos  Word  (Trados  WorkBench,   Wordfast).  Ques0  ul0mi  consentono  al  traduBore   un  approccio  più  amichevole  con  la  nuova  

tecnologia,  grazie  all'ambiente  di  lavoro  già  in   parte  noto.    

(34)

CAT:  sosware  

I  primi,  d'altro  canto,  offrono  il  vantaggio  di  rendere   del  tuBo  trasparente  per  l'utente  il  processo  di  

conversione  dei  file  da  uno  qualsiasi  dei  forma0   supporta0  all'ambiente  di  lavoro  unificato  e  di   riconversione  al  formato  originale,  nonché  

l'opzione  di  presentare  tuG  i  file  del  progeBo   insieme  in  un'unica  finestra,  come  se  fossero  un   solo  file.  

Riferimenti

Documenti correlati

suddiviso in UdiT e il traduttore sceglie quale UdiT tradurre, il sistema cerca il match nella TM e produce di conseguenza una proposta di traduzione.. Utilizzare una Memoria

L’uso della terminologia corretta e consistente rende la traduzione anche più veloce perché riduce i tempi per la ricerca dei termini... Lessico comune e specialistico. In accordo

[r]

L’idea moderna di sistema consiste invece nel cercare le unità di traduzione uguali per riutilizzarle, e la si trova per la prima volta all’inizio degli anni ‘70, nel

[r]

suddiviso in UdiT e il traduttore sceglie quale UdiT tradurre, il sistema cerca il match nella TM e produce di conseguenza una proposta di traduzione.. Utilizzare una Memoria

[r]

In order to generate such feedback during spine surgery three tasks have to be fulfilled by a spinal navigation system: (a) an image or a set of images of the spine has to be