Traduzione e computer
Cris%na Bosco
Informa%ca applicata alla comunicazione mul%mediale
2015-‐2016
Riflessioni sui primi sistemi
L’assunzione alla base dello sviluppo dei primi sistemi è che l’obie:vo della MT sia o<enere traduzioni di qualità analoga a quella prodo<a dai tradu<ori umani.
Nel contempo non viene minimamente uBlizzata la conoscenza dei tradu<ori umani e chi lavora sulla MT sono solo ingegneri ed informaBci.
Riflessioni sui primi sistemi
Si crea pertanto un clima di osBlità nei confronB della MT da parte di coloro che operano nel se<ore traduzione e temono di perdere il loro lavoro.
L’osBlità è condivisa anche da chi non opera nel se<ore, ma si aspe<a che la ricerca della MT produca quello che aveva promesso.
Tu<o ciò spiega l’effe<o del rapporto ALPAC e il taglio dei fondi che ne consegue.
Riflessioni sui primi sistemi
I primi sistemi vengono sviluppaB negli USA e in URSS con lo scopo di tradurre da inglese a
russo e viceversa.
Il Bpo di documento trado<o è di Bpo tecnico e scienBfico.
Solitamente si tra<a di documenB con un lessico rido<o e controllato per evitare difficoltà di
traduzione dei termini.
Riflessioni sui primi sistemi
L’utenza dei primi sistemi è composta da pochi scienziaB e tecnici preparaB a tollerare le
limitatezze della traduzione automaBca pur di poter accedere a contenuB diversamente non accessibili.
Riflessioni sui primi sistemi
In seguito l’utenza cambia e si amplia, dato che cresce la richiesta di a:vità di traduzione
legata a realtà amministraBve e commerciali.
Si manifesta anche l’interesse per lingue diverse da inglese e russo.
E conseguentemente cambia anche il Bpo di
traduzione che l’utente si aspe<a, di maggiore qualità pur non partendo da tesB controllaB.
Tipi di sistemi e soluzioni
Nel corso della storia della MT sono state
proposte varie strategie, via via più complesse ed efficaci.
Alcuni aspe: restano gli stessi in tu<e le strategie.
Approcci alla MT
In qualunque approccio va ricordato che esiste una separazione ne<a tra algoritmi e base di conoscenza, i.e. tra algoritmo di analisi e
dizionario.
Di conseguenza si ha relaBva indipendenza -‐ dalle lingue coinvolte;
-‐ dei compiB da svolgere;
-‐ degli errori.
Approcci alla MT
Indipendenza
-‐ dalle lingue coinvolte perché l’algoritmo può
essere lo stesso al variare dei daB specifici sulle lingue;
-‐ dei compiB da svolgere perché l’informaBco può occuparsi dell’algoritmo e il linguista dei daB;
-‐ degli errori perché la traduzione può essere errata perché l’algoritmo non fa le cose nel giusto ordine o perché i daB sono erraB o carenB.
Approcci alla MT
In qualunque approccio i dizionari sono risorse fondamentali.
Sono molto ampi (es. nei sistemi a<uali i dizionari includono ~ 15,000 entry generali + altre<ante specifiche), quindi ben organizzaB ed accessibili, di norma in porzioni di accesso frequente e di accesso più raro.
Sono differenB dai dizionari umani (es.
contengono anche informazioni ovvie e quelle relaBve al contesto d’uso).
Approcci alla MT
In qualunque approccio è presente:
-‐ una fase di analisi, in cui il testo in Linguaggio Sorgente (LS) viene scomposto ed analizzato -‐ una fase di sintesi, in cui viene generato il
corrispondente testo in Linguaggio Target (LT)
Approcci alla MT
Si seguono strategie:
-‐ bilingui (che traducono tra una singola coppia di lingue) o mulBlingui (che traducono tra più di due lingue);
-‐ uni-‐direzionali (da una lingua A a una lingua B) o bi-‐direzionali (da una lingua A a una lingua B e viceversa)
-‐ reversibili ed irreversibili
Approcci alla MT
In praBca è molto difficile realizzare un sistema bilingue bi-‐direzionale e reversibile.
Per realizzarlo si abbinano in realtà due sistemi bilingui che operano uno nella direzione
opposta all’altro.
Approcci alla MT
Raramente un sistema mulBlingue consente la traduzione tra tu<e le coppie di lingue che
coinvolge ed in tu<e le direzioni (es. Eurotra).
Teoricamente un sistema mulBlingue comporta una fase di analisi dalla LS sempre uguale
indipendentemente da quella che deve essere la LT, ed una fase di sintesi sempre uguale
indipendentemente da quale è la LS; ma in
praBca un sistema mulBlingue consiste in vari bilingui assemblaB.
EUROTRA
È un proge<o sviluppato dalla CE tra il 1978 e il 1992, poi abbandonato. Al contrario di altri sistemi precedenB di MT EUROTRA non era fondato su dizionari, o su corpora come i
sistemi più recenB. La traduzione iniziava con un parsing a cosBtuenB della lingua sorgente, seguito da un parsing a dipendenze della stessa lingua, per generare una rappresentazione
intermedia che consenBsse il passaggio alla generazione della lingua target.
Approcci alla MT
In che modo un sistema di MT opera per tradurre?
Occorre disBnguere tra due aspe::
• In che modo il sistema acquisisce la conoscenza
• In che modo il sistema elabora i daB di input per produrre l’output
Approcci alla MT
In che modo il sistema acquisisce la conoscenza linguisBca necessaria a tradurre?
• Se è un sistema rule-‐based accede a
conoscenza in forma stru<urata (grammaBca, lessico …) nei suoi database
• Se è un sistema corpus-‐based apprende la conoscenza da corpora di daB dove la
conoscenza non è stru<urata
Approcci alla MT
La conoscenza in forma stru<urata (grammaBca, lessico …) uBlizzata da un sistema rule-‐based è solitamente memorizzata all’interno del
sistema, ma potrebbe anche essere accessibile all’esterno
In ogni caso il sistema è costruito per lavorare con determinata conoscenza e deve essere riprogrammato se la conoscenza cambia (ad es. per un’altra lingua)
Approcci alla MT
La grammaBca ed il lessico sono le basi di conoscenza del sistema.
Nell’approccio rule-‐based esse vengono date in una forma tale per cui il sistema di fronte alla traduzione vi possa accedere per conoscere il significato di parole e frasi.
Approcci alla MT
La conoscenza in forma non stru<urata (corpus) uBlizzata da un sistema corpus-‐based è
memorizzata all’interno del corpus di riferimento del sistema e viene acquisita dal sistema tramite apprendimento staBsBco.
Il sistema è costruito per lavorare con la conoscenza che trova nel corpus, indipendentemente dal
fa<o che la conoscenza possa cambiare (ad es.
per un’altra lingua)
Approcci alla MT
La base di conoscenza nell’approccio corpus-‐
based è il corpus stesso, possibilmente annotato.
Il sistema, per scoprire il significato di parole e frasi, accede al corpus dove trova l’effe<o dell’applicazione delle regole e le relaBve frequenze.
Approcci alla MT
I primi sistemi sono tu: rule-‐based.
Successivamente si sono sviluppaB sistemi corpus-‐based.
Oggi prevale l’approccio corpus-‐based, ma la
maggior parte dei sistemi segue un approccio ibrido in cui alcune parB di conoscenza sono inglobate nelle regole, ed altre sono invece apprese da corpora.
Approcci alla MT
I sistemi si differenziano in base al modo in cui elaborano i daB di input per produrre l’output.
Storicamente sono staB proposB 3 approcci:
• Dire<o
• Indire<o
– Interlingua – Transfer
Approccio dire<o
L’approccio dire=o è stato ado<ato dai primi
sistemi, solitamente bilingui e monodirezionali.
L’analisi lessicale e sinta:ca del testo in LS è
limitata a quello che serve per idenBficare gli equivalenB in LT generando un ordine corre<o delle parole.
Non esiste alcun passo intermedio, dato che
l’elaborazione del testo in LS porta dire<amente al testo in LT.
Approccio dire<o
Approccio dire<o
Analisi morfologica per riconoscere le forme flesse ed i relaBvi lemmi
Accesso al dizionario
Nessuna analisi sinta:ca
Riordinamento dei termini trado: in accordo con quanto prescri<o dalla LT
Il risultato è una traduzione di scarsa qualità il cui output è sinta:camente simile all’input (vedere translaBon shih).
Approccio indire<o: interlingua
L’approccio interlingua consiste nell’analisi del testo in LS, sua traduzione in una interlingua, traduzione dall’interlingua alla LT.
Si assume l’esistenza di una rappresentazione
indipendente da LS e da LT, e da tu<e le lingue naturali. In realtà è molto difficile formulare una interlingua con queste cara<erisBche, anche per lingue simili tra loro.
Approccio indire<o: interlingua
La rappresentazione intermedia deve contenere tu<e le informazioni necessarie per generare il testo in LT, ed è una rappresentazione astra<a del testo in LS.
UBle nei sistemi mulBlingui, ha anche il
vantaggio di consenBre la traduzione da e
verso una stessa lingua (che serve per testare il sistema).
Approccio indire<o: interlingua
Approccio indire<o: interlingua
Nel caso si voglia arricchire il sistema con una nuova LS, basta sviluppare l’analisi che porta da LS a interlingua.
Nel caso si voglia arricchire il sistema con una nuova LT basta sviluppare la generazione di LT a parBre dall’interlingua.
Approccio indire<o: transfer
L’approccio transfer prevede 3 passi:
-‐ la conversione del testo in LS in una
rappresentazione astra<a R-‐LS orientata alle cara<erisBche di LS
-‐ la conversione da R-‐LS ad una
rappresentazione astra<a R-‐LT orientata a LT -‐ la conversione da R-‐LT a LT
Approccio indire<o: transfer
L’approccio transfer non prevede quindi
rappresentazioni indipendenB da LS e da LT:
R-‐LS dipende da LS e R-‐LT dipende da LT.
Nel caso si aggiungano delle lingue, occorre però aggiungere tu: i relaBvi moduli di
elaborazione.
Approccio indire<o: transfer
Approcci alla MT
Nella praBca l’approccio transfer è sovente preferito all’approccio interlingua:
-‐ per la difficoltà di trovare una
rappresentazione indipendente da LS e LT
-‐ per la difficoltà di analisi rivolta all’interlingua e generazione dall’interlingua verso la LT
Problemi linguisBci nella MT
I problemi linguisBci sono essenzialmente dovuB alla presenza di ambiguità nel
linguaggio naturale che sono di 4 Bpi:
Lessicali Stru<urali Contestuali
PragmaBco-‐situazionali
Problemi linguisBci nella MT
In generale si osserva che raramente i
sistemi di MT fanno riferimento a parBcolari teorie linguisBche.
Quando lo fanno sono sistemi piccoli e costruiB allo scopo di testare qualche teoria.
Problemi lessicali
Il lessico e la morfologia sono il primo livello che deve essere tra<ato nell’analisi del testo da
tradurre, ma anche l’ulBmo livello che viene tra<ato nella generazione del corrispondente testo in LT.
Tra i problemi da tra<are:
la gesBone del dizionario, il riconoscimento di parole sconosciute, il tra<amento delle mulB-‐
word, e l’ambiguità.
Problemi lessicali
Ambiguità categoriale e semanBca di termini causano problemi sopra<u<o nella fase di analisi (monolingue)
Es.
omografi: bank >banchina del fiume e isBtuto bancario
polisemici: light > luminescenza, chiaro, leggero,
Problemi lessicali
Ambiguità tradu:ve si presentano quando una parola può essere trado<a in modi differenB a seconda del contesto (bilingue)
Es.
SBlisBche o di registro: domicile (fr) >home o domicile (eng)
grammaBcali: know > conoscere/connaitre/
kennen o sapere/savoir/wissen
Problemi sinta:ci
Problemi sinta:ci, sovente in abbinamento con quelli lessicali:
Es.
to know > connaitre, kennen (conoscenza di un fa<o)
savoir, wissen (avere una competenza)
I know the man – Je connais l’homme -‐ Ich kenne den Mann
I know what he is called – Je sais ce qu’il s’appelle – Ich weiss wie er heisst
Problemi sinta:ci e contestuali
Problemi di risoluzione di anafore:
The soldiers killed the women. They were buried next day.
Il pronome sogge<o della seconda frase (They) si riferisce a (the women).
Come fa il sistema di traduzione a risolvere questa anafora e a capire che il riferimento non è invece a The soldiers?
Problemi sinta:ci e contestuali
Problemi di risoluzione di anafore:
The soldiers killed the women. They were buried next day.
La conoscenza del fa<o che quello che si
seppellisce sono solitamente i morB, consente di idenBficare “they” con “the women”.
Problemi sinta:ci e contestuali
Problemi di risoluzione di anafore:
The soldiers killed the women. They were buried next day.
Se la traduzione ha come LT una lingua in cui la parola che traduce soldiers non è dello stesso
genere della parola che traduce women, allora la soluzione dell’anafora è fondamentale per la
traduzione.
Es. traducendo in francese (elles e non ils) o italiano (esse invece di essi).
Problemi sinta:ci e contestuali
Problemi di conoscenza del mondo:
John al supermercato e me>e una sapone>a nel suo ces?no. Vede su uno scaffale una barre>a di cioccolato e sovrappensiero la me>e in
tasca, ma quando arriva alla cassa arrossisce e dice “Non intendevo rubarla”.
Come facciamo a costruire un sistema che
contenga tanta conoscenza da consenBre di idenBficare “la” (di rubarla) con “barre>a”
invece che con “sapone>a”?
Problemi sinta:ci e contestuali
Problemi di espressioni idiomaBche:
It rains cats and dogs
non può essere trado<o in Italiano con Piovono gaG e cani
o in francese con
Il pleut chats and chiens
Espressioni idiomaBche
Il problema delle espressioni idiomaBche o locuBve è duplice:
-‐ non può esistere una lista delle espressioni per ogni lingua da tra<are perchè esse non formano una classe chiusa
-‐ a seconda del contesto deve essere applicata per queste espressioni una interpretazione composizionale o non composizionale
Espressioni idiomaBche
Perchè le espressioni idiomaBche non formano una classe chiusa?
-‐ perchè l’idiomaBcità non è idenBficabile tramite criteri determinisBci
-‐ la percezione delle espressioni come
idiomaBche da parte dei parlanB è sfumata
Espressioni idiomaBche
Perchè le espressioni idiomaBche non formano una classe chiusa?
-‐ Es.: “Tu=’al più si può accennare a qualche possibilità di sviluppo per le sedi fuori
dall’Italia”, “Non si %ene conto della storia della Repubblica Italiana”.
Espressioni idiomaBche
E nei treebank le espressioni idiomaBche?
di solito sono segnalate, in modo da impedirne successive analisi composizionali
In TUT si segnalano anche le differenze tra espressioni più o meno composizionali dividendole in 2 classi:
-‐ Locuzioni rigide (come Bra l’acqua al suo mulino) con interpretazione non composizionale
-‐ Locuzioni flessibili (come ha nulla a che fare con) con interpretazione composizionale
Espressioni idiomaBche
Per disBnguere le classi di espressioni rigide e flessibili occorre:
-‐ stabilire un criterio per disBnguere le
espressioni rigide, che stanno nella prima classe, da quelle flessibili, che stanno nella seconda
-‐ definire una rappresentazione differente per le espressioni rigide e per quelle flessibili
Espressioni idiomaBche
Es. espressione rigida:
1 Tu<' (|TUTT'_AL_PIÙ| ADV MANNER
LOCUTION) [5;ADVB-‐RMOD-‐CONJTEXT]
2 al (|TUTT'_AL_PIÙ| ADV MANNER LOCUTION) [1;CONTIN+LOCUT]
3 più (|TUTT'_AL_PIÙ| ADV MANNER LOCUTION) [2;CONTIN+LOCUT]
Espressioni idiomaBche
Es. espressione flessibile:
... 3 Bene (TENERE VERB MAIN IND PRES TRANS 3 SING) [0;TOP-‐VERB]
4 conto (CONTO NOUN COMMON M SING) [3;VERB-‐OBJ*LOCUT]
Espressioni idiomaBche e MT
Tra i tradu<ori online più uBlizzaB:
SYSTRAN:
h<p://www.systranet.com/translate/
GOOGLE TRANSLATE:
h<ps://translate.google.com/
Espressioni idiomaBche e MT
Come si comporta SYSTRAN con le espressioni idiomaBche?
S: Si è salvato per il ro<o della cuffia T: It has been saved by the skin of teeth S: It has been saved by the skin of teeth T: È stato conservato dalla pelle dei den?
Espressioni idiomaBche e MT
Come si comporta SYSTRAN con le espressioni idiomaBche?
S: Piove a diro<o
T: It rains excessively
S: It rains cats and dogs T: Piove i gaG ed i cani
Espressioni idiomaBche e MT
Come si comporta GOOGLE TRANSLATE con le espressioni idiomaBche?
S: Si è salvato per il ro<o della cuffia T: You saved the skin of your teeth
S: You saved the skin of your teeth
T: (2015) È stato salvato il ro>o della cuffia (2016) Hai salvato la pelle dei den?
Espressioni idiomaBche e MT
Come si comporta GOOGLE TRANSLATE con le espressioni idiomaBche?
S: Piove a diro<o T: (2015) Rains
(2016) It's raining cats and dogs
S: It’s raining cats and dogs T: (2015) Piove gaG e cani (2017) Piove a secchiate
MT e problemi
Perchè i sistemi di MT incontrano quesB problemi?
Ce<e fille et jolie
Questa ragazza è abbastanza
Jolie > pre<y > carino/abbastanza (ora CORRETTO!)
Je pense que vous avez un president magnifique
Penso che tu abbia una bella sedia (ora CORRETTO!) President > chair > presidente/sedia
Penso che tu abbia una meravigliosa presidente
MT e problemi
Perchè i sistemi di MT incontrano quesB problemi?
Hai fa<o un compito terrificante
Vous avez fait un travail formidable (2015) Vous avez fait un excellent travail (2017) Terrificante > terrific > formidable
(you did a terrific job) Ils pleut des cordes
It rains cats and dogs (ora corre<o in It’s pouring)