• Non ci sono risultati.

Traduzione e computer

N/A
N/A
Protected

Academic year: 2021

Condividi "Traduzione e computer"

Copied!
59
0
0

Testo completo

(1)

Traduzione e computer

Cristina Bosco

Informatica applicata alla comunicazione multimediale

2015-2016

(2)

Riflessioni sui primi sistemi

L’assunzione alla base dello sviluppo dei primi sistemi è che l’obiettivo della MT sia ottenere traduzioni di qualità analoga a quella prodotta dai traduttori umani.

Nel contempo non viene minimamente utilizzata la conoscenza dei traduttori umani e chi lavora sulla MT sono solo ingegneri ed informatici.

(3)

Riflessioni sui primi sistemi

Si crea pertanto un clima di ostilità nei confronti della MT da parte di coloro che operano nel settore traduzione e temono di perdere il loro lavoro.

L’ostilità è condivisa anche da chi non opera nel settore, ma si aspetta che la ricerca della MT produca quello che aveva promesso.

Tutto ciò spiega l’effetto del rapporto ALPAC e il taglio dei fondi che ne consegue.

(4)

Riflessioni sui primi sistemi

I primi sistemi vengono sviluppati negli USA e in URSS con lo scopo di tradurre da inglese a

russo e viceversa.

Il tipo di documento tradotto è di tipo tecnico e scientifico.

Solitamente si tratta di documenti con un lessico ridotto e controllato per evitare difficoltà di

traduzione dei termini.

(5)

Riflessioni sui primi sistemi

L’utenza dei primi sistemi è composta da pochi scienziati e tecnici preparati a tollerare le

limitatezze della traduzione automatica pur di poter accedere a contenuti diversamente non accessibili.

(6)

Riflessioni sui primi sistemi

In seguito l’utenza cambia e si amplia, dato che cresce la richiesta di attività di traduzione

legata a realtà amministrative e commerciali.

Si manifesta anche l’interesse per lingue diverse da inglese e russo.

E conseguentemente cambia anche il tipo di

traduzione che l’utente si aspetta, di maggiore qualità pur non partendo da testi controllati.

(7)

Tipi di sistemi e soluzioni

Nel corso della storia della MT sono state

proposte varie strategie, via via più complesse ed efficaci.

Alcuni aspetti restano gli stessi in tutte le strategie.

(8)

Approcci alla MT

In qualunque approccio va ricordato che esiste una separazione netta tra algoritmi e base di conoscenza, i.e. tra algoritmo di analisi e

dizionario.

Di conseguenza si ha relativa indipendenza - dalle lingue coinvolte;

- dei compiti da svolgere;

- degli errori.

(9)

Approcci alla MT

Indipendenza

- dalle lingue coinvolte perché l’algoritmo può

essere lo stesso al variare dei dati specifici sulle lingue;

- dei compiti da svolgere perché l’informatico può occuparsi dell’algoritmo e il linguista dei dati;

- degli errori perché la traduzione può essere errata perché l’algoritmo non fa le cose nel giusto

ordine o perché i dati sono errati o carenti.

(10)

Approcci alla MT

In qualunque approccio i dizionari sono risorse fondamentali.

Sono molto ampi (es. nei sistemi attuali i dizionari includono ~ 15,000 entry generali + altrettante specifiche), quindi ben organizzati ed accessibili, di norma in porzioni di accesso frequente e di accesso più raro.

Sono differenti dai dizionari umani (es. contengono anche informazioni ovvie e quelle relative al

contesto d’uso).

(11)

Approcci alla MT

In qualunque approccio è presente:

- una fase di analisi, in cui il testo in Linguaggio Sorgente (LS) viene scomposto ed analizzato - una fase di sintesi, in cui viene generato il

corrispondente testo in Linguaggio Target (LT)

(12)

Approcci alla MT

Si seguono strategie:

- bilingui (che traducono tra una singola coppia di lingue) o multilingui (che traducono tra più di due lingue);

- uni-direzionali (da una lingua A a una lingua B) o bi-direzionali (da una lingua A a una lingua B e viceversa)

- reversibili ed irreversibili

(13)

Approcci alla MT

In pratica è molto difficile realizzare un sistema bilingue bi-direzionale e reversibile.

Per realizzarlo si abbinano in realtà due sistemi bilingui che operano uno nella direzione

opposta all’altro.

(14)

Approcci alla MT

Raramente un sistema multilingue consente la traduzione tra tutte le coppie di lingue che coinvolge ed in tutte le direzioni (es. Eurotra).

Teoricamente un sistema multilingue comporta una fase di analisi dalla LS sempre uguale

indipendentemente da quella che deve essere la LT, ed una fase di sintesi sempre uguale

indipendentemente da quale è la LS; ma in

pratica un sistema multilingue consiste in vari bilingui assemblati.

(15)

EUROTRA

È un progetto sviluppato dalla CE tra il 1978 e il 1992, poi abbandonato. Al contrario di altri sistemi precedenti di MT EUROTRA non era fondato su dizionari, o su corpora come i

sistemi più recenti. La traduzione iniziava con un parsing a costituenti della lingua sorgente, seguito da un parsing a dipendenze della stessa lingua, per generare una rappresentazione

intermedia che consentisse il passaggio alla generazione della lingua target.

(16)

Approcci alla MT

In che modo un sistema di MT opera per tradurre?

Occorre distinguere tra due aspetti:

• In che modo il sistema acquisisce la conoscenza

• In che modo il sistema elabora i dati di input per produrre l’output

(17)

Approcci alla MT

In che modo il sistema acquisisce la conoscenza linguistica necessaria a tradurre?

• Se è un sistema rule-based accede a

conoscenza in forma strutturata (grammatica, lessico …) nei suoi database

• Se è un sistema corpus-based apprende la conoscenza da corpora di dati dove la

conoscenza non è strutturata

(18)

Approcci alla MT

La conoscenza in forma strutturata (grammatica, lessico …) utilizzata da un sistema rule-based è solitamente memorizzata all’interno del

sistema, ma potrebbe anche essere accessibile all’esterno

In ogni caso il sistema è costruito per lavorare con determinata conoscenza e deve essere riprogrammato se la conoscenza cambia (ad es. per un’altra lingua)

(19)

Approcci alla MT

La grammatica ed il lessico sono le basi di conoscenza del sistema.

Nell’approccio rule-based esse vengono date in una forma tale per cui il sistema di fronte alla traduzione vi possa accedere per conoscere il significato di parole e frasi.

(20)

Approcci alla MT

La conoscenza in forma non strutturata (corpus) utilizzata da un sistema corpus-based è

memorizzata all’interno del corpus di riferimento del sistema e viene acquisita dal sistema tramite apprendimento statistico.

Il sistema è costruito per lavorare con la conoscenza che trova nel corpus, indipendentemente dal

fatto che la conoscenza possa cambiare (ad es.

per un’altra lingua)

(21)

Approcci alla MT

La base di conoscenza nell’approccio corpus- based è il corpus stesso, possibilmente

annotato.

Il sistema, per scoprire il significato di parole e frasi, accede al corpus dove trova l’effetto dell’applicazione delle regole e le relative frequenze.

(22)

Approcci alla MT

I primi sistemi sono tutti rule-based.

Successivamente si sono sviluppati sistemi corpus-based.

Oggi prevale l’approccio corpus-based, ma la

maggior parte dei sistemi segue un approccio ibrido in cui alcune parti di conoscenza sono inglobate nelle regole, ed altre sono invece apprese da corpora.

(23)

Approcci alla MT

I sistemi si differenziano in base al modo in cui elaborano i dati di input per produrre l’output.

Storicamente sono stati proposti 3 approcci:

• Diretto

• Indiretto

– Interlingua – Transfer

(24)

Approccio diretto

L’approccio diretto è stato adottato dai primi

sistemi, solitamente bilingui e monodirezionali.

L’analisi lessicale e sintattica del testo in LS è

limitata a quello che serve per identificare gli equivalenti in LT generando un ordine corretto delle parole.

Non esiste alcun passo intermedio, dato che

l’elaborazione del testo in LS porta direttamente al testo in LT.

(25)

Approccio diretto

(26)

Approccio diretto

Analisi morfologica per riconoscere le forme flesse ed i relativi lemmi

Accesso al dizionario

Nessuna analisi sintattica

Riordinamento dei termini tradotti in accordo con quanto prescritto dalla LT

Il risultato è una traduzione di scarsa qualità il cui output è sintatticamente simile all’input

(vedere translation shift).

(27)

Approccio indiretto: interlingua

L’approccio interlingua consiste nell’analisi del testo in LS, sua traduzione in una interlingua, traduzione dall’interlingua alla LT.

Si assume l’esistenza di una rappresentazione

indipendente da LS e da LT, e da tutte le lingue naturali. In realtà è molto difficile formulare una interlingua con queste caratteristiche, anche per lingue simili tra loro.

(28)

Approccio indiretto: interlingua

La rappresentazione intermedia deve contenere tutte le informazioni necessarie per generare il testo in LT, ed è una rappresentazione astratta del testo in LS.

Utile nei sistemi multilingui, ha anche il

vantaggio di consentire la traduzione da e

verso una stessa lingua (che serve per testare il sistema).

(29)

Approccio indiretto: interlingua

(30)

Approccio indiretto: interlingua

Nel caso si voglia arricchire il sistema con una nuova LS, basta sviluppare l’analisi che porta da LS a interlingua.

Nel caso si voglia arricchire il sistema con una nuova LT basta sviluppare la generazione di LT a partire dall’interlingua.

(31)

Approccio indiretto: transfer

L’approccio transfer prevede 3 passi:

- la conversione del testo in LS in una

rappresentazione astratta R-LS orientata alle caratteristiche di LS

- la conversione da R-LS ad una

rappresentazione astratta R-LT orientata a LT - la conversione da R-LT a LT

(32)

Approccio indiretto: transfer

L’approccio transfer non prevede quindi

rappresentazioni indipendenti da LS e da LT:

R-LS dipende da LS e R-LT dipende da LT.

Nel caso si aggiungano delle lingue, occorre però aggiungere tutti i relativi moduli di

elaborazione.

(33)

Approccio indiretto: transfer

(34)

Approcci alla MT

Nella pratica l’approccio transfer è sovente preferito all’approccio interlingua:

- per la difficoltà di trovare una

rappresentazione indipendente da LS e LT

- per la difficoltà di analisi rivolta all’interlingua e generazione dall’interlingua verso la LT

(35)

Problemi linguistici nella MT

I problemi linguistici sono essenzialmente dovuti alla presenza di ambiguità nel

linguaggio naturale che sono di 4 tipi:

Lessicali Strutturali Contestuali

Pragmatico-situazionali

(36)

Problemi linguistici nella MT

In generale si osserva che raramente i

sistemi di MT fanno riferimento a particolari teorie linguistiche.

Quando lo fanno sono sistemi piccoli e costruiti allo scopo di testare qualche teoria.

(37)

Problemi lessicali

Il lessico e la morfologia sono il primo livello che deve essere trattato nell’analisi del testo da

tradurre, ma anche l’ultimo livello che viene trattato nella generazione del corrispondente testo in LT.

Tra i problemi da trattare:

la gestione del dizionario, il riconoscimento di parole sconosciute, il trattamento delle multi- word, e l’ambiguità.

(38)

Problemi lessicali

Ambiguità categoriale e semantica di termini causano problemi soprattutto nella fase di analisi (monolingue)

Es.

omografi: bank >banchina del fiume e istituto bancario

polisemici: light > luminescenza, chiaro, leggero,

(39)

Problemi lessicali

Ambiguità traduttive si presentano quando una parola può essere tradotta in modi differenti a seconda del contesto (bilingue)

Es.

Stilistiche o di registro: domicile (fr) >home o domicile (eng)

grammaticali: know >

conoscere/connaitre/kennen o sapere/savoir/wissen

(40)

Problemi sintattici

Problemi sintattici, sovente in abbinamento con quelli lessicali:

Es.

to know > connaitre, kennen (conoscenza di un fatto)

savoir, wissen (avere una competenza)

I know the man – Je connais l’homme - Ich kenne den Mann

I know what he is called – Je sais ce qu’il s’appelle – Ich weiss wie er heisst

(41)

Problemi sintattici e contestuali

Problemi di risoluzione di anafore:

The soldiers killed the women. They were buried next day.

Il pronome soggetto della seconda frase (They) si riferisce a (the women).

Come fa il sistema di traduzione a risolvere questa anafora e a capire che il riferimento non è invece a The soldiers?

(42)

Problemi sintattici e contestuali

Problemi di risoluzione di anafore:

The soldiers killed the women. They were buried next day.

La conoscenza del fatto che quello che si

seppellisce sono solitamente i morti, consente di identificare “they” con “the women”.

(43)

Problemi sintattici e contestuali

Problemi di risoluzione di anafore:

The soldiers killed the women. They were buried next day.

Se la traduzione ha come LT una lingua in cui la parola che traduce soldiers non è dello stesso

genere della parola che traduce women, allora la soluzione dell’anafora è fondamentale per la

traduzione.

Es. traducendo in francese (elles e non ils) o italiano (esse invece di essi).

(44)

Problemi sintattici e contestuali

Problemi di conoscenza del mondo:

John al supermercato e mette una saponetta nel suo cestino. Vede su uno scaffale una barretta di cioccolato e sovrappensiero la mette in

tasca, ma quando arriva alla cassa arrossisce e dice “Non intendevo rubarla”.

Come facciamo a costruire un sistema che

contenga tanta conoscenza da consentire di identificare “la” (di rubarla) con “barretta”

invece che con “saponetta”?

(45)

Problemi sintattici e contestuali

Problemi di espressioni idiomatiche:

It rains cats and dogs

non può essere tradotto in Italiano con Piovono gatti e cani

o in francese con

Il pleut chats and chiens

(46)

Espressioni idiomatiche

Il problema delle espressioni idiomatiche o locutive è duplice:

- non può esistere una lista delle espressioni per ogni lingua da trattare perchè esse non formano una classe chiusa

- a seconda del contesto deve essere applicata per queste espressioni una interpretazione composizionale o non composizionale

(47)

Espressioni idiomatiche

Perchè le espressioni idiomatiche non formano una classe chiusa?

- perchè l’idiomaticità non è identificabile tramite criteri deterministici

- la percezione delle espressioni come

idiomatiche da parte dei parlanti è sfumata

(48)

Espressioni idiomatiche

Perchè le espressioni idiomatiche non formano una classe chiusa?

- Es.: “Tutt’al più si può accennare a qualche possibilità di sviluppo per le sedi fuori

dall’Italia”, “Non si tiene conto della storia della Repubblica Italiana”.

(49)

Espressioni idiomatiche

E nei treebank le espressioni idiomatiche?

di solito sono segnalate, in modo da impedirne successive analisi composizionali

In TUT si segnalano anche le differenze tra espressioni più o meno composizionali dividendole in 2 classi:

- Locuzioni rigide (come tira l’acqua al suo mulino) con interpretazione non composizionale

- Locuzioni flessibili (come ha nulla a che fare con) con interpretazione composizionale

(50)

Espressioni idiomatiche

Per distinguere le classi di espressioni rigide e flessibili occorre:

- stabilire un criterio per distinguere le

espressioni rigide, che stanno nella prima classe, da quelle flessibili, che stanno nella seconda

- definire una rappresentazione differente per le espressioni rigide e per quelle flessibili

(51)

Espressioni idiomatiche

Es. espressione rigida:

1 Tutt' (|TUTT'_AL_PIÙ| ADV MANNER

LOCUTION) [5;ADVB-RMOD-CONJTEXT]

2 al (|TUTT'_AL_PIÙ| ADV MANNER LOCUTION) [1;CONTIN+LOCUT]

3 più (|TUTT'_AL_PIÙ| ADV MANNER LOCUTION) [2;CONTIN+LOCUT]

(52)

Espressioni idiomatiche

Es. espressione flessibile:

... 3 tiene (TENERE VERB MAIN IND PRES TRANS 3 SING) [0;TOP-VERB]

4 conto (CONTO NOUN COMMON M SING) [3;VERB-OBJ*LOCUT]

(53)

Espressioni idiomatiche e MT

Tra i traduttori online più utilizzati:

SYSTRAN:

http://www.systranet.com/translate/

GOOGLE TRANSLATE:

https://translate.google.com/

(54)

Espressioni idiomatiche e MT

Come si comporta SYSTRAN con le espressioni idiomatiche?

S: Si è salvato per il rotto della cuffia T: It has been saved by the skin of teeth

S: It has been saved by the skin of teeth T: È stato conservato dalla pelle dei denti

(55)

Espressioni idiomatiche e MT

Come si comporta SYSTRAN con le espressioni idiomatiche?

S: Piove a dirotto

T: It rains excessively

S: It rains cats and dogs T: Piove i gatti ed i cani

(56)

Espressioni idiomatiche e MT

Come si comporta GOOGLE TRANSLATE con le espressioni idiomatiche?

S: Si è salvato per il rotto della cuffia T: You saved the skin of your teeth

S: You saved the skin of your teeth

T: (2015) È stato salvato il rotto della cuffia (2016) Hai salvato la pelle dei denti

(57)

Espressioni idiomatiche e MT

Come si comporta GOOGLE TRANSLATE con le espressioni idiomatiche?

S: Piove a dirotto T: (2015) Rains

(2016) It's raining cats and dogs

S: It’s raining cats and dogs T: (2015) Piove gatti e cani (2017) Piove a secchiate

(58)

MT e problemi

Perchè i sistemi di MT incontrano questi problemi?

Cette fille et jolie

Questa ragazza è abbastanza

Jolie > pretty > carino/abbastanza (ora CORRETTO!)

Je pense que vous avez un president magnifique

Penso che tu abbia una bella sedia (ora CORRETTO!) President > chair > presidente/sedia

Penso che tu abbia una meravigliosa presidente

(59)

MT e problemi

Perchè i sistemi di MT incontrano questi problemi?

Hai fatto un compito terrificante

Vous avez fait un travail formidable (2015) Vous avez fait un excellent travail (2017) Terrificante > terrific > formidable

(you did a terrific job) Ils pleut des cordes

It rains cats and dogs (ora corretto in It’s pouring)

Riferimenti

Documenti correlati

Le informazioni sul patrimonio archeologico sommerso di età antica in ambito toscano sono state dedotte dallo studio della letteratura, specifica e talvolta anche

Per quanto riguarda il primo dei due aspetti, si è cercato di ovviarvi elaborando, quando necessario, oltre alle proposte stesse, anche delle linee guide per la futura

Un progetto del piano di e-government regionale, finanziato nell'ambito del Patto di Sviluppo del Sistema Piemonte e inserito nei documenti di programmazione regionale, che

[r]

valutare la qualità della traduzione e il compito di valutare è affidato ad un gruppo di esperti umani che leggono il testo originale e quello tradotto e li confrontano.

[r]

•Gravità superficiale: 38% della Terra, circa come

• Gravità superficiale: 38% della Terra, circa come