Il Parallel Turin University Treebank

(1)

Il Parallel Turin

University Treebank

Cristina Bosco – Manuela Sanguinet

Informatica applicata alla comunicazione multimediale

2016-2017

(2)

ParTUT

ParTUT è il primo treebank parallelo costruito utilizzando il formato di TUT; lo possiamo definire secondo le seguenti direzioni:

• composizione e dimensione del corpus

• formato di annotazione

• utilizzo

• collocazione rispetto ad altri progetti e risorse

(3)

Composizione di ParTUT

Attualmente ParTUT contiene frasi derivanti da 6 diverse fonti:

• Il corpus della CE, JRC-Acquis

• Le licenze Creative Commons

• La dichiarazione dei diritti umani

• Il corpus di trascrizioni EUROPARL

• Il corpus web Inventory of Translated Talks (WIT3)

• Porzioni di Wikipedia e Project Syndicate

(4)

Dimensione di ParTUT

Attualmente ParTUT contiene 3194 frasi che corrispondono a 89191 token.

La media è di 1060 frasi per lingua, ed i testi sono così ripartiti:

Italiano – 1070 frasi Francese – 1065

Inglese – 1045

(5)

Annotazione di ParTUT

Il formato utilizzato è quello di TUT:

1 Universal (UNIVERSAL ADJ QUALIF ALLVAL ALLVAL) [2;ADJC+QUALIF-RMOD]

2 Declaration (DECLARE NOUN COMMON N SING DECLARE TRANS) [0;TOP-NOUN]

3 of (OF PREP MONO) [2;NOUN-OBJ]

4 Human (HUMAN ADJ QUALIF ALLVAL ALLVAL) [5;ADJC+QUALIF-RMOD]

5 Rights (RIGHT NOUN COMMON N PL) [3;PREP-ARG]

(6)

(7)

(8)

Poiché il formato era stato in origine progettato per la lingua italiana, per rappresentare alcuni aspetti specifici del francese e dell’inglese è stato necessario arricchirlo.

Tuttavia, essendo la lingua italiana molto ricca dal punto di vista morfologico e sintattico, gli

arricchimenti necessari sono stati molto pochi, ad es. il genitivo sassone e le espletive per

l’inglese.

(9)

(10)

La procedura applicata per l’annotazione consiste in:

• pretrattamento manuale (conversione dei dati da altre codifiche in UTF-8)

• analisi automatica (eseguita da TULE)

• correzione manuale e revisione semiautomatica (eseguita con tool sviluppati ad hoc)

• conversione in formato ConLL e in Stanford Dependencies

(11)

Utilizzo di ParTUT

Un treebank parallelo è una risorsa di

fondamentale importanza per lo sviluppo

dell’NLP in generale e per la MT in particolare.

Dalla sua analisi è possibile estrarre dati altrimenti non rilevabili sul confronto cross-linguistico e

derivarne informazioni importanti anche per le singole lingue coinvolte.

(12)

Utilizzo di ParTUT

Il principale scopo per lo sviluppo di ParTUT è stato costruito è lo studio dei fenomeni sintattici delle 3 lingue coinvolte e di come questi possono essere messi in parallelo per informare sistemi di MT.

Ma l’allineamento sintattico è di per se’ un task complesso che deve essere risolto anche in

relazione alla teoria linguistica di riferimento ed al formato di rappresentazione adottato.

(13)

Utilizzo di ParTUT

Per poter parlare di allineamento sintattico, prima occorre affrontare l’allineamento per parole …

potremmo scoprire che l’allineamento sintattico non ci serve …

È un task più semplice che ci fa intuire le difficoltà

dell’allineamento sintattico … tutto ciò che non si riesce ad allineare per parola richiede la costruzione di un

allineamento sintattico.

(14)

Utilizzo di ParTUT

Per poter parlare di allineamento sintattico, occorre aver affrontato i task ad esso preliminari:

Allineamento per paragrafi Allineamento per frasi

Allineamento per parole

Allineamento per strutture sintattiche

(15)

Utilizzo di ParTUT

(16)

Utilizzo di ParTUT