Il Parallel Turin
University Treebank
Cristina Bosco – Manuela Sanguinet
Informatica applicata alla comunicazione multimediale
2016-2017
ParTUT
ParTUT è il primo treebank parallelo costruito utilizzando il formato di TUT; lo possiamo definire secondo le seguenti direzioni:
• composizione e dimensione del corpus
• formato di annotazione
• utilizzo
• collocazione rispetto ad altri progetti e risorse
Composizione di ParTUT
Attualmente ParTUT contiene frasi derivanti da 6 diverse fonti:
• Il corpus della CE, JRC-Acquis
• Le licenze Creative Commons
• La dichiarazione dei diritti umani
• Il corpus di trascrizioni EUROPARL
• Il corpus web Inventory of Translated Talks (WIT3)
• Porzioni di Wikipedia e Project Syndicate
Dimensione di ParTUT
Attualmente ParTUT contiene 3194 frasi che corrispondono a 89191 token.
La media è di 1060 frasi per lingua, ed i testi sono così ripartiti:
Italiano – 1070 frasi Francese – 1065
Inglese – 1045
Annotazione di ParTUT
Il formato utilizzato è quello di TUT:
1 Universal (UNIVERSAL ADJ QUALIF ALLVAL ALLVAL) [2;ADJC+QUALIF-RMOD]
2 Declaration (DECLARE NOUN COMMON N SING DECLARE TRANS) [0;TOP-NOUN]
3 of (OF PREP MONO) [2;NOUN-OBJ]
4 Human (HUMAN ADJ QUALIF ALLVAL ALLVAL) [5;ADJC+QUALIF-RMOD]
5 Rights (RIGHT NOUN COMMON N PL) [3;PREP-ARG]
Annotazione di ParTUT
Poiché il formato era stato in origine progettato per la lingua italiana, per rappresentare alcuni aspetti specifici del francese e dell’inglese è stato necessario arricchirlo.
Tuttavia, essendo la lingua italiana molto ricca dal punto di vista morfologico e sintattico, gli
arricchimenti necessari sono stati molto pochi, ad es. il genitivo sassone e le espletive per
l’inglese.
Annotazione di ParTUT
La procedura applicata per l’annotazione consiste in:
• pretrattamento manuale (conversione dei dati da altre codifiche in UTF-8)
• analisi automatica (eseguita da TULE)
• correzione manuale e revisione semiautomatica (eseguita con tool sviluppati ad hoc)
• conversione in formato ConLL e in Stanford Dependencies
Utilizzo di ParTUT
Un treebank parallelo è una risorsa di
fondamentale importanza per lo sviluppo
dell’NLP in generale e per la MT in particolare.
Dalla sua analisi è possibile estrarre dati altrimenti non rilevabili sul confronto cross-linguistico e
derivarne informazioni importanti anche per le singole lingue coinvolte.
Utilizzo di ParTUT
Il principale scopo per lo sviluppo di ParTUT è stato costruito è lo studio dei fenomeni sintattici delle 3 lingue coinvolte e di come questi possono essere messi in parallelo per informare sistemi di MT.
Ma l’allineamento sintattico è di per se’ un task complesso che deve essere risolto anche in
relazione alla teoria linguistica di riferimento ed al formato di rappresentazione adottato.
Utilizzo di ParTUT
Per poter parlare di allineamento sintattico, prima occorre affrontare l’allineamento per parole …
potremmo scoprire che l’allineamento sintattico non ci serve …
È un task più semplice che ci fa intuire le difficoltà
dell’allineamento sintattico … tutto ciò che non si riesce ad allineare per parola richiede la costruzione di un
allineamento sintattico.
Utilizzo di ParTUT
Per poter parlare di allineamento sintattico, occorre aver affrontato i task ad esso preliminari:
Allineamento per paragrafi Allineamento per frasi
Allineamento per parole
Allineamento per strutture sintattiche
Utilizzo di ParTUT
Utilizzo di ParTUT