Il Parallel Turin
University Treebank
Cris%na Bosco – Manuela Informa%ca applicata alla comunicazione mul%mediale
2014-‐2015
ParTUT
ParTUT è il primo treebank parallelo costruito u8lizzando il formato di TUT; lo possiamo definire secondo le seguen8 direzioni:
• composizione e dimensione del corpus
• formato di annotazione
• u8lizzo
• collocazione rispe@o ad altri progeA e risorse
Composizione di ParTUT
A@ualmente ParTUT con8ene frasi derivan8 da 6 diverse fon8:
• Il corpus della CE, JRC-‐Acquis
• Le licenze Crea8ve Commons
• La dichiarazione dei diriA umani
• Il corpus di trascrizioni EUROPARL
• Il corpus web Inventory of Translated Talks (WIT3)
• Porzioni di Wikipedia e Project Syndicate
Dimensione di ParTUT
A@ualmente ParTUT con8ene 3194 frasi che corrispondono a 89191 token.
La media è di 1060 frasi per lingua, ed i tes8 sono così ripar88:
Italiano – 1070 frasi Francese – 1065
Inglese – 1045
Annotazione di ParTUT
Il formato u8lizzato è quello di TUT:
1 Universal (UNIVERSAL ADJ QUALIF ALLVAL ALLVAL) [2;ADJC+QUALIF-‐RMOD]
2 Declara8on (DECLARE NOUN COMMON N SING DECLARE TRANS) [0;TOP-‐NOUN]
3 of (OF PREP MONO) [2;NOUN-‐OBJ]
4 Human (HUMAN ADJ QUALIF ALLVAL ALLVAL) [5;ADJC+QUALIF-‐RMOD]
5 Rights (RIGHT NOUN COMMON N PL) [3;PREP-‐ARG]
Annotazione di ParTUT
Poiché il formato era stato in origine proge@ato per la lingua italiana, per rappresentare alcuni aspeA specifici del francese e dell’inglese è stato necessario arricchirlo.
Tu@avia, essendo la lingua italiana molto ricca dal punto di vista morfologico e sintaAco, gli arricchimen8 necessari sono sta8 molto pochi, ad es. il geni8vo sassone e le esple8ve per
l’inglese.
Annotazione di ParTUT
La procedura applicata per l’annotazione consiste in:
• pretra@amento manuale (conversione dei da8 da altre codifiche in UTF-‐8)
• analisi automa8ca (eseguita da TULE)
• correzione manuale e revisione semiautoma8ca (eseguita con tool sviluppa8 ad hoc)
• conversione in formato ConLL e in Stanford Dependencies
U8lizzo di ParTUT
Un treebank parallelo è una risorsa di
fondamentale importanza per lo sviluppo
dell’NLP in generale e per la MT in par8colare.
Dalla sua analisi è possibile estrarre da8 altrimen8 non rilevabili sul confronto cross-‐linguis8co e
derivarne informazioni importan8 anche per le singole lingue coinvolte.
U8lizzo di ParTUT
Il principale scopo per lo sviluppo di ParTUT è
stato costruito è lo studio dei fenomeni sintaAci delle 3 lingue coinvolte e di come ques8
possono essere messi in parallelo per informare sistemi di MT.
Ma l’allineamento sintaAco è di per se’ un task complesso che deve essere risolto anche in
relazione alla teoria linguis8ca di riferimento ed al formato di rappresentazione ado@ato.
U8lizzo di ParTUT
Per poter parlare di allineamento sintaAco, prima occorre affrontare l’allineamento per parole … potremmo scoprire che l’allineamento sintaAco non ci serve …
È un task più semplice che ci fa intuire le difficoltà dell’allineamento sintaAco … tu@o ciò che non si riesce ad allineare per parola richiede la
costruzione di un allineamento sintaAco.
U8lizzo di ParTUT
Per poter parlare di allineamento sintaAco, occorre aver affrontato i task ad esso
preliminari:
Allineamento per paragrafi Allineamento per frasi
Allineamento per parole
Allineamento per stru@ure sintaAche
U8lizzo di ParTUT
U8lizzo di ParTUT