• Non ci sono risultati.

Il Parallel Turin University Treebank

N/A
N/A
Protected

Academic year: 2021

Condividi "Il Parallel Turin University Treebank"

Copied!
16
0
0

Testo completo

(1)

Il Parallel Turin

University Treebank

Cristina Bosco – Manuela Sanguinet

Informatica applicata alla comunicazione multimediale

2016-2017

(2)

ParTUT

ParTUT è il primo treebank parallelo costruito utilizzando il formato di TUT; lo possiamo definire secondo le seguenti direzioni:

• composizione e dimensione del corpus

• formato di annotazione

• utilizzo

• collocazione rispetto ad altri progetti e risorse

(3)

Composizione di ParTUT

Attualmente ParTUT contiene frasi derivanti da 6 diverse fonti:

• Il corpus della CE, JRC-Acquis

• Le licenze Creative Commons

• La dichiarazione dei diritti umani

• Il corpus di trascrizioni EUROPARL

• Il corpus web Inventory of Translated Talks (WIT3)

• Porzioni di Wikipedia e Project Syndicate

(4)

Dimensione di ParTUT

Attualmente ParTUT contiene 3194 frasi che corrispondono a 89191 token.

La media è di 1060 frasi per lingua, ed i testi sono così ripartiti:

Italiano – 1070 frasi Francese – 1065

Inglese – 1045

(5)

Annotazione di ParTUT

Il formato utilizzato è quello di TUT:

1 Universal (UNIVERSAL ADJ QUALIF ALLVAL ALLVAL) [2;ADJC+QUALIF-RMOD]

2 Declaration (DECLARE NOUN COMMON N SING DECLARE TRANS) [0;TOP-NOUN]

3 of (OF PREP MONO) [2;NOUN-OBJ]

4 Human (HUMAN ADJ QUALIF ALLVAL ALLVAL) [5;ADJC+QUALIF-RMOD]

5 Rights (RIGHT NOUN COMMON N PL) [3;PREP-ARG]

(6)
(7)
(8)

Annotazione di ParTUT

Poiché il formato era stato in origine progettato per la lingua italiana, per rappresentare alcuni aspetti specifici del francese e dell’inglese è stato necessario arricchirlo.

Tuttavia, essendo la lingua italiana molto ricca dal punto di vista morfologico e sintattico, gli

arricchimenti necessari sono stati molto pochi, ad es. il genitivo sassone e le espletive per

l’inglese.

(9)
(10)

Annotazione di ParTUT

La procedura applicata per l’annotazione consiste in:

• pretrattamento manuale (conversione dei dati da altre codifiche in UTF-8)

• analisi automatica (eseguita da TULE)

• correzione manuale e revisione semiautomatica (eseguita con tool sviluppati ad hoc)

• conversione in formato ConLL e in Stanford Dependencies

(11)

Utilizzo di ParTUT

Un treebank parallelo è una risorsa di

fondamentale importanza per lo sviluppo

dell’NLP in generale e per la MT in particolare.

Dalla sua analisi è possibile estrarre dati altrimenti non rilevabili sul confronto cross-linguistico e

derivarne informazioni importanti anche per le singole lingue coinvolte.

(12)

Utilizzo di ParTUT

Il principale scopo per lo sviluppo di ParTUT è stato costruito è lo studio dei fenomeni sintattici delle 3 lingue coinvolte e di come questi possono essere messi in parallelo per informare sistemi di MT.

Ma l’allineamento sintattico è di per se’ un task complesso che deve essere risolto anche in

relazione alla teoria linguistica di riferimento ed al formato di rappresentazione adottato.

(13)

Utilizzo di ParTUT

Per poter parlare di allineamento sintattico, prima occorre affrontare l’allineamento per parole …

potremmo scoprire che l’allineamento sintattico non ci serve …

È un task più semplice che ci fa intuire le difficoltà

dell’allineamento sintattico … tutto ciò che non si riesce ad allineare per parola richiede la costruzione di un

allineamento sintattico.

(14)

Utilizzo di ParTUT

Per poter parlare di allineamento sintattico, occorre aver affrontato i task ad esso preliminari:

Allineamento per paragrafi Allineamento per frasi

Allineamento per parole

Allineamento per strutture sintattiche

(15)

Utilizzo di ParTUT

(16)

Utilizzo di ParTUT

Riferimenti

Documenti correlati

Consiste nell’associare ad ogni token una descrizione della sua morfologia.. L’input è il

dorme VERB IND PRES 3 SING. Il ART DEF

Developing readers in Grade 3 and skilled adult readers participated in a reading aloud task in four alphabetic orthographies (English, French, German, Italian), which differ in

Our boot- strap algorithm provides: (a) the bootstrap p-value associated with the QLR test and bootstrap standard errors for the estimated structural parameters, (b) an estimate of

8 indicates that: (i) a certain distortion solution of the telescope can hardly be applied to another epoch given the high rate of change of PS, suggesting the need for frequent

Trade. Cambridge, Mass.: Basil Blackwell. Implications of intellectual property rights for dynamic gains from trade, American Economic Review, 95, 318-322. TRIPS and

These groups are subgroups of punctured mapping class groups of closed surfaces and are related to the study of link theory in a closed 3-manifold.. In this paper we define and study

In questo lavoro si è descritta una metodologia, sviluppata specificamente per elettrodotti MT a doppia terna non ottimizzati, che si vale della tecnica della regressione multilineare