• Non ci sono risultati.

Il Parallel Turin University Treebank

N/A
N/A
Protected

Academic year: 2021

Condividi "Il Parallel Turin University Treebank"

Copied!
16
0
0

Testo completo

(1)

Il  Parallel  Turin  

University  Treebank  

Cris%na  Bosco  –  Manuela   Informa%ca  applicata  alla   comunicazione  mul%mediale  

2014-­‐2015  

(2)

ParTUT  

ParTUT  è  il  primo  treebank  parallelo  costruito   u8lizzando  il  formato  di  TUT;  lo  possiamo   definire  secondo  le  seguen8  direzioni:  

•  composizione  e  dimensione  del  corpus  

•  formato  di  annotazione  

•  u8lizzo  

•  collocazione  rispe@o  ad  altri  progeA  e  risorse  

(3)

Composizione  di  ParTUT  

A@ualmente  ParTUT  con8ene  frasi  derivan8  da  6   diverse  fon8:  

•  Il  corpus  della  CE,  JRC-­‐Acquis  

•  Le  licenze  Crea8ve  Commons  

•  La  dichiarazione  dei  diriA  umani  

•  Il  corpus  di  trascrizioni  EUROPARL  

•  Il  corpus  web  Inventory  of  Translated  Talks  (WIT3)  

•  Porzioni  di  Wikipedia  e  Project  Syndicate  

(4)

Dimensione  di  ParTUT  

A@ualmente  ParTUT  con8ene  3194  frasi  che   corrispondono  a  89191  token.  

La  media  è  di  1060  frasi  per  lingua,  ed  i  tes8   sono  così  ripar88:  

Italiano  –  1070  frasi   Francese  –  1065    

Inglese  –  1045  

(5)

Annotazione  di  ParTUT  

Il  formato  u8lizzato  è  quello  di  TUT:  

1  Universal  (UNIVERSAL  ADJ  QUALIF  ALLVAL  ALLVAL)   [2;ADJC+QUALIF-­‐RMOD]  

2  Declara8on  (DECLARE  NOUN  COMMON  N  SING   DECLARE  TRANS)  [0;TOP-­‐NOUN]  

3  of  (OF  PREP  MONO)  [2;NOUN-­‐OBJ]  

4  Human  (HUMAN  ADJ  QUALIF  ALLVAL  ALLVAL)   [5;ADJC+QUALIF-­‐RMOD]  

5  Rights  (RIGHT  NOUN  COMMON  N  PL)  [3;PREP-­‐ARG]  

(6)
(7)
(8)

Annotazione  di  ParTUT  

Poiché  il  formato  era  stato  in  origine  proge@ato   per  la  lingua  italiana,  per  rappresentare  alcuni   aspeA  specifici  del  francese  e  dell’inglese  è   stato  necessario  arricchirlo.  

Tu@avia,  essendo  la  lingua  italiana  molto  ricca   dal  punto  di  vista  morfologico  e  sintaAco,  gli   arricchimen8  necessari  sono  sta8  molto  pochi,   ad  es.  il  geni8vo  sassone  e  le  esple8ve  per  

l’inglese.  

(9)
(10)

Annotazione  di  ParTUT  

La  procedura  applicata  per  l’annotazione  consiste   in:    

•  pretra@amento  manuale  (conversione  dei  da8   da  altre  codifiche  in  UTF-­‐8)  

•  analisi  automa8ca  (eseguita  da  TULE)  

•  correzione  manuale  e  revisione  semiautoma8ca   (eseguita  con  tool  sviluppa8  ad  hoc)  

•  conversione  in  formato  ConLL  e  in  Stanford   Dependencies  

(11)

U8lizzo  di  ParTUT  

Un  treebank  parallelo  è  una  risorsa  di  

fondamentale  importanza  per  lo  sviluppo  

dell’NLP  in  generale  e  per  la  MT  in  par8colare.  

Dalla  sua  analisi  è  possibile  estrarre  da8  altrimen8   non  rilevabili  sul  confronto  cross-­‐linguis8co  e  

derivarne  informazioni  importan8  anche  per  le   singole  lingue  coinvolte.  

(12)

U8lizzo  di  ParTUT  

Il  principale  scopo  per  lo  sviluppo  di  ParTUT  è  

stato  costruito  è  lo  studio  dei  fenomeni  sintaAci   delle  3  lingue  coinvolte  e  di  come  ques8  

possono  essere  messi  in  parallelo  per  informare   sistemi  di  MT.  

Ma  l’allineamento  sintaAco  è  di  per  se’  un  task   complesso  che  deve  essere  risolto  anche  in  

relazione  alla  teoria  linguis8ca  di  riferimento  ed   al  formato  di  rappresentazione  ado@ato.    

(13)

U8lizzo  di  ParTUT  

Per  poter  parlare  di  allineamento  sintaAco,  prima   occorre  affrontare  l’allineamento  per  parole  …   potremmo  scoprire  che  l’allineamento  sintaAco   non  ci  serve  …    

È  un  task  più  semplice  che  ci  fa  intuire  le  difficoltà   dell’allineamento  sintaAco  …  tu@o  ciò  che  non   si  riesce  ad  allineare  per  parola  richiede  la  

costruzione  di  un  allineamento  sintaAco.  

(14)

U8lizzo  di  ParTUT  

Per  poter  parlare  di  allineamento  sintaAco,   occorre  aver  affrontato  i  task  ad  esso  

preliminari:  

Allineamento  per  paragrafi   Allineamento  per  frasi  

Allineamento  per  parole  

Allineamento  per  stru@ure  sintaAche  

(15)

U8lizzo  di  ParTUT  

(16)

U8lizzo  di  ParTUT  

Riferimenti

Documenti correlati

An accurate postcolonial reading of Stevenson’s late production cannot but relocate his position within the panorama of late 19 th century Western writers dealing with the

Per la lingua italiana ad esempio sono stati creati, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntactic Semantic Treebank

newspapers (Wall Street Journal), telephone conversations. Selezione  in  altri  treebank

Soprattutto pensando alle lingue con ordine delle parole più libero dell’inglese si sono sviluppati i formati a dipendenze sulla base del formato del Prague

[r]

ParTUT è il primo treebank parallelo costruito utilizzando il formato di TUT; lo possiamo definire secondo le seguenti direzioni:.. • composizione e dimensione

Nella corpus linguistics moderna si supera la posizione nominalista in quanto si da.. importanza all’inferenza e astrazione che si può fare sui dati

In this further development, the asymmetry consists in cherry picking, in the stickiness of sellers prices and in the idea that the buyer knows seller’s price and quality, but