• Non ci sono risultati.

Universal Dependencies e treebank

N/A
N/A
Protected

Academic year: 2021

Condividi "Universal Dependencies e treebank"

Copied!
15
0
0

Testo completo

(1)

Universal  Dependencies  e   treebank  

Cris%na  Bosco  

Corso  di  Informa%ca  applicata  alla   comunicazione  mul%mediale  

2016-­‐2017  

(2)

L’esistenza  di  molte  risorse  diverse  rende  

difficile  confrontare  i  risulta%  o@enu%  da   diversi  sistemi  e  la  valutazione  deve  

sempre  essere  fa@a  in  relazione  alle   stesse  risorse.  

Se  il  sistema  X  e  il  sistema  Y  u%lizzano  lo  

stesso  corpus  per  apprendere,  o@engono   lo  stesso  output?  

Treebank  e  valutazione  

(3)

La  comunità  della  LC  opera  pertanto  nella   direzione  di  rendere  confrontabili  i  

risulta%  dei  sistemi  che  svolgono  lo  stesso   task.  

Questo  significa  ad  esempio  che  si  cerca  di   costruire  risorse  in  cui  si  u%lizza  lo  stesso   formato  di  rappresentazione  (standard).  

Treebank  e  valutazione  

(4)

Per  mol%  anni  lo  standard  di  riferimento  per   il  formato  dei  treebank  era  il  formato  del   Penn  Treebank.  

Ben  presto  però  sono  emersi  i  limi%  di  questo   formato  sopra@u@o  nella  

rappresentazione  di  lingue  con  ordine   delle  parole  più  libero  dell’inglese.  

Treebank  e  standard  

(5)

Sopra@u@o  pensando  alle  lingue  con  ordine   delle  parole  più  libero  dell’inglese  si  sono   sviluppa%  i  forma%  a  dipendenze  sulla  

base  del  formato  del  Prague  Dependency   Treebank.  

Il  panorama  dei  treebank  è  molto  variegato:  

per  alcune  lingue  esistono  più  di  un   treebank  in  forma%  diversi,  per  altre   nessuno.    

Treebank  e  standard  

(6)

La  nozione  di  standard  è  quindi  

par%colarmente  rilevante  per  i  treebank  e   ha  portato  alla  definizione  di  un  formato   universale  de@o  Universal  Dependency.  

Questo  processo  è  durato  vari  anni  e  ha   comportato  vari  passi  all’interno  delle  

varie  comunità  che  operano  sulle  singole   lingue.  

Treebank  e  standard  

(7)

Per  la  lingua  italiana  ad  esempio  sono  sta%  

crea%,  intorno  all’anno  2000,  2  treebank,   entrambi  con  un  formato  a  dipendenze,   TUT  e  Italian  Syntac%c  Seman%c  Treebank   (presso  l’Is%tuto  di  Linguis%ca  

Computazionale  CNR  di  Pisa).  

La  differenza  tra  i  due  forma%  ha  creato   problemi  di  compa%bilità  tra  sistemi  e   risulta%.  

Treebank  e  standard  

(8)

Universal  Dependency  

(9)

L’idea  è  di  costruire  risorse  per  tu@e  le  lingue   che  u%lizzano  tu@e  lo  stesso  formato  e  

sistemi  che  analizzano  i  da%  di  tu@e  le   lingue.  

Tu@a  la  rappresentazione  si  fonda  sul  

principio  che  le  teste  delle  relazioni  sono   le  parole  di  contenuto,  quelle  che  portano   un  maggiore  contributo  seman%co.  

Universal  Dependency  

(10)

Nella  LC  la  dis%nzione  tra  parole  di  contenuto   (content  word)  e  altre  è  cruciale  in  vari  

task.  

Le  preposizioni  e  gli  ar%coli  sono  considera%  

in  UD  come  semplici  accessori  delle  parole   di  contenuto  a@orno  a  cui  tu@e  le  

stru@ure  sinta^che  si  concre%zzano.  

Universal  Dependency  

(11)

Rispe@o  ad  altri  forma%,  UD  è  meno  

de@agliato  e  le  sue  relazioni  in  numero   inferiore.  

Questa  “so@ospecificazione”  consente  di   conver%re  con  maggiore  facilità  altri  

forma%  in  UD  e  di  semplificare  il  parsing,   anche  se  provoca  anche  una  perdita  di   informazioni.  

Universal  Dependency  

(12)

Questo  formato  soddisfa  l’interesse  per  

confron%  mul%lingui  e  rende  possibile  sia   campagne  di  valutazione  mul%lingui  sia   l’apprendimento  cross-­‐linguistco  a  

supporto  della  LC  per  lingue  per  cui  non   esistono  risorse.  

h@p://universaldependencies.org/  

Universal  Dependency  

(13)

L’esistenza  di  UD  ha  creato  le  premesse  per  la   fusione  di  un  unico  grande  treebank  per  la   lingua  italiana.  

I  due  treebank  precedentemente  sviluppa%  

sono  sta%  prima  conver%%  in  un  formato   comune  e  poi  in  formato  UD.  

Più  recentemente  anche  ParTUT  è  entrato  a   fare  parte  di  UD.  

Universal  Dependency  e  TUT  

(14)

La  release  a@uale,  2.0  ,  rilasciata  il  primo   marzo  2017  con%ene  70  treebank  che   rappresentano  50  diverse  lingue.  

Universal  Dependency  

(15)

UDpipe  è  l’analizzatore  morfo-­‐sinta^co  che  è   stato  costruito  per  il  proge@o.  

Nella  versione  demo  online  si  può  facilmente   vedere  quale  output  produce,  

addestrandolo  sulla  risorsa  italiana  o   quella  per  altre  lingue.  

h@ps://ufal.mff.cuni.cz/udpipe#online_demo  

Universal  Dependency  

Riferimenti

Documenti correlati

Le proteine che sono presenti nelle cellule tumorali, ma non in quelle normali, o che sono più abbondanti nelle cellule tumorali, potrebbero rappresentare potenziali

Un cluster di nodi Spark viene implementato tramite il modello master-slaves; il nodo master ` e quello che gestisce l’allocazione delle risorse del cluster, che tiene traccia

Consiste nell’associare ad ogni token una descrizione della sua morfologia.. L’input è il

We show that the introduction in a power utility function of a con…dence index to sig- nal the state of the world allows for an otherwise standard asset pricing model to match

The agrarian landscape reflected this di- chotomy which, on a local level distinguished the higher sections of the plain from those near the mouth of the river:

Developing readers in Grade 3 and skilled adult readers participated in a reading aloud task in four alphabetic orthographies (English, French, German, Italian), which differ in

This timing solution is based on data from the individual telescope participating in the LEAP project (Effelsberg, Jodrell Bank, Nanc¸ay and WSRT) and obtained over a 17.7 yr long

In questo lavoro si è descritta una metodologia, sviluppata specificamente per elettrodotti MT a doppia terna non ottimizzati, che si vale della tecnica della regressione multilineare