• Non ci sono risultati.

Universal Dependencies e treebank

N/A
N/A
Protected

Academic year: 2021

Condividi "Universal Dependencies e treebank"

Copied!
15
0
0

Testo completo

(1)

Universal  Dependencies  e   treebank  

Cris%na  Bosco  

Corso  di  Informa%ca  applicata  alla   comunicazione  mul%mediale  

2016-­‐2017  

(2)

L’esistenza  di  molte  risorse  diverse  rende  

difficile  confrontare  i  risulta%  o@enu%  da   diversi  sistemi  e  la  valutazione  deve  

sempre  essere  fa@a  in  relazione  alle   stesse  risorse.  

Se  il  sistema  X  e  il  sistema  Y  u%lizzano  lo  

stesso  corpus  per  apprendere,  o@engono   lo  stesso  output?  

Treebank  e  valutazione  

(3)

La  comunità  della  LC  opera  pertanto  nella   direzione  di  rendere  confrontabili  i  

risulta%  dei  sistemi  che  svolgono  lo  stesso   task.  

Questo  significa  ad  esempio  che  si  cerca  di   costruire  risorse  in  cui  si  u%lizza  lo  stesso   formato  di  rappresentazione  (standard).  

Treebank  e  valutazione  

(4)

Per  mol%  anni  lo  standard  di  riferimento  per   il  formato  dei  treebank  era  il  formato  del   Penn  Treebank.  

Ben  presto  però  sono  emersi  i  limi%  di  questo   formato  sopra@u@o  nella  

rappresentazione  di  lingue  con  ordine   delle  parole  più  libero  dell’inglese.  

Treebank  e  standard  

(5)

Sopra@u@o  pensando  alle  lingue  con  ordine   delle  parole  più  libero  dell’inglese  si  sono   sviluppa%  i  forma%  a  dipendenze  sulla  

base  del  formato  del  Prague  Dependency   Treebank.  

Il  panorama  dei  treebank  è  molto  variegato:  

per  alcune  lingue  esistono  più  di  un   treebank  in  forma%  diversi,  per  altre   nessuno.    

Treebank  e  standard  

(6)

La  nozione  di  standard  è  quindi  

par%colarmente  rilevante  per  i  treebank  e   ha  portato  alla  definizione  di  un  formato   universale  de@o  Universal  Dependency.  

Questo  processo  è  durato  vari  anni  e  ha   comportato  vari  passi  all’interno  delle  

varie  comunità  che  operano  sulle  singole   lingue.  

Treebank  e  standard  

(7)

Per  la  lingua  italiana  ad  esempio  sono  sta%  

crea%,  intorno  all’anno  2000,  2  treebank,   entrambi  con  un  formato  a  dipendenze,   TUT  e  Italian  Syntac%c  Seman%c  Treebank   (presso  l’Is%tuto  di  Linguis%ca  

Computazionale  CNR  di  Pisa).  

La  differenza  tra  i  due  forma%  ha  creato   problemi  di  compa%bilità  tra  sistemi  e   risulta%.  

Treebank  e  standard  

(8)

Universal  Dependency  

(9)

L’idea  è  di  costruire  risorse  per  tu@e  le  lingue   che  u%lizzano  tu@e  lo  stesso  formato  e  

sistemi  che  analizzano  i  da%  di  tu@e  le   lingue.  

Tu@a  la  rappresentazione  si  fonda  sul  

principio  che  le  teste  delle  relazioni  sono   le  parole  di  contenuto,  quelle  che  portano   un  maggiore  contributo  seman%co.  

Universal  Dependency  

(10)

Nella  LC  la  dis%nzione  tra  parole  di  contenuto   (content  word)  e  altre  è  cruciale  in  vari  

task.  

Le  preposizioni  e  gli  ar%coli  sono  considera%  

in  UD  come  semplici  accessori  delle  parole   di  contenuto  a@orno  a  cui  tu@e  le  

stru@ure  sinta^che  si  concre%zzano.  

Universal  Dependency  

(11)

Rispe@o  ad  altri  forma%,  UD  è  meno  

de@agliato  e  le  sue  relazioni  in  numero   inferiore.  

Questa  “so@ospecificazione”  consente  di   conver%re  con  maggiore  facilità  altri  

forma%  in  UD  e  di  semplificare  il  parsing,   anche  se  provoca  anche  una  perdita  di   informazioni.  

Universal  Dependency  

(12)

Questo  formato  soddisfa  l’interesse  per  

confron%  mul%lingui  e  rende  possibile  sia   campagne  di  valutazione  mul%lingui  sia   l’apprendimento  cross-­‐linguistco  a  

supporto  della  LC  per  lingue  per  cui  non   esistono  risorse.  

h@p://universaldependencies.org/  

Universal  Dependency  

(13)

L’esistenza  di  UD  ha  creato  le  premesse  per  la   fusione  di  un  unico  grande  treebank  per  la   lingua  italiana.  

I  due  treebank  precedentemente  sviluppa%  

sono  sta%  prima  conver%%  in  un  formato   comune  e  poi  in  formato  UD.  

Più  recentemente  anche  ParTUT  è  entrato  a   fare  parte  di  UD.  

Universal  Dependency  e  TUT  

(14)

La  release  a@uale,  2.0  ,  rilasciata  il  primo   marzo  2017  con%ene  70  treebank  che   rappresentano  50  diverse  lingue.  

Universal  Dependency  

(15)

UDpipe  è  l’analizzatore  morfo-­‐sinta^co  che  è   stato  costruito  per  il  proge@o.  

Nella  versione  demo  online  si  può  facilmente   vedere  quale  output  produce,  

addestrandolo  sulla  risorsa  italiana  o   quella  per  altre  lingue.  

h@ps://ufal.mff.cuni.cz/udpipe#online_demo  

Universal  Dependency  

Riferimenti

Documenti correlati

We show that the introduction in a power utility function of a con…dence index to sig- nal the state of the world allows for an otherwise standard asset pricing model to match

The agrarian landscape reflected this di- chotomy which, on a local level distinguished the higher sections of the plain from those near the mouth of the river:

Developing readers in Grade 3 and skilled adult readers participated in a reading aloud task in four alphabetic orthographies (English, French, German, Italian), which differ in

Consiste nell’associare ad ogni token una descrizione della sua morfologia.. L’input è il

This timing solution is based on data from the individual telescope participating in the LEAP project (Effelsberg, Jodrell Bank, Nanc¸ay and WSRT) and obtained over a 17.7 yr long

In questo lavoro si è descritta una metodologia, sviluppata specificamente per elettrodotti MT a doppia terna non ottimizzati, che si vale della tecnica della regressione multilineare

Le proteine che sono presenti nelle cellule tumorali, ma non in quelle normali, o che sono più abbondanti nelle cellule tumorali, potrebbero rappresentare potenziali

Un cluster di nodi Spark viene implementato tramite il modello master-slaves; il nodo master ` e quello che gestisce l’allocazione delle risorse del cluster, che tiene traccia