Universal Dependencies e treebank
Cris%na Bosco
Corso di Informa%ca applicata alla comunicazione mul%mediale
2016-‐2017
L’esistenza di molte risorse diverse rende
difficile confrontare i risulta% o@enu% da diversi sistemi e la valutazione deve
sempre essere fa@a in relazione alle stesse risorse.
Se il sistema X e il sistema Y u%lizzano lo
stesso corpus per apprendere, o@engono lo stesso output?
Treebank e valutazione
La comunità della LC opera pertanto nella direzione di rendere confrontabili i
risulta% dei sistemi che svolgono lo stesso task.
Questo significa ad esempio che si cerca di costruire risorse in cui si u%lizza lo stesso formato di rappresentazione (standard).
Treebank e valutazione
Per mol% anni lo standard di riferimento per il formato dei treebank era il formato del Penn Treebank.
Ben presto però sono emersi i limi% di questo formato sopra@u@o nella
rappresentazione di lingue con ordine delle parole più libero dell’inglese.
Treebank e standard
Sopra@u@o pensando alle lingue con ordine delle parole più libero dell’inglese si sono sviluppa% i forma% a dipendenze sulla
base del formato del Prague Dependency Treebank.
Il panorama dei treebank è molto variegato:
per alcune lingue esistono più di un treebank in forma% diversi, per altre nessuno.
Treebank e standard
La nozione di standard è quindi
par%colarmente rilevante per i treebank e ha portato alla definizione di un formato universale de@o Universal Dependency.
Questo processo è durato vari anni e ha comportato vari passi all’interno delle
varie comunità che operano sulle singole lingue.
Treebank e standard
Per la lingua italiana ad esempio sono sta%
crea%, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntac%c Seman%c Treebank (presso l’Is%tuto di Linguis%ca
Computazionale CNR di Pisa).
La differenza tra i due forma% ha creato problemi di compa%bilità tra sistemi e risulta%.
Treebank e standard
Universal Dependency
L’idea è di costruire risorse per tu@e le lingue che u%lizzano tu@e lo stesso formato e
sistemi che analizzano i da% di tu@e le lingue.
Tu@a la rappresentazione si fonda sul
principio che le teste delle relazioni sono le parole di contenuto, quelle che portano un maggiore contributo seman%co.
Universal Dependency
Nella LC la dis%nzione tra parole di contenuto (content word) e altre è cruciale in vari
task.
Le preposizioni e gli ar%coli sono considera%
in UD come semplici accessori delle parole di contenuto a@orno a cui tu@e le
stru@ure sinta^che si concre%zzano.
Universal Dependency
Rispe@o ad altri forma%, UD è meno
de@agliato e le sue relazioni in numero inferiore.
Questa “so@ospecificazione” consente di conver%re con maggiore facilità altri
forma% in UD e di semplificare il parsing, anche se provoca anche una perdita di informazioni.
Universal Dependency
Questo formato soddisfa l’interesse per
confron% mul%lingui e rende possibile sia campagne di valutazione mul%lingui sia l’apprendimento cross-‐linguistco a
supporto della LC per lingue per cui non esistono risorse.
h@p://universaldependencies.org/
Universal Dependency
L’esistenza di UD ha creato le premesse per la fusione di un unico grande treebank per la lingua italiana.
I due treebank precedentemente sviluppa%
sono sta% prima conver%% in un formato comune e poi in formato UD.
Più recentemente anche ParTUT è entrato a fare parte di UD.
Universal Dependency e TUT
La release a@uale, 2.0 , rilasciata il primo marzo 2017 con%ene 70 treebank che rappresentano 50 diverse lingue.
Universal Dependency
UDpipe è l’analizzatore morfo-‐sinta^co che è stato costruito per il proge@o.
Nella versione demo online si può facilmente vedere quale output produce,
addestrandolo sulla risorsa italiana o quella per altre lingue.
h@ps://ufal.mff.cuni.cz/udpipe#online_demo
Universal Dependency