Universal Dependencies e treebank
Cristina Bosco
Corso di Informatica applicata alla comunicazione multimediale
2016-2017
L’esistenza di molte risorse diverse rende
difficile confrontare i risultati ottenuti da diversi sistemi e la valutazione deve
sempre essere fatta in relazione alle stesse risorse.
Se il sistema X e il sistema Y utilizzano lo
stesso corpus per apprendere, ottengono lo stesso output?
Treebank e valutazione
La comunità della LC opera pertanto nella direzione di rendere confrontabili i
risultati dei sistemi che svolgono lo stesso task.
Questo significa ad esempio che si cerca di costruire risorse in cui si utilizza lo stesso formato di rappresentazione (standard).
Treebank e valutazione
Per molti anni lo standard di riferimento per il formato dei treebank era il formato del
Penn Treebank.
Ben presto però sono emersi i limiti di questo formato soprattutto nella
rappresentazione di lingue con ordine delle parole più libero dell’inglese.
Treebank e standard
Soprattutto pensando alle lingue con ordine delle parole più libero dell’inglese si sono sviluppati i formati a dipendenze sulla base del formato del Prague Dependency
Treebank.
Il panorama dei treebank è molto variegato:
per alcune lingue esistono più di un treebank in formati diversi, per altre nessuno.
Treebank e standard
La nozione di standard è quindi
particolarmente rilevante per i treebank e ha portato alla definizione di un formato universale detto Universal Dependency.
Questo processo è durato vari anni e ha comportato vari passi all’interno delle
varie comunità che operano sulle singole lingue.
Treebank e standard
Per la lingua italiana ad esempio sono stati creati, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntactic Semantic Treebank (presso l’Istituto di Linguistica
Computazionale CNR di Pisa).
La differenza tra i due formati ha creato problemi di compatibilità tra sistemi e risultati.
Treebank e standard
Universal Dependency
L’idea è di costruire risorse per tutte le lingue che utilizzano tutte lo stesso formato e
sistemi che analizzano i dati di tutte le lingue.
Tutta la rappresentazione si fonda sul
principio che le teste delle relazioni sono le parole di contenuto, quelle che portano un maggiore contributo semantico.
Universal Dependency
Nella LC la distinzione tra parole di contenuto (content word) e altre è cruciale in vari
task.
Le preposizioni e gli articoli sono considerati in UD come semplici accessori delle parole di contenuto attorno a cui tutte le
strutture sintattiche si concretizzano.
Universal Dependency
Rispetto ad altri formati, UD è meno
dettagliato e le sue relazioni in numero inferiore.
Questa “sottospecificazione” consente di convertire con maggiore facilità altri
formati in UD e di semplificare il parsing, anche se provoca anche una perdita di informazioni.
Universal Dependency
Questo formato soddisfa l’interesse per
confronti multilingui e rende possibile sia campagne di valutazione multilingui sia l’apprendimento cross-linguistco a
supporto della LC per lingue per cui non esistono risorse.
http://universaldependencies.org/
Universal Dependency
L’esistenza di UD ha creato le premesse per la fusione di un unico grande treebank per la lingua italiana.
I due treebank precedentemente sviluppati sono stati prima convertiti in un formato comune e poi in formato UD.
Più recentemente anche ParTUT è entrato a fare parte di UD.
Universal Dependency e TUT
La release attuale, 2.0 , rilasciata il primo marzo 2017 contiene 70 treebank che rappresentano 50 diverse lingue.
Universal Dependency
UDpipe è l’analizzatore morfo-sintattico che è stato costruito per il progetto.
Nella versione demo online si può facilmente vedere quale output produce,
addestrandolo sulla risorsa italiana o quella per altre lingue.
https://ufal.mff.cuni.cz/udpipe#online_demo
Universal Dependency