Universal Dependencies e treebank

(1)

Universal Dependencies e treebank

Cristina Bosco

Corso di Informatica applicata alla comunicazione multimediale

2016-2017

(2)

L’esistenza di molte risorse diverse rende

difficile confrontare i risultati ottenuti da diversi sistemi e la valutazione deve

sempre essere fatta in relazione alle stesse risorse.

Se il sistema X e il sistema Y utilizzano lo

stesso corpus per apprendere, ottengono lo stesso output?

Treebank e valutazione

(3)

La comunità della LC opera pertanto nella direzione di rendere confrontabili i

risultati dei sistemi che svolgono lo stesso task.

Questo significa ad esempio che si cerca di costruire risorse in cui si utilizza lo stesso formato di rappresentazione (standard).

Treebank e valutazione

(4)

Per molti anni lo standard di riferimento per il formato dei treebank era il formato del

Penn Treebank.

Ben presto però sono emersi i limiti di questo formato soprattutto nella

rappresentazione di lingue con ordine delle parole più libero dell’inglese.

Treebank e standard

(5)

Soprattutto pensando alle lingue con ordine delle parole più libero dell’inglese si sono sviluppati i formati a dipendenze sulla base del formato del Prague Dependency

Treebank.

Il panorama dei treebank è molto variegato:

per alcune lingue esistono più di un treebank in formati diversi, per altre nessuno.

Treebank e standard

(6)

La nozione di standard è quindi

particolarmente rilevante per i treebank e ha portato alla definizione di un formato universale detto Universal Dependency.

Questo processo è durato vari anni e ha comportato vari passi all’interno delle

varie comunità che operano sulle singole lingue.

Treebank e standard

(7)

Per la lingua italiana ad esempio sono stati creati, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntactic Semantic Treebank (presso l’Istituto di Linguistica

Computazionale CNR di Pisa).

La differenza tra i due formati ha creato problemi di compatibilità tra sistemi e risultati.

Treebank e standard

(8)

Universal Dependency

(9)

L’idea è di costruire risorse per tutte le lingue che utilizzano tutte lo stesso formato e

sistemi che analizzano i dati di tutte le lingue.

Tutta la rappresentazione si fonda sul

principio che le teste delle relazioni sono le parole di contenuto, quelle che portano un maggiore contributo semantico.

(10)

Nella LC la distinzione tra parole di contenuto (content word) e altre è cruciale in vari

task.

Le preposizioni e gli articoli sono considerati in UD come semplici accessori delle parole di contenuto attorno a cui tutte le

strutture sintattiche si concretizzano.

(11)

Rispetto ad altri formati, UD è meno

dettagliato e le sue relazioni in numero inferiore.

Questa “sottospecificazione” consente di convertire con maggiore facilità altri

formati in UD e di semplificare il parsing, anche se provoca anche una perdita di informazioni.

(12)

Questo formato soddisfa l’interesse per

confronti multilingui e rende possibile sia campagne di valutazione multilingui sia l’apprendimento cross-linguistco a

supporto della LC per lingue per cui non esistono risorse.

http://universaldependencies.org/

(13)

L’esistenza di UD ha creato le premesse per la fusione di un unico grande treebank per la lingua italiana.

I due treebank precedentemente sviluppati sono stati prima convertiti in un formato comune e poi in formato UD.

Più recentemente anche ParTUT è entrato a fare parte di UD.

Universal Dependency e TUT

(14)

La release attuale, 2.0 , rilasciata il primo marzo 2017 contiene 70 treebank che rappresentano 50 diverse lingue.

(15)

UDpipe è l’analizzatore morfo-sintattico che è stato costruito per il progetto.

Nella versione demo online si può facilmente vedere quale output produce,

addestrandolo sulla risorsa italiana o quella per altre lingue.

https://ufal.mff.cuni.cz/udpipe#online_demo