Universal Dependencies e treebank

(1)

Universal Dependencies e treebank

Cris%na Bosco

Corso di Informa%ca applicata alla comunicazione mul%mediale

2016-‐2017

(2)

L’esistenza di molte risorse diverse rende

diﬃcile confrontare i risulta% o@enu% da diversi sistemi e la valutazione deve

sempre essere fa@a in relazione alle stesse risorse.

Se il sistema X e il sistema Y u%lizzano lo

stesso corpus per apprendere, o@engono lo stesso output?

Treebank e valutazione

(3)

La comunità della LC opera pertanto nella direzione di rendere confrontabili i

risulta% dei sistemi che svolgono lo stesso task.

Questo signiﬁca ad esempio che si cerca di costruire risorse in cui si u%lizza lo stesso formato di rappresentazione (standard).

Treebank e valutazione

(4)

Per mol% anni lo standard di riferimento per il formato dei treebank era il formato del Penn Treebank.

Ben presto però sono emersi i limi% di questo formato sopra@u@o nella

rappresentazione di lingue con ordine delle parole più libero dell’inglese.

Treebank e standard

(5)

Sopra@u@o pensando alle lingue con ordine delle parole più libero dell’inglese si sono sviluppa% i forma% a dipendenze sulla

base del formato del Prague Dependency Treebank.

Il panorama dei treebank è molto variegato:

per alcune lingue esistono più di un treebank in forma% diversi, per altre nessuno.

Treebank e standard

(6)

La nozione di standard è quindi

par%colarmente rilevante per i treebank e ha portato alla deﬁnizione di un formato universale de@o Universal Dependency.

Questo processo è durato vari anni e ha comportato vari passi all’interno delle

varie comunità che operano sulle singole lingue.

Treebank e standard

(7)

Per la lingua italiana ad esempio sono sta%

crea%, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntac%c Seman%c Treebank (presso l’Is%tuto di Linguis%ca

Computazionale CNR di Pisa).

La diﬀerenza tra i due forma% ha creato problemi di compa%bilità tra sistemi e risulta%.

Treebank e standard

(8)

Universal Dependency

(9)

L’idea è di costruire risorse per tu@e le lingue che u%lizzano tu@e lo stesso formato e

sistemi che analizzano i da% di tu@e le lingue.

Tu@a la rappresentazione si fonda sul

principio che le teste delle relazioni sono le parole di contenuto, quelle che portano un maggiore contributo seman%co.

(10)

Nella LC la dis%nzione tra parole di contenuto (content word) e altre è cruciale in vari

task.

Le preposizioni e gli ar%coli sono considera%

in UD come semplici accessori delle parole di contenuto a@orno a cui tu@e le

stru@ure sinta^che si concre%zzano.

(11)

Rispe@o ad altri forma%, UD è meno

de@agliato e le sue relazioni in numero inferiore.

Questa “so@ospeciﬁcazione” consente di conver%re con maggiore facilità altri

forma% in UD e di sempliﬁcare il parsing, anche se provoca anche una perdita di informazioni.

(12)

Questo formato soddisfa l’interesse per

confron% mul%lingui e rende possibile sia campagne di valutazione mul%lingui sia l’apprendimento cross-‐linguistco a

supporto della LC per lingue per cui non esistono risorse.

h@p://universaldependencies.org/

(13)

L’esistenza di UD ha creato le premesse per la fusione di un unico grande treebank per la lingua italiana.

I due treebank precedentemente sviluppa%

sono sta% prima conver%% in un formato comune e poi in formato UD.

Più recentemente anche ParTUT è entrato a fare parte di UD.

Universal Dependency e TUT

(14)

La release a@uale, 2.0 , rilasciata il primo marzo 2017 con%ene 70 treebank che rappresentano 50 diverse lingue.

(15)

UDpipe è l’analizzatore morfo-‐sinta^co che è stato costruito per il proge@o.

Nella versione demo online si può facilmente vedere quale output produce,

addestrandolo sulla risorsa italiana o quella per altre lingue.

h@ps://ufal.mﬀ.cuni.cz/udpipe#online_demo