• Non ci sono risultati.

Universal Dependencies e treebank

N/A
N/A
Protected

Academic year: 2021

Condividi "Universal Dependencies e treebank"

Copied!
15
0
0

Testo completo

(1)

Universal Dependencies e treebank

Cristina Bosco

Corso di Informatica applicata alla comunicazione multimediale

2016-2017

(2)

L’esistenza di molte risorse diverse rende

difficile confrontare i risultati ottenuti da diversi sistemi e la valutazione deve

sempre essere fatta in relazione alle stesse risorse.

Se il sistema X e il sistema Y utilizzano lo

stesso corpus per apprendere, ottengono lo stesso output?

Treebank e valutazione

(3)

La comunità della LC opera pertanto nella direzione di rendere confrontabili i

risultati dei sistemi che svolgono lo stesso task.

Questo significa ad esempio che si cerca di costruire risorse in cui si utilizza lo stesso formato di rappresentazione (standard).

Treebank e valutazione

(4)

Per molti anni lo standard di riferimento per il formato dei treebank era il formato del

Penn Treebank.

Ben presto però sono emersi i limiti di questo formato soprattutto nella

rappresentazione di lingue con ordine delle parole più libero dell’inglese.

Treebank e standard

(5)

Soprattutto pensando alle lingue con ordine delle parole più libero dell’inglese si sono sviluppati i formati a dipendenze sulla base del formato del Prague Dependency

Treebank.

Il panorama dei treebank è molto variegato:

per alcune lingue esistono più di un treebank in formati diversi, per altre nessuno.

Treebank e standard

(6)

La nozione di standard è quindi

particolarmente rilevante per i treebank e ha portato alla definizione di un formato universale detto Universal Dependency.

Questo processo è durato vari anni e ha comportato vari passi all’interno delle

varie comunità che operano sulle singole lingue.

Treebank e standard

(7)

Per la lingua italiana ad esempio sono stati creati, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntactic Semantic Treebank (presso l’Istituto di Linguistica

Computazionale CNR di Pisa).

La differenza tra i due formati ha creato problemi di compatibilità tra sistemi e risultati.

Treebank e standard

(8)

Universal Dependency

(9)

L’idea è di costruire risorse per tutte le lingue che utilizzano tutte lo stesso formato e

sistemi che analizzano i dati di tutte le lingue.

Tutta la rappresentazione si fonda sul

principio che le teste delle relazioni sono le parole di contenuto, quelle che portano un maggiore contributo semantico.

Universal Dependency

(10)

Nella LC la distinzione tra parole di contenuto (content word) e altre è cruciale in vari

task.

Le preposizioni e gli articoli sono considerati in UD come semplici accessori delle parole di contenuto attorno a cui tutte le

strutture sintattiche si concretizzano.

Universal Dependency

(11)

Rispetto ad altri formati, UD è meno

dettagliato e le sue relazioni in numero inferiore.

Questa “sottospecificazione” consente di convertire con maggiore facilità altri

formati in UD e di semplificare il parsing, anche se provoca anche una perdita di informazioni.

Universal Dependency

(12)

Questo formato soddisfa l’interesse per

confronti multilingui e rende possibile sia campagne di valutazione multilingui sia l’apprendimento cross-linguistco a

supporto della LC per lingue per cui non esistono risorse.

http://universaldependencies.org/

Universal Dependency

(13)

L’esistenza di UD ha creato le premesse per la fusione di un unico grande treebank per la lingua italiana.

I due treebank precedentemente sviluppati sono stati prima convertiti in un formato comune e poi in formato UD.

Più recentemente anche ParTUT è entrato a fare parte di UD.

Universal Dependency e TUT

(14)

La release attuale, 2.0 , rilasciata il primo marzo 2017 contiene 70 treebank che rappresentano 50 diverse lingue.

Universal Dependency

(15)

UDpipe è l’analizzatore morfo-sintattico che è stato costruito per il progetto.

Nella versione demo online si può facilmente vedere quale output produce,

addestrandolo sulla risorsa italiana o quella per altre lingue.

https://ufal.mff.cuni.cz/udpipe#online_demo

Universal Dependency

Riferimenti

Documenti correlati

Le proteine che sono presenti nelle cellule tumorali, ma non in quelle normali, o che sono più abbondanti nelle cellule tumorali, potrebbero rappresentare potenziali

Un cluster di nodi Spark viene implementato tramite il modello master-slaves; il nodo master ` e quello che gestisce l’allocazione delle risorse del cluster, che tiene traccia

We have now finally reached some conclusion regarding the “why” of sexual difference and the two questions we posed: the power of generation is divided precisely so that it can

Le scansioni ottenute dallo SHFM, per poter evidenziare le caratteristiche della superficie e delle strutture periodiche su di essa presenti (LIPSS), sono state elaborate via

La checklist ha come scopo il resoconto dei problemi comportamentali osservati dal caregiver principale, ovvero da parte di chi si fa carico della persona per piú la maggior parte

Il sistema di misurazione, però, non è solo influenzato ma influenza anche gli elementi: nel momento in cui si affermano le scelte strategiche, direzionali e

This timing solution is based on data from the individual telescope participating in the LEAP project (Effelsberg, Jodrell Bank, Nanc¸ay and WSRT) and obtained over a 17.7 yr long

Combined with previous measurements, these observations reveal that the Local Arm is larger than previously thought, and both its pitch angle and star formation rate are comparable