• Non ci sono risultati.

Lo schema di annotazione

2.2 Il sistema di acquisizione LexIt

3.1.1 Lo schema di annotazione

Al ne di realizzare uno schema di annotazione abbastanza versatile per essere utilizzato nello sviluppo di applicazioni multilingua, i principi di design sono stati modellati a partire da standard de facto nell'annotazione. In UD, ciascuna frase è segmentata in parole (token) che sono descritte in termini delle loro proprietà morfologiche (part-of speech e features morfologiche) e hanno tra loro delle relazioni di dipendenza

Tokenizzazione

L'annotazione è basata su una visione lessicalizzata della sintassi (de Marnee et al., 2014), per cui le uniche relazioni etichettate sono quelle tra parole. Le caratteristiche

2http://universaldependencies.org/conll17/(consultatoil28/03/2018)

morfologiche delle parole sono codicate come proprietà delle parole e non viene eseguita una segmentazione in morfemi. Tuttavia, la segmentazioe avviene tra parole sintattiche, prescindendo dalla loro forma fonologica e/o ortograca. Di conseguenza, la parola unica dammelo in italiano viene scomposta nel verbo (dammi) e nei due clitici (mi = a me, lo). Viceversa, i casi in cui più parole ortograche si comportano come un'unica uni- tà sintattica (le cosiddette espressioni polirematiche o multitoken words) vengono sempre rappresentate come unità distinte ma che sono raggruppate utilizzando speciche relazioni di dipendenza. Ovviamente la natura della segmentazione dipende dalle proprietà speci- che di ciascuna lingua e dal sistema di scrittura, per cui i principi della tokenizzazione devono essere ben documentati dalle comunità di progettisti delle diverse lingue.

Schema morfologico

Per dare una rappresentazione morfologica che fosse applicata trasversalmente a tutte le lingue, lo schema delle UD specica i tratti morfologici ricorrendo a tre distinti livelli di rappresentazione:

1. un lemma che rappresenta il contenuto semantico del token;

2. un tag relativo alla parte del discorso (part-of-speech tag) che indica la categoria astratta associata al token;

3. un insieme di tratti (feature) che rappresentano le proprietà lessicali e grammaticali associate al token.

I lemmi sono determinati da lessici e dizionari specici per ogni lingua. Viceversa, i tag relativi alle parti del discorso sono ssati a 17 per ogni lingua (Tabella 3.1), sebbene sia possibile che alcuni tag non siano inclusi nel repertorio di etichette ammissibili in alcune lingue. Non è possibile includere tag specici per una data lingua, tuttavia si possono dare informazioni morfosintattiche aggiuntive ricorrendo alle features. Ogni feature ha la forma Nome=Valore ed è possibile aggiungere più feature separandole con una barra verticale. Le UD presentano 21 tratti universali (Tabella 3.2), ma è possibile specicare ulteriori feature speciche per una data lingua.

Schema sintattico

A livello sintattico, è necessaria una annotazione capace di massimizzare il parallelismo tra lingue, anché la stessa relazione grammaticale venga annotata nello stesso modo per lingue diverse, riuscendo però a garantire che le peculiarità di ciascuna struttura linguistica siano chiare e distinte (Nivre, 2015). Il risultato è una rappresentazione che

Classe aperta di parole Classe chiusa di parole Altro

ADJ aggettivo ADP apposizione PUNCT punteggiatura

ADV avverbio AUX ausiliare SYM simbolo

INTJ interiezione CCONJ cong. coordinate X altro

NOUN nome DET determinante

PROPN nome proprio NUM numerale

VERB verbo PART particella

PRON pronome

SCONJ cong. subordinante

Tabella 3.1: 17 tag delle Parti del Discorso in UD v2.

Feature lessicali Feature essive Nominali Verbali

PronType Gender VerbForm

NumType Animacy Mood

Poss Number Tense

Reex Case Aspect

Foreign Denite Voice

Abbr Degree Evident

Polarity Person Polite

Tabella 3.2: Le 21 feature universali in UD v2.

si orienta verso un'analisi sintattica superciale focalizzata in primis alla codica della struttura argomento-predicato.

La scelta degli sviluppatori di UD è ricaduta sulla rappresentazione sintattica a di- pendenze, in cui la frase è descritta in termini di relazioni binarie di dipendenza come soggetto, oggetto ecc. tra parole (a dierenza di una rappresentazione a costituenti, basa- ta sull'identicazione di costituenti sintattici quali sintagmi nominali, verbali ecc. e delle loro relazioni di incassamento gerarchico). Un principio fondamentale è che le relazioni di dipendenza avvengono tra parole piene invece di ricorrere tra parole funzionali, le quali invece dipendono dalla parola piena che modicano.

La versione 2 di UD ri-struttura le originarie relazioni sintattiche4 in 37 diverse dipen-

denze, classicate sulla base dell'opposizione core-oblique, che potremmo sommariamente denire come la distinzione tra le dipendenze essenziali (core), che si trovano nel nucleo della frase, e quelle oblique e quindi accessorie. In Thompson (1997), si aerma che ta- le prospettiva è preferibile alla tradizionale classicazione argomento-aggiunto, in quanto non tutte le lingue manifestano la stessa distinzione strutturale o categoriale. Come sugge- rito dalla linguistica funzionale, un aspetto fondamentale per comprendere come funziona

il linguaggio si basa sul riconoscimento che almeno alcune distinzioni chiave non sono discrete, e che alcune correlazioni importanti tra forma e funzione sono probabilistiche. Sebbene quindi non si possa denire una lista nita di criteri universali per distinguere tra argomenti core e obliqui, ci possiamo aspettare di rilevare tendenze contrastanti tra i pat- tern che ricorrono all'interno di una specica lingua. La letteratura riportata in tipologica generalmente riconosce il ruolo rilevante di tale distinzione in prospettiva interlinguistica rispetto la distinzione argomento-aggiunto.

Per quanto riguarda gli argomenti core, la letteratura tipologico-funzionalista ha varia- mente descritto le caratteristiche prototipiche degli argomenti nominali dei verbi transitivi e intransitivi, i cosiddetti primitivi sintattico-semantici (Dixon, 1979, 1994), ovvero il sin- golo argomento del verbo intransitivo, l'agente del verbo transitivo e il paziente del verbo transitivo (rispettivamente S, A, O o P per Comrie (1978)). In generale, ogni lingua ha il suo sistema per codicare questi gli argomenti, utilizzando per esempio la marca del caso (nominativo-accusativo o ergativo-assoluto), l'accordo con il verbo, la posizione lineare all'interno della frase (spesso relativamente alla posizione del verbo). Tali sintag- mi possono inoltre partecipare a fenomeni di promozione o di cambiamento di relazione, ovvero trasformazioni grammaticali quali l'alternanza attivo/passivo o il fenomeno del dative shift5.

Di conseguenza, tutti i restanti sintagmi dipendenti da un verbo sono etichettati come obliqui, un concetto vago caratterizzato in maniera diversa rispetto a ciascuna lingua. In inglese, per esempio, i sintagmi nominali core (soggetto e oggetto) non sono marca- ti, mentre gli argomenti obliqui sono tipicamente marcati da una preposizione. Questa aermazione è da intendersi come una generalizzazione piuttosto che una regola ferrea, ma che permette di delineare una correlazione tra preposizione e lo status di elemento obliquo. In altre lingue, invece, gli obliqui possono essere caratterizzati dal fatto di essere declinati in casi non prototipici dei core (i cosiddetti casi obliqui), sebbene anche questa aermazione meriti una discussione specica da lingua a lingua, in quanto alcuni casi come dativo, partitivo e (meno comunemente) genitivo sono obliqui per alcune lingue ma non per altre6. I criteri per distinguere queste due macro-categorie non possono essere

di natura interlinguistica, in quanto non tutti gli obliqui di tutte le lingue condividono le stesse proprietà linguistiche. In giapponese, per esempio, le stesse particelle e assi per marcare i casi si possono osservare sia all'interno di argomenti core e che di obliqui. Per un'analisi completa della distinzione core-oblique, si rimanda a Andrews (2007).

Questa premessa teorica vuole quindi aermare che non esiste un insieme di criteri

5Nello specico, l'argomento Recipient può apparire sia come un sintagma nominale core (marcato

nello stesso modo del ruolo semantico del Paziente), o come un argomento obliquo (marcato nello stesso modo del ruolo semantico Goal).

6Da notare che ciascuna lingua usa per il sistema dei casi una tipologia dierente: per esempio, quello

Nominali Frasi Modicatori Parole funzionali

Argomenti nsub csubj

core obj ccomp

iobj xcomp

Dipendenti obl advcl advmod aux

non-core vocative discourse cop

expl mark

dislocated

Dipendenti nmod acl amod det

nominali appos clf

nummod

Coordinazione MWE Libere Speciali Altro

conj xed list orphan punct

cc at parataxis goeswith root

compound reparandum dep

Tabella 3.3: Le 37 relazioni sintattiche usate in UD v2.

interlinguistici universalmente validi per distinguere argomenti core da obliqui. Tutta- via, all'atto pratico, alcuni criteri riportati nelle linee guida delle UD possono risultare particolarmente utili nell'annotazione di diverse lingue:

• i verbi generalmente si accordano con gli argomenti core;

• gli argomenti obliqui spesso (se non sempre) sono marcati con una adposizione mentre gli argomenti core sono sintagmi nominali;

• alcuni casi, tradizionalmente chiamati nominativo, accusativo e assolutivo, tipica- mente marcano argomenti core;

• gli argomenti core occupano una posizione privilegiata all'interno della frase (spesso adiacente al verbo) in molte lingue;

• fenomeni sintattici quali essere il controllore di una subordinata o il target della relativizzazione sono limitati agli argomenti core in alcune lingue.

Il formato CoNLL

Le treebank delle UD sono annotate utilizzando una versione rivista del formato CoNLL- X (Buchholz and Marsi, 2006), chiamato CoNLL-U, e salvate in le in formato plain text con codica dei caratteri UTF-8, in modo da non dover cambiare codica da una lingua a un'altra. Ogni frase è rappresentata da tante righe separate tra loro da una linea

parola della frase originaria. Ogni linea contiene i seguenti campi (separati da una singola tabulazione):

1. ID: indice della parola all'interno della frase (la numerazione inizia da 1) 2. FORM: la forma della parola o simbolo di punteggiatura (token)

3. LEMMA: il lemma o la radice della parola 4. UPOS: Universal part-of-speech tag.

5. XPOS: part-of-speech tag specico per la lingua (se disponibile) 6. FEATS: lista delle eventuali feature morfologiche

7. HEAD: testa del token (il valore di un ID o zero se non dipende da altri elementi linguistici nella frase)

8. DEPREL: relazione di dipendenza del token rispetto alla sua testa HEAD (se HEAD = 0, si usa l'etichetta root)

9. DEPS: eventuali altre dipendenze (enhanced dependency graph) nella forma di una lista di coppie head-deprel

10. MISC: qualsiasi altra annotazione.

Documenti correlati