• Non ci sono risultati.

UDLex: un lessico multilingue della struttura argomentale

N/A
N/A
Protected

Academic year: 2021

Condividi "UDLex: un lessico multilingue della struttura argomentale"

Copied!
112
0
0

Testo completo

(1)

UNIVERSIT `

A DI PISA

DIPARTIMENTO DI DIPARTIMENTO DI DIPARTIMENTO DI FILOLOGIA, LETTERATURA E LINGUISTICA

Corso di Laurea Magistrale in Informatica Umanistica

Tesi di laurea magistrale

UDLex

Un lessico multilingue della struttura argomentale

Candidato:

Giulia Rambelli

Matricola 495544

Relatore:

(2)

Indice

Introduzione 1

1 La struttura argomentale 4

1.1 Valenza verbale . . . 5

1.2 Ruoli semantici . . . 7

1.3 Alternanze argomentali e classi verbali . . . 9

1.4 Struttura argomentale e universali linguistici . . . 11

1.4.1 Tipologia e universali linguistici . . . 12

1.4.2 Universalità delle classi di valenza . . . 13

1.4.3 Il database ValPal . . . 18

2 La caratterizzazione automatica della struttura argomentale 21 2.1 Stato dell'arte sui sistemi di acquisizione automatica del comportamento verbale . . . 21

2.1.1 Identicazione dei quadri di sottocategorizzazione . . . 21

2.1.2 Identicazione delle preferenze di selezione . . . 24

2.1.3 Identicazione delle alternanze argomentali e classicazione auto-matica dei verbi . . . 26

2.2 Il sistema di acquisizione LexIt . . . 27

2.2.1 Estrattore di dipendenze . . . 31

2.2.2 Identicatore dei QdS e dei ller . . . 33

2.2.3 Costruttore dei Proli (semantici) . . . 35

2.2.4 I database LexIt e LexFr . . . 36

3 Sviluppo di un sistema di acquisizione automatica multilingue: UDLex 38 3.1 Universal Dependencies . . . 38

3.1.1 Lo schema di annotazione . . . 39

3.2 Da LexIt a UDLex: adattamento alle UD . . . 44

3.2.1 Fenomeni linguistici . . . 45

(3)

3.3.1 Le treebank . . . 50

3.3.2 Analisi e valutazione dei proli estratti . . . 52

3.3.3 Prospettiva interlinguistica . . . 56

4 Verso un database multilingue 59 4.1 Inquadramento teorico del problema . . . 59

4.2 Fase sperimentale . . . 62

4.2.1 Metodologia . . . 64

4.2.2 Analisi dei risultati . . . 67

4.2.3 Direzioni future . . . 73

5 Conclusioni 77

A Verbi test dal capitolo 3.3 79

B Risultati capitolo 4 81

(4)

Elenco delle gure

1.1 Struttura generale della frase. . . 6

1.2 Gerarchia della transitività bi-dimensionale (Malchukov, 2005, 2013). . . . 16

1.3 Mappa semantica per verbi transitivi (Comrie et al., 2015, p. 8). . . 17

1.4 Mappa semantica per verbi ditransitivi (Comrie et al., 2015, p. 9). . . 18

1.5 Entrata del coding frame di abbracciare in ValPaL. . . 20

1.6 Entrate delle alternanze argomentali del verbo abbracciare in ValPaL. . . . 20

2.1 Annotazione realizzata dalla catena di annotazione Tanl. . . 32

2.2 Diagramma di usso del primo modulo LexIt. . . 33

2.3 Diagramma di usso del secondo modulo LexIt. . . 34

2.4 Diagramma di usso del terzo modulo LexIt. . . 37

3.1 Esempio di double object construction tratto dalla treebank UD dell'inglese. 45 3.2 Esempio della costruzione del si passivante tratto dalla treebank dell'italiano. 47 3.3 Esempio della costruzione impersonale con il pronome si tratto dalla tree-bank dell'italiano. . . 47

3.4 Esempio di frase con verbo pronominale tratto dalla treebank dell'italiano. 47 3.5 Esempio di frase di forma passiva tratto dalla treebank UD dell'italiano. . 49

3.6 Esempio di frase con una subodinata relativa tratto dalla treebank UD dell'italiano. . . 50

(5)

Elenco delle tabelle

1.1 Lista dei ruoli tematici riportata da Carnie (2013, p. 240) . . . 8

2.1 Slot sintattici delle varie parti del discorso in LexIt (Lenci et al., 2012). . . 28

3.1 17 tag delle Parti del Discorso in UD v2. . . 41

3.2 Le 21 feature universali in UD v2. . . 41

3.3 Le 37 relazioni sintattiche usate in UD v2. . . 43

3.4 Informazioni statistiche sulle Treebank utilizzate per realizzare il database UDLex. . . 52

3.5 Slot sintattici in UDLex. . . 52

3.6 Proli sintattici dei verbi to play, jouer e giocare. . . 53

3.7 Proli semantici rispetto all'oggetto diretto obj di to play, giocare e jouer. 54 3.8 I risultati più alti ottenuti con soglie di frequenza MLE (Rambelli et al., 2017). . . 55

4.1 I verbi test in inglese con le loro frequenze e i termini più simili in inglese e in francese calcolati rispetto allo spazio distribuzionale multilingua. . . . 67

4.2 Risultati dell'allineamento tra inglese e italiano per il verbo to eat. . . 69

4.3 Risultati dell'allineamento tra inglese e francese per il verbo to eat. . . 69

4.4 Risultati dell'allineamento tra inglese e italiano per il verbo to play. . . 71

4.5 Risultati dell'allineamento tra inglese e francese per il verbo to play. . . 71

4.6 Risultati dell'allineamento tra inglese e italiano per il verbo to create. . . . 72

4.7 Risultati dell'allineamento tra inglese e francese per il verbo to create. . . . 73

A.1 Verbi test per l'italiano . . . 79

A.2 Verbi test per l'inglese . . . 80

A.3 Verbi test per il francese . . . 80

B.1 Risultati dell'allineamento tra inglese e italiano per il verbo to buy. . . 81

B.2 Risultati dell'allineamento tra inglese e francese per il verbo to buy. . . 82

B.3 Risultati dell'allineamento tra inglese e italiano per il verbo to give. . . 82

(6)

B.5 Risultati dell'allineamento tra inglese e italiano per il verbo to hold. . . 86

B.6 Risultati dell'allineamento tra inglese e francese per il verbo to hold. . . 86

B.7 Risultati dell'allineamento tra inglese e italiano per il verbo to read. . . 87

B.8 Risultati dell'allineamento tra inglese e francese per il verbo to read. . . 87

B.9 Risultati dell'allineamento tra inglese e italiano per il verbo to say. . . 88

B.10 Risultati dell'allineamento tra inglese e francese per il verbo to say. . . 88

B.11 Risultati dell'allineamento tra inglese e italiano per il verbo to show. . . 89

B.12 Risultati dell'allineamento tra inglese e francese per il verbo to show. . . . 89

B.13 Risultati dell'allineamento tra inglese e italiano per il verbo to tell. . . 90

B.14 Risultati dell'allineamento tra inglese e francese per il verbo to tell. . . 91

B.15 Risultati dell'allineamento tra inglese e italiano per il verbo to write. . . 91

(7)

Introduzione

I verbi svolgono un ruolo fondamentale nel linguaggio naturale, dal momento che sono i predicati fondamentali della frase, con tutti i loro costituenti espressi nei termini della loro struttura argomentale. I verbi rappresentano eventi, e in quanto tali selezionano degli attori che partecipano all'evento. Tali partecipanti vengono secondo specici meccanismi proiettati a livello sintattico in relazioni grammaticali come soggetto o oggetto. Questa è la struttura argomentale, nel suo interfacciarsi tra sintassi e semantica, con complessità strutturali che richiedono un'analisi dei meccanismi che vi soggiacciono. In linguistica computazionale, numerosi sono stati i lavori che si sono occupati di estrazione automatica delle proprietà sintattiche e semantiche dei verbi al ne di realizzare risorse lessicali per diverse lingue. Tuttavia, questi lavori hanno portato avanti approcci dipendenti dalle specicità della propria lingua, sviluppando sistemi computazionali e rappresentazioni dicilmente integrabili o generalizzabili con le altre lingue, persino quelle tipologicamente ani.

In questi ultimi anni, una crescente attenzione è stata però rivolta allo sviluppo di ap-plicazioni multilingue: studi nell'ambito di sistemi di parsing per lingue morfologicamente ricche hanno evidenziato un'importante interazione tra tipologia e tecnologie di parsing, e studi sull'apprendimento interlinguistico dimostrano che l'informazione tipologica può essere sfruttata per migliorare l'apprendimento di strutture sintattiche all'interno di mo-delli computazionali di apprendimento linguistico. e adattarlo tra le lingue. Studiare le proprietà della struttura argomentale dei verbi sotto un prolo tipologico ore la pos-sibilità di acquisire una nuova prospettiva nello studio del comportamento verbale, più ampia, che si interroga sulle variazioni linguistiche al ne di ricercare costruzioni uni-versalmente ricorrenti, verso un processo di comprensione delle strutture e della natura stessa del linguaggio. In quest'ottica, ricondurre l'identicazione di categorie linguistiche descrittive dei fenomeni intra-linguistici alla scoperta di concetti applicabili in tutte le lingue equivale a passare dall'ambito della tipologia, disciplina che analizza le dierenze tra le lingue ripartendole secondo tipi linguistici, alla ricerca degli universali linguistici, la quale si muove verso la ricerca di proprietà che sono comuni a tutte le lingue (Comrie, 1989).

(8)

computazionali multilingue che siano in grado di estrarre informazioni sulla struttura argomentale, per permettere uno studio interlinguistico degli universali e delle varianti rispetto alle proprietà combinatorie dei verbi nelle diverse lingue. In particolare, un aspetto che riteniamo rilevante studiare è come i verbi realizzano sintatticamente i loro argomenti. È stato ampiamente studiato che verbi semanticamente simili possono infatti avere valenze diverse (to wait for vs to expect). Che questo fenomeno si riproponga tra le lingue è meno studiato, nonostante studi tipologico-comparativi abbiano discusso casi come quelli riportati in (1), in cui i verbi to miss, mancare e manquer, sebbene rimandino ad uno stesso senso, si realizzano a livello morfosintattico in modo dierente. A maggior ragione questo fenomeno si osserva tra lingue tipologicamente distanti, come viene riportato in (2).

(1) a. Inglese: I1 miss you2.

b. Francese: Vous2 me1 manquez. (Tesnière, 1959, p 288)

c. Italiano: Voi2 mi1 mancate.

(2) a. Inglese: She1 lled the container2 with water3.

b. Chintang (ling. tibeto-birmana):

Husa-­a1 cuwa-Ø3 gagri-be2 phatt-e

lei-ERG acqua-NOM contenitore-LOC riempire-PST (Lei ha riempito l'acqua nel contenitore) (Bickel et al., 2010, p. 387)

Tuttavia, cercare di comprendere il disallineamento delle valenze di due verbi non è semplice, ed anzi è alla base di un qualsiasi studio dedicato alla classicazione dei verbi sulla base del loro comportamento sintattico, ovvero la loro possibilità di partecipare o meno a un'alternanza argomentale (Levin, 1993). Lo studio della struttura argomentale in prospettiva tipologica fa sorgere domande su quanto le classi verbali tradizionali siano speciche di una lingua e se esse possano in qualche modo essere generalizzate per tutte le lingue.

Realizzare un lessico multilingue della struttura argomentale potrebbe in quest'ottica supportare lo studio contrastivo dei pattern sintattici che realizzano verbi semanticamente simili in lingue dierenti. Tale procedimento presuppone tuttavia 1) un sistema di estra-zione automatica delle proprietà combinatorie dei verbi per qualsiasi lingua, 2) una scelta rappresentativa che sia interlinguisticamente valida e coerente 3) un metodo per allineare strutture argomentali per verbi che in due lingue distinte esprimono lo stesso signicato.

Di seguito presentiamo come si articola la tesi.

Capitolo 1 Presenta il background teorico riguardante la struttura argomentale. Al suo interno, viene discusso il concetto di struttura argomentale come interfaccia tra la

(9)

semantica verbale e la realizzazione sintattica che questa può assumere, e come questa sia stata centrale nell'elaborazione di una classicazione verbale. Muovendo dal fenomeno linguistico generale, la seconda parte del capitolo si soerma a presentare le riessioni precedenti inquadrandole in una prospettiva tipologica. Nello specico, la domanda che ci poniamo è una: possiamo individuare principi universali riguardanti la classicazione verbale date le osservazioni interlinguistiche?

Capitolo 2 Delinea come sia stata studiata la struttura argomentale in linguistica computazionale e all'interno delle ricerche legate al Trattamento Automatico del Linguag-gio (TAL). Viene proposta una rassegna di tecniche di acquisizione automatica di alcuni aspetti della struttura argomentale, come i quadri di sottocategorizzazione o le preferenze di selezione, e i problemi che devono essere arontati per realizzare risorse computazio-nali. Dopo questa rapida analisi dello stato dell'arte, si descrive in dettaglio il sistema computazionale LexIt, un framework realizzato per estrarre automaticamente i quadri di sottocategorizzazione dei predicati e descriverne le proprietà combinatorie sintattiche e semantiche su base completamente distribuzionale.

Capitolo 3 Descrive il cuore del lavoro di questo progetto, ovvero la realizzazione di un sistema di acquisizione che sia in grado di essere applicato a più lingue. Per realiz-zare questo obiettivo è stato scelto di reimplementare il sistema LexIt utilizzando come dati i input le treebank annotate con lo schema delle Universal Dependencies. Dopo una discussione sulle caratteristiche di questo schema di annotazione e come sono state imple-mentate regole di estrazione di dipendenza, si presentano i database ottenuti per italiano, inglese e francese.

Capitolo 4 Presenta i primi risultati verso la realizzazione di un database multilin-gue della struttura argomentale. L'obiettivo dell'esperimento è realizzare un algoritmo che a partire dei dati nei lessici di UDLex identichi costruzioni che hanno lo stesso signicato in due lingue distinte, utilizzando un approccio basato sulla semantica distribuzionale e le preferenze di selezione. Il capitolo si soerma ad analizzare le dicoltà implementa-tive incontrate nella realizzazione della mappatura interlinguistica e gli sottolinea le fasi successive da portare avanti per realizzare il database multilingue nale.

(10)

Capitolo 1

La struttura argomentale

Argument structure is an interface between the semantics and syntax of predicators [...]. Its function is to link lexical semantics to syntactic structu-res. (Bresnan, 1995, p. 1)

Questo capitolo introduce il background teorico della struttura argomentale, un fe-nomeno centrale nello studio del comportamento linguistico dei verbi. L'interesse che questa costruzione esercita non solo in linguistica teorica, ma anche in psicolinguistica1,

risiede in particolar modo nel fatto che in essa convivono due anime, una sintattica e una semantica, con proprietà e peculiarità che si inuenzano e si determinano l'un l'altra. Il complesso rapporto che si viene a creare è alla base dell'intero nucleo frasale, e spiegare i meccanismi attraverso cui i tratti del signicato verbale si interfacciano ai componenti morfo-sintattici in cui si concretizzano è stato al centro di un ampio dibattito che prende nomi diversi (linking problem, argument mapping, argument selection o argument reali-zation). Tali studi si basano sull'assunto che esista una netta distinzione tra le diverse componenti della grammatica (livello fonologico, sintattico, semantico..) tutte con prin-cipi e strutture a se stanti. In questo senso, la struttura argomentale si presenta come l'interfaccia fondamentale tra la sintassi e la semantica dei verbi2(Chomsky, 1965; Carnie,

2013).

Nelle pagine seguenti presentiamo le caratteristiche peculiari della struttura argomen-tale nelle sue componenti sintattiche e semantiche, introducendo gli studi più salienti e inquadrando tale fenomeno linguistico all'interno di una prospettiva interlinguistica (Ha-spelmath and Hartmann, 2015). Alla ne del capitolo, si esplicita il rapporto tra tipologia linguistica e studio degli universali linguistici (sezione 1.4.1), per poi inserire all'interno di questo contesto le domande circa l'universalità della classicazione verbale (sezione 1.4.2)

1La corrispondenza tra comportamento sintattico e semantica degli argomenti verbale è centrale nello

studio dei meccanismi che rendono possibile l'acquisizione del linguaggio (Bowerman and Brown, 2008).

2Per i ni del progetto, restringiamo l'argomento della discussione allo specico comportamento

ver-bale; tuttavia, considerazioni simili possono essere riferite ad altri elementi predicativi, quali aggettivi e nomi deverbali.

(11)

e come questa ricerca sia portata avanti dal progetto Leipzig Valency Classes (sezione 1.4.3).

1.1 Valenza verbale

Il primo a introdurre il concetto di valenza verbale è stato Tesnière (1959). Nel suo celebre Elements de syntaxe structurale, paragona il comportamento verbale a quello di un atomo che può formare legami con altri atomi:

Si può allora paragonare il verbo a una specie di atomo munito di uncini, che può esercitare la sua attrazione su un numero più o meno elevato di attan-ti, a seconda che esso possieda un numero più o meno elevato di uncini per mantenerli nella sua dipendenza. Il numero di uncini che un verbo presenta, e di conseguenza il numero di attanti che esso può reggere, costituisce ciò che chiameremo la valenza del verbo.

Ricorrendo a tale metafora, Tesnière vuole sottolineare una peculiarità specica di cia-scun verbo, ovvero quella di richiedere all'interno della frase la presenza di un determinato numero e tipo di elementi sintattici al ne di completare il proprio signicato. Nel tempo le tradizioni linguistiche hanno introdotto terminologie alternative quali complementation (Quirk et al., 1985), (quadri di) sottocategorizzazione (Chomsky, 1965) o struttura argo-mentale (Goldberg, 1995)3, tutte atte a indicare l'insieme di proprietà sintattiche degli

elementi all'interno della frase che dipendono da un particolare verbo, detti argomenti verbali. L'essenzialità degli argomenti è comprovata dal fatto che l'omissione anche solo di uno degli elementi deniti dalla valenza comporta l'agrammaticalità dell'intera frase.

Le frasi in (3) sono esemplicative di quanto appena aermato. In generale, il verbo italiano mettere seleziona tre argomenti (e per questo si denisce verbo trivalente o tri-argomentale), come vediamo nella frase (3) a.. Gli argomenti sono realizzati dal punto di vista sintattico da due sintagmi nominali, il primo con funzione di soggetto per specicare chi esegue l'azione di mettere, e il secondo con funzione di oggetto diretto stante per ciò che viene messo; il terzo argomento è invece un complemento di luogo rappresentato dal sintagma preposizionale e indica dove viene messo l'oggetto diretto. L'omissione di anche una sola di queste valenze comporta inevitabilmente l'agrammaticalità dell'intera frase, in quanto mancherebbe una porzione di informazione fondamentale per ricostruire il signicato completo dell'azione espressa dal verbo. Nel caso specico, la frase (3) b. risulterebbe inaccettabile per qualsiasi parlante italiano in quanto manca l'informazione riguardante il luogo in cui viene messo l'oggetto.

(12)

(3) a. [N PAlice] ha messo [N Pil quaderno] [P Pnello zaino].

b. *Alice ha messo il quaderno.

All'interno di una frase, tutti gli elementi linguistici che non appartengono alla strut-tura argomentale si caratterizzano per essere del tutto indipendenti dal verbo (e di con-seguenza facoltativi), e rimandano solitamente a locuzioni avverbiali di tempo, luogo, maniera. Tali elementi prendono in letteratura il nome di aggiunti, circostanziali (Te-snière, 1959) o modicatori (Vater, 1978)). Riprendendo l'esempio precedente, possiamo specicare quando o dove avviene l'azione espressa dal verbo attraverso gli opportuni sintagmi, tuttavia la loro omissione non compromette la grammaticalità della frase:

(d) [AdvPIeri] [P Pa scuola] Alice ha messo il quaderno nello zaino.

Tesnière (1959) descrive la dierenza sostanziale di questi due tipi di elementi sintattici ricorrendo alla famosa metafora del palcoscenico: all'interno del dramma messo in scena dal verbo, gli argomenti sono gli attori che realmente sono indispensabili al compimento dell'azione, mentre gli aggiunti sono gli oggetti di scena. In generale, è possibile deni-re argomenti tutti quei complementi che sono obbligatori, ovvero che sono necessari per rendere accettabile una frase, mentre gli aggiunti sono opzionali e possono essere omessi (Grimshaw and Vikner, 1993). Questa distinzione può essere riformulata sulla base di un criterio semantico, identicando gli argomenti come i sintagmi che completano il signi-cato della testa verbale, e gli aggiunti come quelli che la modicano (Dowty, 2003). Di conseguenza, la struttura frasale si articola in un nucleo, che comprende il predicato e gli argomenti, e in una periferia, costituita dagli aggiunti.

[argomenti + predicato]

| {z }

nucleo

(aggiunti)

Figura 1.1: Struttura generale della frase.

Un'ampia letteratura si è occupata di descrivere la dicotomia tra queste due macro-categorie distinte di elementi non predicativi della frase, ricorrendo a possibili test ed euristiche per discernere i casi più ambigui (per una rassegna degli studi su questo fe-nomeno, si rimanda a Vater (1978); Schütze (1995)). Tutti questi approcci si basano su criteri intralinguistici, ovvero basati sulle proprietà di una specica lingua: se quindi provvedono a denire delle categorie descrittive molto accurate in alcune lingue, lasciano aperto il problema di come denire argomenti e aggiunti in termini di categorie linguistiche universali, caratterizzate da proprietà che possano essere riscontrate universalmente.

Cercando di muovere dalle prospettive descrittive delle singole lingue a un approccio comparativo, Haspelmath (2014) propone una denizione di argomento che possa essere

(13)

applicata a qualsiasi lingua: in prospettiva interlinguistica, un sintagma è generalmente riconosciuto come argomento quando è specico per un certo verbo e deve quindi essere appreso singolarmente, mentre gli aggiunti sono indipendenti dai verbi con cui occorrono4.

Data questa denizione, si può applicare il test dell'anafora verbale per identicare un argomento: tale test consiste nell'accostare il sintagma in analisi a una frase coordinata retta da un verbo generico (come il verbo to do in inglese). Come si vede dagli esempi in (5), questo procedimento applicato ad argomenti rende la nuova frase agrammaticale; viceversa, nel caso di un aggiunto la frase che viene a realizzarsi è del tutto lecita.

(5) a. I wrote a letter. Ý *I wrote, and I did a let

b. I wrote with a pen. Ý I wrote, and I did it with a pen.

Nonostante questo tentativo, si è dimostrato che questo test fallisce per almeno una lingua, il Bora (Seifart, 2014). Tale risultato porta Haspelmath a concludere che sebbene tale distinzione sia fondamentale nell'analisi intralinguistica, non sia generalizzabile a categoria universale. Seguendo l'approccio di Haspelmath, Creissels (2014) ha rivolto la sua ricerca allo studio tipologico dei beneciari, dimostrando anch'egli come questi elementi in eetti possano avere uno status ora di argomento, ora di aggiunto a seconda della lingua analizzata. Resta dunque dubbio se la distinzione tra argomento e aggiunto sia tipologicamente utile, dato che è dicile riscontrare delle proprietà comportamentali applicabili universalmente, tant'è che la tipologia linguistica ricorre molto più spesso alla distinzione più generale di argomenti core e obliqui (per maggiori dettagli, si rimanda alla sezione 3.1.1).

1.2 Ruoli semantici

Come abbiamo già accennato nella sezione precedente, gli argomenti di un verbo rappre-sentano gli attori che svolgono un ruolo all'interno della scena messa in atto dal signi-cato verbale. Da un punto di vista semantico, quindi, gli argomenti corrispondono ai partecipanti coinvolti nell'evento evocato dal verbo5.

Prendiamo come esempio il verbo italiano mangiare. L'azione di mangiare comporta la presenza di due partecipanti, ovvero 1) chi mangia e 2) chi viene mangiato. Potremo quindi aermare che il verbo in questione licensa due argomenti semantici, e la struttura semantico-concettuale del verbo in tale prospettiva può essere schematizzata nel modo seguente:

4An argument of a verb is a phrase whose occurrence is made possible by a specic verb, and which

therefore cannot occur with a generic verb. This can be tested by attempting to move a phrase into a neighbouring clause with an anaphoric verb [...]. Adjuncts, by contrast, are not tied to particular verbs and can therefore be moved out into a clause with an anaphoric verb

(14)

MANGIARE (X, Y)

dove X e Y rappresentano i ruoli semantici identicabili con le categorie di eater (chi mangia) e eaten (chi viene mangiato)6. In generale, tuttavia, si preferisce ricorrere

a categorie semantiche più generali per identicare la relazione tra un partecipante e l'evento, i cosiddetti ruoli tematici. Citando (Fillmore, 1968, p. 24-25),

[These roles] comprise a set of universal, presumably innate, concepts which identify certain types of judgments human beings are capable of making about the event that are going on aroud them, judgments about such matters as who did it, who it happened to, and what got changed

La letteratura in merito ha cercato di ricondurre le relazioni semantiche tra verbi e argomenti a una lista nita di ruoli semantici7 applicabili a qualsiasi verbo e in maniera

interlinguistica, come i ruoli di agente, paziente, esperiente ecc (si veda Tabella 1.1). Agent The doer of an action (under some denitions must be capable

of volition).

Experiencer The argument that perceives an event or state.

Theme The element that is perceived, experienced, or undergoing the action or change of state

Goal The end point of a movement.

Recipient A special kind of goal, found with verbs of possession Source The starting point of a movement.

Location The place where an action or state occurs. Instrument A tool with which an action is performed.

Beneciary The entity for whose benet the action is performed.

Tabella 1.1: Lista dei ruoli tematici riportata da Carnie (2013, p. 240)

La rappresentazione semantica del signicato del verbo insieme ai suoi partecipanti è stata trattata da diverse teorie denotandola come struttura logica (e.g. Valin et al. (1997)), struttura lessico-concettuale (e.g. Jackendo (1992)) o valenza semantica. La codica della struttura argomentale può essere predicibile dal suo quadro semantico. Per esempio, in inglese il partecipante con ruolo di agente (e.g. accuser, breaker, thrower) è sempre associato a un sintagma nominale a livello sintattico. Ancora per l'inglese, tra i verbi a due argomenti, un vasto sottogruppo è rappresentato dai verbi transitivi, i cui argomenti semantici sono entrambi espressi da due sintagmi nominali. I verbi tipicamente transitivi hanno un agente e un paziente, ma sono possibili anche altre realizzazioni, dimostrando che il pattern transitivo non è invariabilmente associato a un ruoli tematici

6Seguiamo la convenzione di utilizzare l'inglese come metalinguaggio

7A predetermined set of labels that identify arguments according to the semantic relation they bear

(15)

specici (Liana left the room). Notiamo quindi che se da una parte è possibile identicare delle regolarità tra struttura concettuale e realizzazione sintattica, le lingue presentano non pochi collegamenti impredicibili, idiosincratici8. Sono questi gli aspetti di maggior

interesse nello studio comparativo delle valenze verbali, dal momento che sono proprio questi fenomeni a mostrare la più grande variabilità interlinguistica.

In conclusione, la struttura argomentale dovrà specicare quanti argomenti semantici un verbo licensa, di che tipo e come sono espressi sintatticamente. Da notare che non tutti gli argomenti semantici devono essere obbligatoriamente espressi, in quanto sono già implicati a livello logico-semantico (default arguments, Pustejovsky (1995)). Prendiamo ad esempio due verbi semanticamente ani come mangiare e divorare, entrambi selezio-nanti un agente (chi mangia/divora) e un paziente (cosa viene mangiato/divorato). Nel primo caso (esempio (5)), notiamo che il verbo mangiare ricorre sia in un pattern tran-sitivo sia in uno intrantran-sitivo senza dare luogo ad alcuna agrammaticalità, come invece avviene per il verbo divorare. Da questi esempi si può aermare che l'obbligatorietà degli argomenti sintattici è codicata a livello delle proprietà lessicali idiosincratiche del verbo e non direttamente deducibile dalle proprietà della struttura concettuale9.

(6) a I turisti mangiano la carbonara. b I turisti mangiano.

(7) a I turisti hanno divorato la carbonara. b *I turisti divorano.

1.3 Alternanze argomentali e classi verbali

Un'ulteriore fenomeno che caratterizza la struttura argomentale verbale riguarda la pos-sibilità di un verbo di partecipare a un'alternanza argomentale, ossia la pospos-sibilità per un verbo di realizzare sintatticamente i suoi argomenti in più di un modo. Di conseguenza, i verbi sono associati sistematicamente a diversi quadri di sottocategorizzazione. Le al-ternanze argomentali rappresentano uno dei punti in cui è maggiormente riscontrabile la stretta relazione tra sintassi e semantica lessicale, in quanto è il signicato verbale che governa la sua realizzazione sintattica (McCarthy, 2001).

Di seguito presentiamo alcune alternanze argomentali particolarmente note per la lingua inglese: l'alternanza passiva (8), dativa (9), causativo-incoativa (10) e locativa ((11)).

8Per esempio, il fatto che il verbo look realizza l'argomento TEMA con un sintagma preposizionale

introdotto da at non è predicibile sulla sola base della struttura concettuale (Aone and McKee, 1996).

9Lingue come il giapponese e il coreano sono molto più libere nell'omissione degli argomenti rispetto

(16)

(8) Passive alternation

<1-NOM V 2-ACC > Ý <2- NOM V' (by+1)> a. The bear caught a sh.

b. A sh was caught by the bear. (9) Dative alternation

<1-NOM V 2-ACC to+3> Ý <1-NOM V' 3-ACC 2-ACC > a. She gave the money to her brother.

b. She gave her brother the money. (10) Causative-inchoative alternation

<1-NOM V 2-ACC > Ý <2-NOM V'> a. He opened the door.

b. The door opened. (11) Locative alternation

<1-NOM V 2-ACC LOC3> Ý <1-NOM V 2-ACC with+3> a. Seth loaded hay onto the truck.

b. Seth loaded the truck with hay.

Uno degli assunti largamente riconosciuti nello studio della struttura argomentale è che i verbi che condividono tratti semantici simili possono essere raggruppati sulla base delle realizzazioni argomentali con cui regolarmente occorrono. Tale principio è stato introdotto da Fillmore (1968, 1970), il quale suggerisce che il comportamento sintattico del verbo e la struttura semantico-concettuale sono collegate, e sulla base di queste variabili è possibile fornire una classicazione verbale. Per spiegare questo concetto, Fillmore (1970) presenta la famosa distinzione tra i verbi to break e to hit: sebbene entrambi rimandino al senso di colpire, il loro comportamento sintattico è diverso, in quanto solo il verbo to break partecipa all'alternanza incoativa in (12), ma non to hit.

(12) a. He broke the stick. b. The stick broke. (13) a. They hit the ball.

(17)

Da questa osservazione, Fillmore conclude che questi due verbi appartengono a due classi verbali distinte. Una classe verbale è allora da intendersi come un gruppo omogeneo di verbi che condividono tratti semantici e comportamenti sintattici.

Se le teorie di Fillmore aprono la strada a un'ampia letteratura sulla classicazio-ne verbale basata sullo studio delle proprietà della struttura argomentale, il lavoro più largamente rinomato in questo campo è quello di Levin (1993) per l'inglese. L'autrice, partendo dall'assunto che siano alcune componenti semantiche del verbo a permettergli o meno di partecipare a un'alternanza argomentale, propone un inventario di 79 alternanze argomentali, dallo studio delle quali è possibile ricondurre tutti i verbi in 49 classi seman-tiche distinte. Una classe verbale è intesa come un gruppo omogeneo di verbi, denita in termini di componenti del signicato condivise e comportamento sintattico simile.

A verb classes are sets of semantically-related verbs sharing a range of lin-guistic properties, such as the possible realizations of their arguments and the particular interpretation associated with each possible argument realization. (Levin, 2015, p. 1)

Nonostante la ricerca in questo ambito si sia in gran parte concentrata sull'inglese, ci sono evidenze sostanziali in favore dell'idea che questo fenomeno sia coerente tra le lingue (Guerssel et al., 1985; Levin, 2015).

Verb classes are similar in status to natural classes of sounds in phonology, and the elements of meaning which serve to distinguish among the classes of verbs are similar in status to phonology's distinctive features. Furthermore, since these grammatically relevant facets of meaning are viewed as costituting the interface between a full-edged representation of meaning and the syntax, most researchers have assumed that, like the set of distinctive features, the set of such meaning elements is both universal and relatively small in size. (Levin and Hovav, 2005, p. 18)

Studi sistematici intralinguistici sulle classi di valenza (Levin, 1993; Apresjan, 1974) hanno mostrato come le proprietà sintattiche dei verbi riettono la classicazione seman-tica del lessico verbale. Tuttavia resta ancora aperto il dibattito su come questi risultati possano essere estesi da un punto di vista interlinguistico, e in quale misura le classi verbali dipendano dalle proprietà strutturali del linguaggio.

1.4 Struttura argomentale e universali linguistici

(18)

af-interlinguistico possano essere più problematici, tant'è che resta dubbio se tali fenomeni siano proprietà universali del linguaggio o siano invece categorie linguistiche descrittive delle singole lingue. Il questo contesto, lo studio della struttura argomentale si muove da considerazioni di natura tipologica alla ricerca dei cosiddetti universali linguistici.

1.4.1 Tipologia e universali linguistici

Come aerma (Croft, 2002), gli universali linguistici sono quelle proprietà che a un qual-che livello grammaticale sono comuni a tutte le lingue (o a un gran numero di esse), e tali proprietà non vengono smentite in nessuna lingua10. A partire dal lavoro di (Greenberg,

1963), al quale va riconosciuto il merito di essere stato il primo ad aver formalizzato un approccio allo studio degli universali linguistici, la letteratura ha identicato un ampio numero di universali (Comrie, 1989), insieme ad aver sviluppato una terminologia teo-rica condivisibile tra le varie teorie linguistiche, al ne di permettere una più ecace comparazione tra i pattern interlinguistici.

Se un'area della ricerca ricerca gli elementi comuni del linguaggio, un'altra branca si concentra nella classicazione dei tipi strutturali tra le lingue, ovvero la tipologia lingui-stica. In particolare, la tipologia studia i pattern che ricorrono sistematicamente tra le lingue attraverso uno studio comparativo, mirato a 1) osservare un fenomeno linguistico e classicarlo 2) generalizzare tali osservazioni sulla forma di universali linguistici e 3) descriverlo sulla base di un approccio funzionalista-tipologico. Tale approccio deve quindi essere mirato a caratterizzare categorie interlinguistiche coerenti, basate su evidenze em-piriche (pattern distribuzionali). Nei fatti, lo studio interlinguistico deve essere in qualche modo basato su criteri semantici al ne di dare denizioni condivisibili tra le lingue e per permettere la comparazione interlinguistica.

Il problema della comparabilità ha portato in tipologia alla formulazione di una stra-tegia di ricerca standard:

1. Determinare le strutture semantico(-pragmatiche) o tipi di situazioni oggetto dello studio.

2. Esaminare le costruzioni morfosintattiche o le strategie usate per codicare tali situazioni.

3. Cercare delle dipendenze tra le costruzioni e altri fattori linguistici.

Tale soluzione implica una certo grado di relazione tra la forma e la funzione esterna, un punto controverso come abbiamo già visto nel trattare la dierenza tra argomenti e aggiunti (sezione 1.1), categorie centrali nella teoria linguistica, ma con un grado di

10Language universals reect the belief that there exist linguistic properties beyond the essential

(19)

variazione nella loro realizzazione sintattica veramente alto, tant'è che non è possibile ricondurre questi fenomeni a una denizione interlinguistica univoca.

Apparentemente, tipologia e universali linguistici sono due teorie agli antipodi, come riporta Comrie:

At rst sight, the study of language universals and the study of language typology might seem to be opposites, even in conict with one another: lin-guage universals research is concerned with nding those properties that are common to all human languages, whereas in order to typologize languages, i.e. to assign them to dierent types, it is necessary that there should be dieren-ces among languages. The contrast can thus be summed up as one between the study of similarities across languages and the study of dierences among languages. (Comrie, 1989, p. 33)

E tuttavia, è proprio attraverso studi comparativi interlinguistici che è possibile fa-re progfa-ressi verso l'identicazione e la caratterizzazione delle proprietà universali del linguaggio11.

In questa prospettiva, comparare le strutture argomentali di diverse lingue può illu-minarci sugli aspetti universali del comportamento verbale.

1.4.2 Universalità delle classi di valenza

Come abbiamo introdotto nella sezione 1.3, le classi verbali svolgono una parte fondamen-tale nella caratterizzazione del comportamento verbale non solo all'interno di una singola lingua ma anche in prospettiva interlinguistica. Le più recenti ricerche in tipologia si sono di conseguenza focalizzate nella comprensione delle proprietà della struttura argomentale dei verbi, e soprattutto sulla rappresentazione interlinguistica delle dierenti classi di va-lenza. Se tuttavia la letteratura sulle classi verbali è vasta, si è concentrata sull'analisi di poche lingue soprattutto europee (Apresjan, 1974; Levin, 1993), mentre più limitati sono stati studi contrastivi sulle classi verbali. Questo fatto si può comprendere analizzando l'approccio di classicazione descritto da Levin, ad oggi considerato un punto di parten-za fondamentale nello sviluppo di una classicazione verbale. Tuttavia, nel tentativo di estendere tale struttura ad altre lingue, ci si accorge che i criteri sintattici su cui basa il suo metodo non sono sempre semanticamente coerenti, mentre in tipologia i fenomeni, per essere investigati, devono essere deniti sulla base di caratteristiche semantiche condivise al ne di rendere possibile la comparazione interlinguistica (Comrie et al., 2015).

La domanda fondamentale che bisogna porsi è quindi la seguente: quali aspetti della classicazione sono universali e quali sono da ricondurre a proprietà intralinguistiche?

(20)

Ovviamente non possono essere gli aspetti sintattici della struttura argomentale a essere universali, in quanto le forme dipendono da come una lingua codica gli argomenti (attraverso inventari di preposizioni o casi morfologici che variano nel tipo e nel numero). Ciascuna lingua codica le relazioni tra argomenti e verbo secondo processi morfosintattici propri, raggruppati da Haspelmath (2017) all'interno di due macro-concetti (molto più utili negli studi tipologici rispetto a terminologie più speciche), che identicano:

• morfemi relazionali: marcano le relazioni semantiche tra un sintagma nominale e il verbo (ag12, segnalatori). Le lingue possono fare ricorso ai casi o alle apposizioni

per caratterizzare il rapporto tra il verbo e il sintagma nominali. Casi/apposizioni possono essere attaccati a un sintagma nominale o anche al verbo stesso, per cui la posizione sintattica e la relazione di dipendenza non sono criteri validi per una denizione interlinguistica.

• morfemi di indicizzazione: marcano l'argomento stesso ((person) index13). Un sin-tagma nominale può marcare la sua relazione con il verbo utilizzando l'accodo, sintatticamente realizzato ora da assi verbali ora da particelle indipendenti o dipendenti (attaccate a un altro costituente della frase).

Prendiamo due lingue come l'inglese e il tedesco. In (4), il verbo to accuse seleziona due sintagmi nominali (il primo in posizione pre-verbale che si accorda con il verbo e uno in posizione post-verbale) e un sintagma preposizionale introdotto dalla preposizione of. In tedesco, invece, si ricorre al sistema dei casi per marcare la frase: di conseguenza il verbo gefallen (piacere) realizza il proprio soggetto con il caso nominativo e si accorda al verbo e la persona a cui piace viene realizzata con il caso dativo (Haspelmath and Hartmann, 2015). Questo è solo un esempio dell'enorme variazione che si riscontra nelle realizzazioni sintattiche delle varie lingue (Malchukov, 2013).

(4) Inglese: [N OM They] accused [ACC her] [of plagiarism]. (L'hanno accusata di plagio)

(5) Tedesco: [P L.DAT Den Kindern] gefälltSG.N OM [SG.N OM der Schneemann]. (Al

bam-bino piace il pupazzo di neve)

D'altra parte, non tutte le alternanze argomentali sono universali, come ad esempio non ricorre in tutte le lingue l'alternanza media propria dell'inglese (esempio (6)), e di conseguenza non si può semplicemente trasporre la classicazione di Levin su una nuova lingua.

12A ag is a bound marker that occurs on a nominal and that indicates the semantic or syntactic role

of the nominal with respect to a verb (in a clause) or with respect to a possessed noun (in a complex nominal).

13A person index is a bound marker denoting a speech role or a highly accessible third person referent

that occurs on a verb (or in second position) to indicate a verbs argument, or on a noun to indicate its possessor.

(21)

(6) Middle alternation

<1-NOM V 2-ACC> Ý <2-NOM V > a. I broke the laptop.

b. Laptops break often.

La letteratura cita altri casi in cui il repertorio di alternanze tra lingue non è allineato. Per esempio, l'alternanza conativa (esempio (7)) non è presente in molte lingue, come il winnebago e il berbero. Nello studio sull'uso dell'alternanza conativa come test per distinguere le classi verbali dei verbi cut e break, Guerssel et al. (1985) riportano che queste due lingue non riportano tale costruzione: infatti, l'alternanza esprime un minor grado di eacia dell'azione, nello specico non c'è uno strumento che colpisce l'oggetto dei verbi cut; tuttavia, i verbi ut (berbero) e guch (winnebago) implicano che l'oggetto sia colpito.

(7) Conative alternation

<1-NOM V 2-ACC> Ý <1-NOM V' with+2> a. Floyd cut the bread.

b. Floyd cut at the bread.

Anche la costruzione risultativa non è presente in tutte le lingue, come l'esempio riportato per la lingua francese (Green, 1974)14.:

(8) a. kick something shut/open b. fermer/ouvrir du pied

`shut/open with the foot' (Green, 1974, p. 269-270)

Eppure gli studi in questa direzione fanno supporre l'esistenza di pattern interlinguisti-ci universali, nella misura in cui sia le proprietà di codica ricorrenti che certe alternanze argomentali hanno motivazioni semantiche15. In tipologia, lo studio interlinguistico

del-le classi verbali ha del-le sue basi nella teoria linguistica della Case Grammar, secondo cui le classi verbali sono identicate nei termini dei ruoli semantici degli argomenti verbali (Comrie et al., 2015). In questi approcci, le classi semantiche sono rappresentate all'in-terno di tante tassonomie diverse a seconda del dominio verbale studiato. Per esempio, Tsunoda (1981) propone una gerarchia per i tipi verbali con cui predire la distribuzione dei pattern transitivi e intransitivi all'interno di una lingua:

14Sebbene le alternanze siano speciche per ciascuna lingua, molte di queste possono essere

ulterior-mente generalizzate in termini sintattici, come Subject-adding (causatives), Object-adding (applicatives), Subject-demoting/deleting (passives/anticausatives), Object-demoting/deleting (antipassives), Reexive.

15Nel lavoro sulla transitività, Pinker (1989) cerca di spiegare le opzioni di codica in termini delle

(22)

Eective action > Perception > Pursuit > Knowledge > Feeling > Relation

Questa gerarchia rappresenta una scala da verbi più transitivi (sinistra) a quelli meno transitivi (destra). Malchukov (2005) modica tale gerarchia decomponendola in due dimensioni distinte, che rappresentano in maniera decrescente rispettivamente il grado di patienthood di P (break > look for > go to) e il grado di agenthood di A (break > like > hurt) (Figura 1.2).

Figura 1.2: Gerarchia della transitività bi-dimensionale (Malchukov, 2005, 2013).

Obiettivo di questi lavori è realizzare una tassonomia più specica e articolata, come nel lavoro di Levin (1993), basata su caratteristiche semantiche e quindi applicabile in-terlinguisticamente; con lo scopo di utilizzare delle tassonomie non è ne a se stesso, ma ha come ne ultimo quello più generale di svelare quali aspetti delle classi verbali sono universali e quali sono specici per ciascuna lingua.

Le similarità interlinguistiche tra le classi di valenza possono essere catturate nella forma di mappe semantiche (Croft, 2001). Tale metodo ha il ne di svelare le similarità semantiche tra categorie individuali sulla base di pattern polisemici ricorrenti tra le lin-gue; si assume, in altre parole, che similarità ricorrenti nella forma riettano similarità ricorrenti nel signicato16. Le categorie che sono codicate in maniera simile sono inserite

all'interno di uno spazio semantico continuo e universale. Di conseguenza, una volta sta-bilita in maniera empirica la mappa, è possibile fare delle predizioni sulla probabilità di un pattern polisemico. Le mappe semantiche possono essere applicati ai tipi verbali, come nell'esempio in Figura 1.3. Questa mappa permette di incorporare il frame transitivo at-traverso diverse dimensioni. Per esempio, l'inglese dierisce dal giapponese nell'estendere le costruzioni transitive all'interno della seconda sotto-gerarchia, e quindi anche a verbi di emozione come to like, to fear, che invece in giapponese sono realizzati intransitivamente (cf. osorosii, `pieno di paura'); tuttavia l'inglese è più conservativo rispetto alla prima sotto-gerarchia, mentre i verbi di ricerca in in giapponese, a dierenza dell'inglese, hanno costruzioni transitive (cf. matu vs wait for). Tale mappa propone anche categorie come

16Syntactic universals are therefore universals of the mapping between such complex syntactic

struc-tures and the corresponding semantic strucstruc-tures across languages. This mapping is complex, partly arbitrary, and probabilistic (as a crosslinguistic generalization); but there is no point in pretending that universals of syntactic structure mapped onto semantic structure are anything otherwise. (Croft, 2001, p. 2)

(23)

INHERENTLY REFLEXIVE, MIDDLE e SPONTANEOUS, indicando verbi che rappre-sentano la riduzione di transitività lungo la dimensione di distinguibilità tra soggetto e oggetto (Kemmer, 1993).

Figura 1.3: Mappa semantica per verbi transitivi (Comrie et al., 2015, p. 8).

La rappresentazione che qui abbiamo riportato può essere utile per rappresentare sia specici pattern argomentali sia le alternanze argomentali. In Figura 1.4, vediamo l'estensione di due diverse strategie nell'alternanza dativa tra le classi di valenza. Tale mappatura (Comrie et al., 2015) è stata ottenuta empiricamente attraverso lo studio delle estensioni di strategie particolari dei diversi lessici verbali e incorporando gerarchie riportate in letteratura, come la gerarchia dei verbi di trasferimento di Croft (2001) ( give > send > throw). Tale mappa si basa su considerazioni semantiche, ovvero le somiglianze tra i tipi verbali in termini della loro struttura argomentale. Così, i verbi etichettati come SEND sono intermediari tra verbi di cambiamento di possesso come GIVE e verbi di moto come THROW. Questo assicura che l'estensione delle costruzioni occupi regione contigue dello spazio semantico. In breve, questa metodologia permette di catturare: nonostante le lingue possano avere diverse costruzioni, la congurazione nale può rivendicare la propria universalità. Analoghe considerazioni possono essere fatte per altri domini verbali. Inoltre, queste mappe possono essere integrate insieme per ottenere una mappa delle classi di valenza ancora più comprensiva. Questo metodo ha il vantaggio di essere validabile attraverso misure statistiche estratte dai corpora riguardanti la frequenza dei pattern. Per quanto riguarda le alternanze argomentali, ci si aspetta che il comportamento sintattico rispetti in gran parte tale mappa, dal momento che le stesse alternanze sono sensibili alle diverse proprietà funzionali correlate a quelle lessicali17.

17Le proprietà semantiche, sebbene non siano apertamente discusse in Levin, sono state largamente

(24)

Figura 1.4: Mappa semantica per verbi ditransitivi (Comrie et al., 2015, p. 9).

1.4.3 Il database ValPal

Negli ultimi anni, il progetto Leipzig Valency Classes ha condotto una vasta comparazione interlinguistica sulle classi di valenza di 36 lingue genealogicamente e geogracamente dierenti, i cui risultati sono conuiti nella realizzazione di un database tipologico sulla valenza verbale, chiamato Valency Patterns Leipzig18. Per permettere la comparazione tra

lingue, il principio alla base del database è che ciascun verbo è associato nelle altre lingue a livello semantico, ovvero sulla base del signicato verbale; gli argomenti, d'altra parte, sono associati sulla base del loro signicato individuale (i.e. micro-ruoli degli argomenti). Per ottenere dati coerenti, comparabili e rappresentativi, per ciascuna lingua sono stati raccolti verbi riconducibili a 80 signicati specici. Per esempio, il signicato LIVE è realizzato in tedesco dai verbi leben e wohnen, in giapponese da sumu, in italiano da abitare e così via.

Secondo la rappresentazione adottata in ValPaL, la valenza di un verbo è intesa come la lista dei suoi argomenti con le loro proprietà di codica, le proprietà comportamentali degli argomenti e qual è la relazione tra argomenti e ruoli tematici all'interno della semantica espressa dal verbo.

La rappresentazione della struttura argomentale è stata concepita per riuscire a descri-vere in maniera esaustiva le proprietà linguistiche peculiari di ciascuna lingua utilizzan-do categorie generali. Più precisamente, per ogni verbo, vengono specicate le seguenti proprietà:

(25)

• coding frame, la lista degli argomenti di un verbo e come questi sono codicati nella specica lingua (attraverso marche di caso, apposizioni, accordo verbale, ordine delle parole);

• syntactic-function frame, in cui si associa a ciascun argomento la sua funzione sintattica;

• i tipi interlinguistici degli argomenti: A (agente, ovvero il breaker dell'evento BREAK), P (il paziente, il broken thing dell'evento BREAK), S (argomento unico dei verbi che mancano di A e P), I (strumento) L (locativo) e X (tutti gli altri); • i micro-ruoli, come gli argomenti sintattici vengono associati ai ruoli semantici, per

esempio breaker per l'evento BREAK19;

• le alternanze argomentali, intese come l'insieme dei possibili frame che sono pro-duttivamente (o almeno regolarmente) associati a uno stesso verbo. Le alternanze possono essere codicate (marcate da un asso verbale o dalla presenza di un ausi-liare, come l'alternanza passiva inglese) o non codicate (come l'alternanza dativa inglese).

In Figura 1.5 presentiamo l'esempio di frame di codica per il verbo italiano abbrac-ciare, che occorre con con due argomenti nominali, rispondenti all'agente che compie l'azione di abbracciare (hugger) e il paziente che viene abbracciato (huggee). Viene co-dicato inoltre l'ordine lineare degli argomenti all'interno della frase20. Inne, V. SUBJ

[ ] indica con quale argomento il verbo si accorda e quale funzione grammaticale svolge. Successivamente, si riportano le alternanze ammesse dal verbo Figura 1.6. Per esempio, partecipano all'alternanza direct reciprocal reexive, in cui un verbo (di)transitivo con due argomenti nucleari A e P agiscono l'uno sull'altro e sono contemporaneamente agente e paziente dell'azione espressa dal verbo. Solitamente, la reciprocità viene espressa da locuzioni avverbiali come 'a vicenda', 'reciprocamente', 'l'un l'altro', che disambiguano la forma riessiva del verbo dalla sua interpretazione reciproca. (Cennamo 2011c and references therein). Tale alternanza è codicata nel modo seguente:

1 > V.subj[1] > 2 Ý 1/2 > si V'.subj[1/2]

19L'inglese viene qui utilizzato come metalinguaggio per identicare i ruoli semantici.

20Alcune lingue questa informazione è distintiva, in quanto l'ordine delle parole dipende dalla classe di

(26)

Figura 1.5: Entrata del coding frame di abbracciare in ValPaL.

(27)

Capitolo 2

La caratterizzazione automatica della

struttura argomentale

Verbs are the glue that holds clauses together. (Bowerman and Brown, 2008, p. 1)

2.1 Stato dell'arte sui sistemi di acquisizione

automa-tica del comportamento verbale

Per molteplici task di TAL sono necessarie risorse lessicali contenenti informazioni lingui-stiche associate alle parole, come i suoi signicati, le combinazioni tipiche, le espressioni idiomatiche, le relazioni semantiche, la struttura argomentale, utili sia per applicazioni computazionali che nell'analisi linguistica.

Dagli albori della linguistica computazionale e del Trattamento automatico del linguag-gio (TAL), un'area della ricerca si è focalizzata sullo sviluppo di metodi computazionali per estrarre informazione sintattico-semantica in modo automatico o semi-automatico, col ne ultimo di caratterizzare le proprietà della struttura argomentale in modo comple-to. Tali risorse non solo sono utili per un'analisi linguistica, ma possono essere utilizzate all'interno di applicazioni TAL, ad esempio per la disambiguazione (Word Sense Disambi-guation, a.k.a. WSD), la traduzione automatica e l'estrazione di conoscenza enciclopedica (Korhonen, 2009; Schulte im Walde, 2009).

2.1.1 Identicazione dei quadri di sottocategorizzazione

La rappresentazione sintattica della struttura argomentale consiste nel caratterizzare le dipendenze sintattiche di un argomento di un predicato.

(28)

1. dato un corpus di frasi, identicare tutti i verbi;

2. per ciascuna occorrenza di un verbo v, identicare gli elementi lessicali che dipendono da v;

3. generalizzare i dati raccolti al ne di ottenere informazioni distribuzionali sul com-portamento sintattico verbale.

La gran parte dei sistemi per l'estrazione automatica dei quadri di sottocategorizzazio-ne si basa su regole costruite ad hoc per estrarre da una specica annotaziosottocategorizzazio-ne sintattica prodotta dal parser le relazioni grammaticali tra il verbo target e gli elementi della fra-se. Tali informazioni vengono sintetizzate all'interno di una rappresentazione unitaria del QdS.

Nella caratterizzazione degli aspetti sintattici della struttura argomentale, uno dei limiti degli algoritmi di estrazione automatica risiede soprattutto nell'incapacità di di-stinguere tra argomenti e aggiunti. Nonostante l'ampio dibattito su questo fenomeno linguistico, la dierenza tra argomenti e aggiunti è sempre risultata dicile all'atto prati-co in TAL e psiprati-colinguistica (Manning, 2003). Un lavoro per distinguere in maniera non supervisionata argomenti da aggiunti è proposto da Abend and Rappoport (2010), che propongono un sistema che sfrutta l'informazione linguistica generata da un PoS tagger e un parser non supervisionato, ottenendo un'accuratezza del 70%. Simili risultati sono proposti da Merlo and Ferrer (2006), che arontano il problema del riconoscimento dei sintagmi preposizionali obbligatori da quelli opzionali riconducendolo a un task di clas-sicazione supervisionata. Al classicatore viene richiesto di riconoscere la natura del sintagma insieme all'elemento sintattico da cui dipende, sfruttando diverse informazioni linguistiche come la classe di WordNet (Fellbaum, 1998) (che è risultato essere la feature più discriminante). Nello studio dell'identicazione tra sintagmi preposizionali locativi con funzione di argomento o di aggiunto, Villavicencio (2002) riporta un'accuratezza per-fetta nella classicazione di verbi come to put, to come, to draw, sfruttando la frequenza e una gerarchia semantica delle preposizioni. Fabre and Bourigault (2008) propongono di caratterizzare i legami tra un verbo e i suoi dipendenti in termini di misure di produtti-vità. Combinando gli approcci della letteratura precedente,Marchal and Poibeau (2016) propongono calcolare l'argumenthood dei complementi applicando come misura la fun-zione di peso TD-IDF (term frequency-inverse document frequency) utilizzata nel campo dell'information retireval, sostituendo ai termini i complementi e ai documenti i verbi. Il risultato è che complementi usati con un gran numero di verbi dierenti hanno più possibilità di essere aggiunti.

Nonostante gli approcci appena presentati, la soluzione più comunemente adottata è di natura euristica, basata su una lista predenita dei frame ammissibili in una certa lingua e su tecniche di ltraggio tali da eliminare dai QdS estratti quelli meno rilevanti.

(29)

Per esempio, Korhonen (2002) ha mostrato come ltri basati sulla frequenza relativa dei singoli QdS per un dato verbo, insieme all'applicazione di tecniche di smoothing1, siano

più ecienti rispetto ad altri test statistici di verica di ipotesi (Brent, 1993).

Un altro problema che questi sistemi si trovano ad arontare risiede nell'incapacità di distinguere tra i diversi sensi di un verbo. In Roland and Jurafsky (2002), si chiarisce che la signicativa dierenza tra le distribuzioni dei quadri di sottocategorizzazione di-pendono dal senso specico espresso dal verbo in un dato contesto (si veda il capitolo 4 per approfondimenti). Tuttavia, i lavori sull'acquisizione automatica della struttura ar-gomentale hanno preferito evitare la disambiguazione automatica di ciascuna occorrenza verbale, preferendo ricondurre ogni possibile frame a un unico lemma, lasciando che sia chi usufruisce della risorsa eventualmente a operare una distinzione successiva.

Sebbene queste tecniche siano oramai comunemente riconosciute come utili per rea-lizzare risorse lessicali in maniera non supervisionata, la maggior parte della letteratura su questo argomento si è concentrata principalmente sull'inglese e un insieme ristretto di lingue, sviluppando sistemi distinti per ciascuna lingua e trascurando invece l'acquisizione multilingue. Come sostiene Korhonen (2009), valutare l'applicabilità di queste tecniche su altre lingue è cruciale per ragioni teoriche e pratiche: 1) aumentare l'accuratezza, la scalabilità e la robustezza di tali tecniche; 2) sviluppare gli studi linguistici su lingue mino-ri; 3) comprendere in maniera migliore le componenti cross-linguistiche dell'informazione lessicale e 4) migliorare la performance delle applicazioni multilingue quali ad esempio information extraction e machine translation.

Lessici di valenza

La letteratura presenta un ampio numero di lessici di valenza costruiti automaticamente, in primis VALEX (Korhonen et al., 2006), il primo lessico costruito per la codica dei frame di 6,397 verbi per la lingua inglese. Tale risorsa sfrutta una lista pre-compilata di quadri di sottocategorizzazione ammissibili per estrarre informazione da 5 corpora utilizzando una versione adattata dell'algoritmo proposto da Briscoe and Carrol 1997.

A partire da questo lavoro, lessici costruiti in maniera analoga sono stati sviluppati per altre lingue rispetto all'inglese, come francese LexSchem (Messiant et al., 2008) e LexFr (Rambelli et al., 2016) e italiano LexIt (Lenci et al., 2012). L'acquisizione dei quadri di sottocategorizzazione è stata oggetto di analisi anche per lingue tipologicamente distanti dall'inglese, come il cinese (Han et al., 2004) e il giapponese (Marchal, 2015).

1Nella modellazione statistica del linguaggio naturale, le tecniche di smoothing si applicano per

l'imi-tare l'eetto della sparsità di dati (data sparseness) estratti da un corpus. Ciascuna tecnica abbassa la probabilità do un evento in modo che il sistema sia in grado di prevedere e valutare anche eventi non precedentemente attestati. Per una rassegna delle principali tecniche di smoothig si rimanda a (Manning and Schütze, 1999, cap. 6).

(30)

Nonostante l'importanza che questa tipologia di risorse ha apportato negli anni, i lessici esistenti si focalizzano solo su una singola lingua con una specica rappresentazione dei quadri di sottocategorizzazione, dipendente in larga misura dal tipo di annotazione del corpus utilizzato. Pochi studi hanno cercato di realizzare un lessico multilingue. Per quanto è in nostra conoscenza, due sono gli esperimenti per la realizzazione di un lessico cross linguistico:

• 4LEX (Civit et al., 2005): un lessico multilingua in cui sono codicate le informa-zioni sintattiche e semantiche per catalano, basco, spagnolo e russo. L'associazione tra funzioni sintattiche e ruoli tematici è stata fatta manualmente. In questo ca-so, i lessici sono stati realizzati in fasi diverse, e poi si è cercato di trovare una rappresentazione comune cercando di unire le diverse proprietà lessicali attestate. • MultiVal (Hellan et al., 2014): un lessico di valenza per norvegese, spagnolo e

ga2 derivante dai lessici computazionali HPSG grammar (Pollard and Sag, 1994);

per ciascuna entrata è specicata la struttura argomentale sintattica (per esem-pio NP+NP se il verbo occorre con due sintagmi nominali), la sua specicazione funzionale (basata sulla grammatica tradizionale, il caso precedente si etichetta co-me transitivo), il tipo di situazione (quanti partecipanti sono presenti, che ruolo svolgono e quale funzione grammaticale può istanziare) e l'aspetto e Aktionsart. A dierenza di 4Lex, tutte le risorse sono formate da un'unica rappresentazione uniforme.

2.1.2 Identicazione delle preferenze di selezione

Se da un lato l'analisi della struttura argomentale prevede l'identicazione dei quadri di sottocategorizzazione, ovvero la struttura sintattica superciale, la caratterizzazione completa prevede anche l'identicazione del tipo semantico degli argomenti. Il signicato del verbo condiziona non solo il tipo di struttura sintattica instanziabile nella frase, ma anche quali elementi linguistici possono occupare la testa di una data posizione argomen-tale (Lebani and Lenci, 2013). Per esempio, prendendo il verbo bere sarà più probabile trovare come oggetti diretti sostantivi come acqua, succo di frutta, latte o vodka piuttosto che pane, idee o erba (Gelbukh and Calvo, 2018, cap. 6).

Inizialmente questo concetto è stato introdotto con il termine restrizione di selezione (selectional restrictions,Katz and Fodor (1963)), indicando con ciò le restrizioni sui tipi semantici degli argomenti verbali. Di conseguenza, potremmo rappresentare l'oggetto diretto del verbo mangiare nel modo seguente

(4) mangiare [+ FOOD]

(31)

Questo fenomeno è stato presto riformulato con il termine di preferenze di selezione (Wilks (1975)): in eetti, sebbene un verbo selezioni abitualmente un particolare tipo semantico per un dato argomento, è possibile formulare frasi ammissibili che violino questa regolarità. Nell'esempio (5), l'oggetto diretto di mangiare non è rappresentato da un cibo, bensì da un elemento astratto (le parole):

(5) Maria parla così veloce che si mangia [le parole].

In questo caso la presenza dell'argomento anomalo, ovvero che non appartiene alla classe semantica prototipica FOOD, non produce una frase agrammaticale, bensì instaura un processo di rielaborazione del signicato verbale, permettendo l'esistenza di fenomeni quali la metafora (Lako and Johnson, 2008), la metonimia (Zarcone et al., 2013) e altre gure retoriche. Negli anni si sono delineati due approcci metodologici: quelli che utilizzano una risorsa lessicale, tipicamente WordNet, per caratterizzare le regolarità dei tipi semantici degli argomenti accettati dai verbi, e i modelli distribuzionali, basati sulle ricorrenze estratte da un corpus di riferimento.

Il primo lavoro che si concentra sull'estrazione automatica delle preferenze di selezione è attribuibile a Resnik (1993, 1996), che rimane un punto di riferimento in letteratura. Il suo algoritmo prevede una procedura in due passaggi: 1) estrarre tutte le parole alla testa di un argomento verbale, e 2) generalizzare a parole simili utilizzando una risorsa lessicale, nello specico la tassonomia di WordNet (Fellbaum, 1998), per la classicazione delle parole in classi semantiche generali. Successivi lavori che riprendono tale metodologia includono Clark and Weir (2002), Abe and Li (1996)3 Ovviamente, la performance di

modelli basati su risorse lessicali è fortemente dipendente dalla copertura lessicale di tale risorsa, che può essere un problema soprattutto per le lingue diverse dall'inglese, per le quali le risorse linguistiche hanno una bassa copertura lessicale.

Nei modelli distribuzionali, viceversa, la copertura e la capacità di generalizzazione del modello dipendono dal corpus da cui è stata calcolata la similarità distribuzionale,

L'acquisizione automatica delle preferenze di selezione è uno degli argomenti ricorrenti nel TAL e tali modelli possono essere applicati a diversi problemi relativi all'ambiguità tra sintassi e semantica, quali il parsing sintattico, la disambiguazione lessicale (McCarthy and Carroll, 2003), la risoluzione di pronomi (Bergsma et al., 2008) e la named-entity re-cognition (Ratinov and Roth, 2009). Inoltre, l'uso delle preferenze di selezione all'interno di applicazioni TAL ha portato a un signicativo miglioramento della qualità delle infe-renze e delle regole di estrazione di informazione (Pantel et al., 2007), utili per identicare fenomeni di diathesis alternation (McCarthy, 2000). In psicolinguistica, le preferenze di selezione possono essere utilizzare per predire la plausibilità dei giudizi umani nelle

(32)

binazioni predicato-argomento (Resnik, 1996) e per predire gli eetti nei tempi di lettura (Padó et al., 2009).

2.1.3 Identicazione delle alternanze argomentali e classicazione

automatica dei verbi

Come presentato nella sezione 1.3,uno degli aspetti cruciali del comportamento verbale risiede nella sua capacità di di partecipare o meno a un'alternanza argomentale, al -ne realizzare una classicazio-ne automatica dei verbi sulla base del loro comportamento sintattico (Levin, 1993).

Il primo lavoro in letteratura a trattare in maniera automatica questo fenomeno risale a McCarthy (2000, 2001). Il suo metodo si basa sul concetto di slot overlapping, basata sull'intuizione che se l'alternanza argomentale si può rappresentare come l'espressione dello stesso argomento semantico in due dierenti realizzazioni sintattiche (slot), allora i lemmi che occorrono negli slot alternativi dei quadri di sottocategorizzazione pertinenti dovranno in una certa misura sovrapporsi. Ovviamente, la plausibilità di quest'assunzione dipende da quanto le classi dei verbi che realizzano i propri argomenti in modo simile formino realmente classi di equivalenza da un punto di vista semantico (Lenci, 2009). Varie misure per calcolare lo slot overlap sono state proposte in linguistica computazionale (McCarthy, 2000; Merlo and Stevenson, 2001; Joanis et al., 2008). Tuttavia questo lone di ricerca si è concentrato soprattutto sulla classicazione automatica dei verbi inglese, presupponendo a monte l'elenco delle classi di Levin, e utilizzando lo slot overlap come un tratto distribuzionale utile alla classicazione automatica.

Nel trattare la classicazione verbale non possiamo non citare la risorsa che rappresen-ta un punto di riferimento in questo ambito di ricerca, ovvero VerbNet. VerbNet4 (Schuler,

2005) è un lessico in cui presenta una versione ampliata delle classi di Levin (1993). Ogni classe è descritta in termini di ruoli tematici, restrizioni di selezione e quadri di sottocate-gorizzazione consistenti in una descrizione sintattica e predicati semantici. Numerosi sono stati gli sforzi per tradurre o adattare in maniera (semi-)automatica tale risorsa in altre lingue, sulla base dell'assunto comune secondo il quale i componenti del signicato con-divisi dalle classi possano essere applicati in maniera cross-linguistica (Jackendo, 1992). Per esempio, Merlo et al. (2002) hanno usato similarità cross-linguistiche per individuare 20 classi di Levin in italiano, ottenendo un'alta accuratezza. Questo approccio, tuttavia, presuppone che tutte le alternanze applicabili per la classicazione inglese siano constanti in tutte le lingue e quindi universali, assunto che trova facilmente esempi a suo smentita. Per esempio, in italiano è assente una qualsiasi alternanza simile a quella dativa: le frasi in (6) sono entrambe riconducibili a (7). Per l'italiano, un approccio semi-automatico

(33)

per l'identicazione delle alternanze argomentali è stato condotto da (Lebani et al., 2014; Busso and Lenci, 2016): la classicazione verbale non cerca di tradurre la struttura di VerbNet, piuttosto integrano varie risorse e quadri teorici per sviluppare una nuova e indipendente classicazione.

(6) a. John gave [Mary] [a book]. b. John gave [a book] [to Mary]. (7) Gianni ha dato [un libro] [a Maria].

Negli ultimi anni si è iniziato anche a investigare la possibilità di identicare automati-camente quali verbi possano partecipare a quali alternanze. Pariesen and Stevenson (2011) e Sun et al. (2013) hanno presentato un modello baesiano per identicare le alternanze argomentali a partire dall'input sintattico automaticamente estratto dai corpora, col ne di utilizzare questi dati come features per classicare in maniera non supervisionata i verbi. Baroni and Lenci (2010) hanno mostrato come il loro spazio distribuzionale Distri-butional Memory, si a in grado di identicare alternanze di transitività con un'accuratezza comparabile allo stato dell'arte.

2.2 Il sistema di acquisizione LexIt

LexIt (Lenci et al., 2012) è un sistema computazionale che permette di estrarre in maniera automatica informazioni distribuzionali sulla struttura argomentale dei predicati a partire da un corpus parsato a dipendenze. Tale sistema analizza le proprietà combinatorie di ciascun predicato (principalmente verbi, ma è inclusa la possibilità di estrarre informazioni su nomi e aggettivi) e ne dà una rappresentazione sintetica all'interno di quello che in LexIt viene denito prolo distribuzionale.

Il prolo distribuzionale di un generico predicato p rappresenta l'insieme delle infor-mazioni estratte da un corpus tali che caratterizzano il comportamento combinatorio di p (Lenci, 2014). Tale prolo si articola in due componenti, che racchiudono le due facce della struttura argomentale: il prolo sintattico e il prolo semantico.

Il prolo sintattico di un predicato p caratterizza l'associazione statistica tra p e tutti gli argomenti sintattici del predicato, deniti in LexIt come slot5 sintattici (e.g.

soggetto, oggetto per i verbi, modicatore per i nomi ecc.) e tra p e i suoi quadri di sottocategorizzazione (a.k.a. QdS, o frame).

Da un punto di vista teorico, è necessario presentare quali scelte rappresentative siano state fatte al ne di descrivere le caratteristiche sintattiche della struttura argomentale

5The arguments of a verb are the slots that have to be lled to satisfy its valency. (Ponti et al.,

Riferimenti

Documenti correlati

Una funzione logaritmica non può avere intersezioni con una parabola.. Il secondo membro non si

[r]

Salita diretta in seggiovia, fino al Rifugio Scoiattoli, con le Guide Alpine di Cortina, dove si avrà la possibilità di andare a visitare le trincee della Grande Guerra, di

Nella partecipazione alla Messa e alle altre azioni liturgiche della Parrocchia portiamo le sofferenze e le difficoltà delle famiglie perché il Signore le sostenga e le aiuti

Lungi dall’essere chiuso, il dibattito sul capitale sociale pone delle sfide notevoli alla profes- sione: appare ancora non chiaro il nesso di causalit` a tra crescita economica

PER LA VIA INCONTRARONO UN GATTINO SPELLACCHIATO, ALLONTANATO DAI SUOI PADRONI PERCHÉ INCAPACE DI CATTURARE I TOPI, CHE SI UNI’ SUBITO A LORO NELLA SPERANZA DI FARE IL MUSICISTA

Le aziende italiane che producono il Made In, adottano delle politiche di produzione e di commercializzazione sempre più “responsabili” dal punto di vista

23) o provincia per tutti gli altri scarichi (l.r. Puglia 17/07).