• Non ci sono risultati.

Prospettiva interlinguistica

3.3 Le risorse lessicali ottenute da UDLex

3.3.3 Prospettiva interlinguistica

In questa sezione abbiamo introdotto i proli distribuzionali risultanti dall'applicazione di UDLex per l'inglese, l'italiano e il francese, tre lingue molto vicine da un punto di vista

tipologico. Se abbiamo dimostrato come tale sistema possa essere applicato a qualsiasi lingua grazie allo schema di annotazione delle Universal Dependencies, resta tuttavia da investigare se la rappresentazione sintattica derivata da LexIt sia suciente a descrivere in maniera adeguata la struttura valenziale di qualsiasi lingua, o se sia necessario arricchire gli slot sintattici con informazioni morfosintattiche aggiuntive laddove si tratti di lingue tipologicamente dierenti. Per esempio, l'ordine delle parole non è considerato rilevante nell'attuale sistema, ma dato che per alcune lingue come il giapponese questo è rilevante, bisogna domandarsi se e come dovrebbe essere rappresentato questo aspetto linguistico.

Per iniziare ad investigare questo problema rispetto a lingue non indo-europee, presen- tiamo una riessione sul nlandese, che appartiene alla famiglia delle lingue uraliche17. Il

nlandese è caratterizzato da un fenomeno linguistico particolare, il cosiddetto dierential object marking, ovvero il caso in cui l'oggetto diretto di un verbo può essere marcato con casi dierenti a seconda di diversi fattori, quali il verbo stesso, il nome, e il signicato generale dell'espressione che si vuole veicolare (per una descrizione accurata di questo fenomeno, si rimanda a Karlsson (2008)). Per esempio, le frasi in (17) indicano entrambe la situazione per cui un ragazzo (poika) legge un libro, tuttavia presentano due diversi modi di marcare l'oggetto diretto. Nel primo caso, il verbo transitivo lukea occorre con un complemento partitivo (kirjaa), che indica che l'azione espressa dal verbo non si è ancora conclusa (Il ragazzo sta leggendo un/il libro"). Nel secondo caso, kirjan è invece al caso genitivo, esprimendo l'aspetto risultativo dell'azione.

(17) a. Poika lukee [P ARTkirjaa].

b. Poika lukee [GENkirjan].

Nello sviluppo di un sistema di acquisizione automatica della struttura valenziale per il nlandese, Chaminade and Poibeau (2017) hanno analizzato tale fenomeno estraen- do automaticamente strutture predicative da corpora e hanno categorizzato i verbi in tre categorie: i verbi che sottocategorizzano esclusivamente il caso partitivo, i verbi che sottocategorizzano esclusivamente il caso accusativo/genitivo e i verbi che sottocatego- rizzano entrambi. Secondo il loro approccio, la distinzione di questi è un tratto che merita di essere incluso all'interno di una risorsa che descriva la struttura argomenta- le dei verbi nlandesi. Grazie allo schema di annotazione UD, anche il nostro sistema potrebbe includere l'informazione sul caso dell'oggetto diretto, applicando invece di un'e- tichetta generica subj#obj per il frame transitivo, rispettivamente subj#obj+partitive e subj#obj+genitive. Tuttavia questa distinzione si riferisce nello specico all'aspet- to verbale, e quindi l'introduzione o meno di questa informazione all'interno del prolo distribuzionale dipende dagli scopi ultimi dell'analisi in prospettiva interlinguistica.

Altre caratteristiche possono essere prese in considerazione. Per esempio, il nlandese ha la cosiddetta forma passiva Luetaan kirja/kirjaa), ma è dicile considerarla come la trasformazione dalla corrispondente forma attiva. Infatti, la diatesi passiva è presente solo alla terza forma singolare e di fatto corrisponde sostanzialmente alla forma attiva senza un soggetto specicato, per cui si può applicare in diversi contesti, da un'espressione per suggerire o proporre qualcosa (leggiamo un libro!) oppure corrisponde alla prima persona plurale nei dialoghi. Ovviamente questi fenomeni sono ben analizzati nella grammatica tradizionale, tuttavia attraverso il modo in cui questi fenomeni sono annotati in UD e il confronto delle realizzazioni sintattiche di altre lingue può aprire a una riconsiderazione di tali fenomeni e inquadrarli in prospettiva interlinguistica. Molti altri esempi potrebbero essere citati come costruzioni dierenti rispetto alle lingue indo-europee. Tuttavia, questa riessione deve far comprendere che nello sviluppo di sistemi di acquisizione per lingue tipologicamente diverse è fondamentale comprendere 1) quali aspetti linguistici debbano essere tenuti in considerazione (a dierenza degli aspetti idiosincratici del linguaggio che devono essere esclusi), 2) quali aspetti sono più lessicali e quali invece appartengono al livello sintattico e 3) come rappresentarli all'interno di un framework multilingue.

Tutte queste considerazioni possono essere prese in considerazione nell'estrarre infor- mazione da altre lingue. L'aspetto principale è che data la stretta modularità del sistema, permettere questi cambiamenti per le singole lingue richiede uno sforzo minimo senza che venga modicata l'architettura base degli algoritmi. In questo senso UDLex è un sistema multilingue capace di trattare tanto con aspetti generali quanto con le singole peculiarità di ciascuna lingua.

Capitolo 4

Verso un database multilingue

Words in isolation...do not have specic meaning; rather they have mul- tifaceted potential (Hanks and Pustejovsky, 2005, p. 64)

Nel capitolo precedente abbiamo presentato i lessici monolingui che possiamo ottenere dal sistema UDLex e abbiamo visto quali informazioni sono in essi contenute. Tuttavia, il ne di questo progetto consiste non solo nel creare un sistema computazionale multilingue che acquisisca informazioni distribuzionali sul comportamento verbale al ne di orire una panoramica delle caratteristiche linguistiche di una specica lingua; bensì, l'obiettivo nale è rivolto a far conuire le informazioni contenute nei distinti lessici in un unico database, i cui dati possano contribuire alla comparazione tra strutture argomentali di verbi che selezionano sensi uguali o ani sia all'interno degli studi tipologici-linguistici sia nell'ambito dello sviluppo di applicazioni TAL.

In questa prospettiva, il capitolo presenta quali considerazioni sono state portate avan- ti verso la denizione di una metodologia che permetta l'allineamento tra verbi di due lingue sulla base delle loro caratteristiche argomentali: inizialmente presenteremo il pro- blema dell'identicazione del senso verbale in prospettiva intra-linguistica, (sezione 4.1), per poi passare a presentare gli strumenti e il metodo adottato i questa prima fase di sperimentazione (sezione 4.2). Dimostreremo come l'approccio proposto sia valido analiz- zando nello specico i risultati ottenuti in questa fase iniziale, che aprono a nuove indagini e a tutta una serie di domande da arontare per migliorare il sistema.

4.1 Inquadramento teorico del problema

Una delle caratteristiche proprie del linguaggio umano è la possibilità di ciascuna parola di poter assumere virtualmente un numero molto ampio di diversi sensi, ovvero il linguaggio è altamente polisemico1. Sebbene una singola parola possa essere associata a due o più sensi

correlati, all'interno del contesto specico in cui la parola ricorre essa viene disambiguata e le viene associata un'interpretazione specica. Facendo riferimento ai verbi, il senso assegnato alla parola è determinato da una combinazione di fattori contestuali rilevanti, quali 1) il quadro di sottocategorizzazione in cui il verbo ricorre, e 2) i tratti semantici dei suoi argomenti2. Come abbiamo più volte aermato nel corso di queste pagine, la valenza

verbale è strettamente dipendente dal particolare signicato che il verbo esprime, cosicché è possibile che quadri di sottocategorizzazione diversi siano associati a diversi sensi di uno specico verbo. Grimshaw (1994) sostiene questa ipotesi proponendo come esempio due frame distinti per il verbo inglese to shoot:

(18) a. She shot [N P the burglar]

b. The burglar shot out [P P of the room] (Grimshaw, 1994, p. 419)

Rumshisky (2008), d'altra parte, evidenzia come il senso del verbo selezioni alternanze argomentali dierenti prendendo ad esempio il comportamento del verbo to deny: le coppie di frasi in (19)-(20) presentano costruzioni dierenti, dimostrando che in questo caso il verbo partecipa a un'alternanza o meno in base al senso a lui associato. Nello specico, se il verbo assume il signicato di proclamare il falso ricorre all'interno di pattern transitivi (dove realizza l'oggetto negato con un sintagma nominale o una frase subordinata di modo nito), mentre nel senso di riutare di concedere ricorre in un frame ditransitivo e come tale permette l'alternanza dativa (da notare che tale distinzione di sensi si riscontra in maniera analoga anche in italiano, come si vede dalle traduzioni associate Le autorità hanno negato che ci fosse un'alternativa/il falso versus Le autorità hanno negato il visto al Primo Ministro.).

(19) a. The authorities denied [that−CLAU SEthat there is an alternative].

b. The authorities denied [N Pthese charges].

(20) a. The authorities denied [N Pthe Prime Minister] [N Pthe visa].

b. The authorities denied [N Pthe visa] [P Pto the Prime Minister]. (Rumshisky,

2008, p. 4)

Tuttavia, in altri contesti non si osservano comportamenti sintattici diversi a seconda del senso della frase; di conseguenza, solo le caratteristiche semantiche degli argomenti permettono di selezionare il senso corretto del verbo, come per i verbi to treat/trattare (22).

(21) a. John treated Mary with antibiotics. [MEDICAMENTO]

2Rumshisky (2008) usa il termine selettore rispetto agli argomenti verbali, in quanto selezionano uno

b. John treated Mary with respect. [QUALITÀ] (Rumshisky, 2008, p. 4) (22) a. Gianni ha trattato Maria con gli antibiotici.

b. Gianni ha trattato Maria con rispetto.

Questi esempi dimostrano come i parametri contestuali sintattici e lessicali interagi- scono in maniera dierente nella distinzione del signicato. Ovviamente queste osserva- zioni hanno posto diverse questioni che sono state approcciate all'interno degli studi sulla semantica lessicale (Pustejovsky, 1995, i.a): è possibile identicare quando il contesto seleziona uno specico senso e quando invece modula semplicemente il signicato? Qual è la relazione tra i diversi sensi associati? Quali processi composizionali sono coinvolti nella selezione del senso? Tali domande sono state anche arontate da un punto di vista computazionale nell'ambito della word sense disambiguation, ovvero nello sviluppo di si- stemi capaci di identicare in maniera automatica il corretto senso di una parola in un dato contesto (Navigli, 2009).

Al ne di risolvere la polisemia verbale utilizzando informazioni contestuali, uno degli studi che merita attenzione riguarda quello presentato da Rumshisky (2008). Rumshi- sky aerma che la fonte della dierenziazione del signicato del verbo è da individuarsi nella semantica degli argomenti, e di conseguenza i diversi sensi verbali sono si possono identicare sulla base della semantica delle parole che occorrono in una particolare po- sizione argomentale. In questo contesto, Rumshisky introduce il concetto di equivalenza di selezione (selectional equivalence): un termine w1 è un equivalente di selezione di un

elemento lessicale w2 rispetto a una certa relazione grammaticale R se uno dei suoi sensi

seleziona lo stesso signicato di w2 in quella posizione grammaticale. In questo senso, si

prescinde da nozioni di sinonimia o antonimia: l'equivalenza si basa sull'identicazione dello stesso evento, e da ciò si deduce che verbi che sono equivalenti relativamente a un senso del verbo target formano un sottoinsieme dei contesti per quel senso3. Questi dati

vengono utilizzati nello studio per clusterizzare sia gli argomenti che attivano lo stesso senso del verbo target sia gli equivalenti di selezione per quel senso.

D'altra parte, l'idea che due termini che occorrono in contesti linguistici simili deb- bano avere signicati simili è ben aermata in letteratura: a partire dalla famosa frase di Firth you shall know a word by the company it keeps (Firth, 1957), sono stati svi- luppati modelli in cui la rappresentazione del signicato di una parola è data dai contesti sintattici e lessicali in cui ricorre, quali l'ipotesi distribuzionale (distributional hypothesis (DH)) di Harris (1985) e la strong contextual hypotesis di Miller and Charles (1991), i quali hanno introdotto una misura di similarità semantica in termini distribuzionali come a function of the contexts in which words are used. Attualmente i modelli distribuzionali

3Verbs that are selectionally equivalent to one of the senses of the target verb eectively form a subset

usano una rappresentazione basata sugli spazi vettoriali (Vector-space models, VSM), in cui una parola è rappresentata come un vettore dei contesti sintattici e semantici di tale parola. Tali modelli orono così un modo per apprendere rappresentazioni del signicato dei dati direttamente dai dati, e queste possono essere utilizzate per calcolare la similarità tra parole in termini di distanza tra i vettori (per una rassegna più computazionale, si rimanda a Jurafsky and Martin (2008) e Turney and Pantel (2010)). Negli ultimi anni si è assistito allo sviluppo di modelli vettoriali che permettono di catturare un ampio numero di relazioni semantiche e sintattiche tra parole, come ad esempio word2vec (Mi- kolov et al., 2013), modelli che hanno avuto e hanno tutt'ora un impatto signicativo nella performance di numerosi task TAL. Tuttavia, la rappresentazione monosemica di un vettore per ciascuna parola limita la sua applicazione, soprattutto se si considerano i vettori verbali in cui la polisemia è molto più alta rispetto alle altre parti del discorso. Nella letteratura si riportano alcuni modelli che hanno cercato di codicare l'ambiguità lessicale all'interno di spazi semantici distribuzionali, come i lavori di Reisinger and Moo- ney (2010); Huang et al. (2012), i quali propongono metodi per realizzare più vettori per ciascun termine applicando prima tecniche di clustering. Il problema di questi approcci non supervisionati è che non orono nessun collegamento a un inventario di sensi stan- dard, e la granularità con cui vengono selezionati i sensi può essere utile in alcuni contesti ma non in altri. Inoltre, tutti questi approcci richiedono reti neurali estremamente so- sticate e possono essere applicati in domini specici, perdendo il vantaggi tipici dei word embedding (Sun et al., 2017).

Documenti correlati