Aumentare i vettori tramite modelli multimodali: perche per descrivere un verbo servono le immagini

(1)

UNIVERSITÀ DI PISA

Dipartimento di Filologia, Letteratura e Linguistica Corso di Laurea Magistrale In Informatica Umanistica

TESI DI LAUREA

Aumentare i vettori tramite modelli multimodali: perché per descrivere un verbo servono le immagini

RELATORE:

Prof. Alessandro Lenci

CANDIDATO:

Irene Sucameli

(2)

Indice

1 Introduzione 1

2 Background 4

2.1 I verbi sono vettori, i nomi matrici . . . 4

2.2 I Modelli di Semantica Distribuzionale in breve . . . 5

2.3 I modelli distribuzionali visivi . . . 8

2.3.1 Le Bag of Visual Words, queste sconosciute . . . 8

2.4 I modelli multimodali . . . 10

2.4.1 I limiti dei modelli multimodali . . . 11

3 Ricerche recenti e lavori correlati 13 3.1 Il primo modello multimodale . . . 13

3.2 Un’altra modalità, la concatenazione vettoriale . . . 15

3.3 The zero-shot learning . . . 17

3.4 Predire automaticamente feature di oggetti . . . 19

3.5 Dal concreto all’astratto . . . 21

3.6 Distinguere i colori tramite modelli visivi . . . 22

3.7 Perché riconoscere solo gli oggetti non basta . . . 24

3.8 Nomi e verbi nei modelli multimodali . . . 26

3.9 I MDSMs e la ricerca cognitiva . . . 28

3.10 Strumenti per le rappresentazioni visive . . . 29

4 Le risorse testuali 33 4.1 Il dataset SimLex . . . 34

(3)

5 Le risorse visive 40

5.1 ImageNet . . . 40

5.2 MMFeat . . . 43

6 Verso la costruzione delle matrici 49 6.1 Dalla matrice sparsa ... . . 49

6.2 ... A quella ridotta . . . 53

7 Valutazione dei modelli 55 7.1 Calcolare la similarità semantica con i coseni . . . 55

7.2 Analisi dei coseni . . . 57

7.3 Confronto tra i tre modelli . . . 65

8 Il confronto con SimLex-999 68 8.1 Concreto vs astratto . . . 71

9 Miglioramenti futuri 73 9.1 Implementare il modello visivo con dati testuali . . . 73

9.2 The more, the better . . . 75

9.3 Rappresentare i nomi tramite feature visive . . . 76

10 Conclusioni 78 11 Appendice 82 11.1 I codici utilizzati . . . 82

11.1.1 Codice per l’estrazione delle immagini . . . 82

11.1.2 Codice per costruire le matrici di co-occorrenza . . . 85

11.1.3 Codice per il calcolo dei coseni . . . 88

11.2 Le tabelle . . . 92

11.2.1 Tabella dei verbi . . . 92

11.3 Valori di similarità tra SimLex e M1 . . . 93

11.4 Valori di similarità tra SimLex e M2 . . . 95

(4)

Capitolo 1

Introduzione

Any object in an image is, in a sense, a visual phrase (Dinu et al., 2015)

Nella presente tesi è descritto il processo di creazione del primo spazio

semantico distribuzionale visivo elaborato all’interno dell’Università di Pisa.

Si propone un’architettura che confronti informazioni distribuzionali basate sul testo con informazioni di tipo visivo; si vuole così dimostrare come tale modello visivo permetta di rappresentare efficacemente la similarità semantica tra le le parole ottenendo performance pari, se non maggiori, a quelle ottenute tramite l’utilizzo dei vettori testuali.

Il modello visivo sviluppato è applicato in particolar modo all’indagine sui verbi, una delle classi grammaticali più complesse da rappresentare distribu-zionalmente ma al contempo in grado di fornire più informazioni su eventi e azioni. Queste informazioni sono difficili da estrarre e da analizzare perché basate sulla combinazione degli elementi che si accompagnano al verbo.

La presente tesi si sviluppa quindi a partire da due assunti: il primo è che il significato di un verbo può essere ottenuto dalla scomposizione e dalla distinzione dei sostantivi che insieme co-occorrono con il verbo in funzione di soggetto o di oggetto. L’insieme di tali sostantivi contribuisce alla costituzione del significato del verbo. Il secondo assunto è che il significato del verbo può essere descritto in maniera efficace tramite l’ausilio di risorse visive.

Per permettere di contestualizzare la ricerca presentata, nel Capitolo 1 si de-scrive brevemente cosa siano i Modelli di Semantica Distribuzionale (DSMs) e

(5)

l’i-dea che sta alla base del loro sviluppo. Si spiega poi come sia possibile realizzare, partendo da questi ultimi, modelli distribuzionali visivi e multimodali.

Nel Capitolo 2 viene effettuata una panoramica dello Stato dell’Arte attuale per consentire sia di inquadrare meglio la ricerca presentata nella tesi, sia per dare al lettore maggior contezza delle molteplici applicazioni dei modelli visivi.

Nei Capitoli 3 e 4 sono invece presentati i dataset e i toolkit utilizzati per effettuare il nostro progetto di ricerca; essendo quest’ultimo incentrato sulla realizzazione di un modello distribuzionale visivo, sono state adottate sia risorse contenenti informazioni di carattere linguistico, sia dataset e strumenti per l’analisi delle immagini.

Nel Capitolo 5 viene descritta la metodologia seguita e il procedimento effettuato per l’estrazione dei vettori e la costruzione delle matrici di co-occorrenza. Successivamente nei Capitoli 6 e 7 si illustra l’analisi compiuta attraverso il confronto dei valori di cosine similarity registrati dai vettori linguistici e da quelli visivi. A seguire si presenta la valutazione dei modelli realizzati, al fine di determinare se l’approccio adottato ha apportato un effettivo miglioramento nel definire la similarità semantica tra i verbi.

Proposte di sviluppi futuri del progetto sono infine presentate nel Capitolo 8 che precede il capitolo delle Conclusioni in cui si presentano i risultati ottenuti e le riflessioni finali.

Le applicazioni pratiche della presente ricerca sono numerose. Tra queste senza dubbio c’è la possibilità di permettere l’incremento e il perfezionamento dei sistemi di riconoscimento, classificazione e descrizione delle immagini, a cui sia gli ambienti accademici sia quelli aziendali guardano con sempre maggior interesse. Rendere un computer in grado di riconoscere le azioni descritte da immagini è un compito complesso ma senz’altro ricco di attrattiva. Se infatti un sistema informatico riuscisse ad apprendere automaticamente che un’azione, come quella del bere, è data dalla somma (presumibilmente) della figura di un essere vivente, di un bicchiere e di una bevanda, non soltanto ci sarebbero importanti ripercussioni in vari settori, dal ricreativo al sanitario, ma saremmo anche un passo più vicini all’intelligenza artificiale.

(6)

di un modello multimodale che combini al suo interno informazioni di tipo visivo ed informazioni testuali. La concatenazione all’interno di uno spazio semantico multimodale di queste due tipologie di informazioni consentirebbe infine la realizzazione di verbi aumentati, ossia definiti dalla combinazione di più elementi.

(7)

Capitolo 2

Background

Prima di illustrare il progetto realizzato, si ritiene opportuno inquadrare il contesto entro cui tale ricerca si colloca, descrivendo anzitutto perché si è scelto di incentrare la ricerca sulla classe dei verbi e successivamente passando a parlare delle varie tipologie di Modelli di Semantica Distribuzionale. Si vuole così fornire una panoramica dell’organizzazione nonché delle problematicità e delle opportunità che tali modelli presentano.

2.1 I verbi sono vettori, i nomi matrici

Parafrasando quanto scritto da Baroni e Zamparelli nel 2010 si può dire che

i verbi sono vettori, i nomi matrici.

Così come infatti nello studio condotto da Baroni e Zamparelli (incentrato sul rapporto sostantivi-aggettivi) i nomi sono considerati come vettori e gli aggettivi come funzioni lineari indotte dai dati (nominali), allo stesso modo si può considerare un verbo come un vettore le cui componenti sono costituite dai nomi che tipicamente co-occorrono con quel verbo. La scelta compiuta nella nostra ricerca di focalizzare l’attenzione sulla classe verbale è dovuta anzitutto al ruolo saliente giocato da questa categoria grammaticale all’interno della frase. Come già detto in precedenza infatti, i verbi più dei sostantivi e degli aggettivi, costituiscono importanti fonti di informazioni su gli eventi e le azioni descritte nella frase. Inoltre, questi impongono vincoli non soltanto sintattici alle parole con cui co-occorrono (gli argomenti del verbo) ma anche semantici (e.g. il ruolo

(8)

tematico assegnato agli argomenti).

E’ quindi evidente l’importanza dei verbi nonché la loro stretta interazione con gli elementi non verbali. Proprio per questo tramite i verbi è possibile ricavare informazioni anche sulle entità che tipicamente partecipano all’azione (McRae et al., 2015). Primi tra tutti i sostantivi che rappresentano, secondo la definizione di McRae (2015), "i partecipanti salienti nell’attivazione della

memoria dell’evento" 1

2.2 I Modelli di Semantica Distribuzionale in breve

La semantica distribuzionale si basa sull’idea che termini semanticamente simili tendono a essere usati all’interno degli stessi contesti. Questa ipotesi, che prende il nome di ipotesi distribuzionale, ha avuto un enorme impatto sulla linguistica computazionale perché permette di desumere, basandosi sui contesti in cui la parola occorre, il significato della parola stessa(Bruni et al., 2014). La semantica distribuzionale è quindi lo studio di come la distribuzione dei lessemi all’interno del contesto linguistico possa essere usata per modellare dati semantici.

In merito alla semantica distribuzionale si distinguono due ipotesi: l’ipotesi distribuzionale debole e l’ipotesi distribuzionale forte (Lenci, 2008). Nella prima, il significato di una parola si riflette nella sua distribuzione linguistica

2_{. In questo caso, tramite l’analisi dei contesti distribuzionali, è possibile}

identificare le parole con significati simili. In base alla seconda ipotesi invece, le distribuzioni della parola all’interno dei contesti ricoprono un ruolo causale nella sua descrizione semantica; le proprietà distribuzionali della parola sono dunque viste come un fattore esplicativo della competenza semantica dei parlanti.

I modelli di semantica distribuzionale (DSMs), anche conosciuti come modelli di significato basati su uno spazio vettoriale (o semantico), sono metodi computazionali che applicano l’ipotesi distribuzionale all’interno di un quadro sperimentale per l’analisi semantica.

1_{Nell’originale, "nouns (are)[. . .] salient partecipants in the activated event memory."} 2_{La distribuzione linguistica di una parola target è data dalla somma dei suoi dati} distribuzionali unitamente alle sue co-occorrenze all’interno del contesto

(9)

Figura 2.1: Esempio di vettori distribuzionali

Per far questo, i DSMs estraggono dai corpora testuali le parole insieme ai loro contesti linguistici. Ogni elemento lessicale viene quindi rappresentato tramite un vettore distribuzionale 3_{costruito sulla base del conteggio delle}

co-occorrenze. La similarità delle parole all’interno dello spazio distribuzionale viene quindi calcolata in base alla posizione dei vettori nello spazio (Fig. 2.14₎

e utilizzando misure di similarità (e.g. calcolo dei coseni).

Il modello vettoriale appena descritto viene a sua volta esteso e generalizzato da quello matriciale. In quest’ultimo l’informazione distribuzionale degli ele-menti lessicali è rappresentata tramite l’utilizzo di una matrice di co-occorrenza in cui le righe corrispondono agli elementi lessicali, le colonne al contesto e le entrate alle loro co-occorrenze.

I modelli di semantica distribuzionale si presentano quindi secondo la struttura < T,C,W,M,R,S > dove:

• T sono gli elementi target • C sono i contesti

• W indica lo schema utilizzato per pesare i contesti (e.g. calcolo delle frequenze, entropia, misure di associazione etc.)

3_{Un vettore è costituito da una lista di numeri reali, all’interno della quale ogni numero} rappresenta l’n-esimo elemento della lista. Un vettore distribuzionale è costituito dai tratti distribuzionali che rappresentano le co-occorrenze della parola target all’interno del contesto linguistico.

4_{Immagine tratta dalle slide del corso "Distributional semantics" tenuto da A.Lenci presso} la Scuola Normale Superiore di Pisa (2017).

(10)

• M rappresenta la matrice di co-occorrenza • R descrive la riduzione della dimensionalità • S indica la misura di similarità utilizzata

Uno dei vantaggi più evidenti dei DSMs è l’essere applicabile a diversi sistemi linguistici e task di diverso tipo, tra cui: task relativi alla disambiguazione, alla preferenza di selezione o alla distinzione tra relazioni.

Tuttavia i DSMs presentano, accanto ai numerosi vantaggi, anche alcune limitazioni. Le due più evidenti sono note come the symbol grounding problem (Harnad, 1990) e lack of reference (Abbott, 2010).

La causa del primo problema è che, all’interno di un modello distribuzionale, una parola (anche detta "simbolo") viene rappresentata esclusivamente in termini di occorrenza con le altre parole (simboli) del corpus, senza che vi siano connessioni con mondo esterno (Bruni et al., 2014). Pertanto, i DSMs tendono a cogliere proprietà complesse dei simboli ma a non registrare attributi che un essere umano riterrebbe maggiormente intuitivi e concreti. Ad esempio, è più probabile estrarre da un testo l’informazione che un limone è aspro rispetto al fatto che è giallo; questo perché difficilmente un autore scriverebbe un’informazione tanto ovvia come "i limoni sono gialli" ( Baroni 2008, Riordan 2011, Andrews 2009).

Il problema della mancanza di riferimento è connesso a queste limitazioni: i modelli vettoriali sono in grado di individuare due termini come semanticamente correlati all’interno di uno spazio linguistico; tuttavia, poiché non sono in grado di identificare visivamente il concetto che i due termini rappresentano, non possono verificare la veridicità della loro stessa asserzione (Lazaridou et al., 2014).

(11)

2.3 I modelli distribuzionali visivi

Mentre i modelli distribuzionali fino a questo momento presentati costruisco-no i vettori utilizzando informazioni di tipo linguistico, i modelli distribuzionali visivi codificano informazioni estratte da immagini.

Per far questo tali modelli utilizzano le Bag of Visual Words (BoVW).

2.3.1 Le Bag of Visual Words, queste sconosciute

Usando la definizione fornita da Bruni et al. (2011) il termine "bag of words" indica "a dictionary-based method in which a document is represented as a ’bag’ (i.e., order is not considered), which contains words from the dictionary"5_.

Con il metodo delle BoW si estrae quindi dal corpus una finestra di parole o una frase e si registrano separatamente le varie co-occorrenze per tutti i target compresi nella finestra.

Le Bag-of-Visual-Words si sviluppano da un’idea simile e si applicano all’estrazione di vettori da un’immagine. Il processo di estrazione delle Visual Words segue i seguenti punti:

i) anzitutto, per ogni immagine contenuta nel dataset, sono identificati i punti-chiave, ossia quelle aree che contengono informazioni salienti relativamente all’immagine;

ii)successivamente, per rappresentare ogni area viene costruito un vettore a bassa dimensionalità chiamato descrittore (descriptor ), come mostrato nella Figura 2.26_.

iii) i vettori collocati all’interno dello spazio descrittore (descriptor space) sono poi raggruppati e clusterizzati7 _{in base alla loro similarità.}

iv) I descrittori sono quindi mappati come visual words sulla base della loro distanza dal centro del cluster. La distribuzione dei vettori ottenuti costituisce la rappresentazione delle immagini (Fig.2.3).

5_{Testo tratto da E. Bruni, G.B. Tran and M. Baroni, "Distributional semantics from text} and images" pag. 22 (2011)

6_{Le Figure 1.3, 1.4 e 1.5 sono tratte da Anderson et al., "Reading visually embodied} meaning from the brain: Visually grounded computational models decode visual-object mental imagery induced by written text", 2015.

7_{Il clustering è un insieme di tecniche di analisi dei dati volta alla selezione e} rag-gruppamento di elementi omogenei all’interno di un insieme di dati (DataScience.com https://www.datascience.com/blog/k-means-clustering).

(12)

Figura 2.2: Estrazione dei descrittori in base ai punti chiave

dell’immagine.

Figura 2.3: I descrittori sono clusterizzati e rappresentati sotto

forma di vettori in base alle loro componenti visive.

v) Infine, come mostrato in Figura 2.4, vengono combinate le rappresenta-zioni rilevanti dell’immagine in una complessiva rappresentazione visiva della parola (E. Bruni 2011, 2012, ?).

Uno dei maggiori vantaggi nell’utilizzare le BoVW è che la loro rappresen-tazione è pienamente confrontabile con quella delle bag of words, rendendo possibile il confronto tra i vettori testuali e quelli visivi. Di contro, i modelli visivi spesso registrano prestazioni inferiori a quelle dei modelli testuali e non

(13)

Figura 2.4: Dato un set di immagini che rappresenta lo stesso

concetto, la rappresentazione del concetto è ottenuta dalla somma dei vettori che descrivono le immagini input.

sono sempre si rivelano in grado di cogliere a pieno la similarità semantica tra le parole.

2.4 I modelli multimodali

I modelli distribuzionali multimodali (MDSMs) arricchiscono i vettori lin-guistici dei DSMs con altri tipi di informazioni, le più comuni delle quali sono le informazioni visive estratte dall’analisi di dataset di immagini (Lazaridou et al., 2015). I MDSMs offrono migliori prestazioni rispetto agli approcci basati sulla sola analisi testuale e ne superano alcuni limiti, come quello della mancanza di riferimento, ricordato già sopra.

(14)

Figura 2.5: Schema esemplificativo della concatenazione di risorse

testuali e visive in un modello semantico distribuzionale.

Due modalità Sostanzialmente, le modalità più utilizzate per integrare informazioni linguistiche e informazioni testuali sono due, ossia: attraverso la concatenazione (Bruni et al., 2011) o congiuntamente (Feng e Lapata, 2010).

Nel caso della concatenazione i vettori basati sulle risorse linguistiche e quelli basati sulle immagini sono anzitutto normalizzati e organizzati in matrici in cui le righe rappresentano le parole mentre le colonne costituiscono gli elementi di co-occorrenza. Per poter essere concatenate le due matrici devono presentare lo stesso set di parole target; se questo presupposto è rispettato è possibile concatenarle in una singola matrice, come esemplificato in Figura 2.5 (Bruni et al., 2014).

I modelli multimodali congiunti sono invece ottenuti tramite l’estrazione dei dati testuali e visivi dalla stessa fonte (Feng e Lapata, ad esempio, utilizzano un set di testi giornalistici in cui a ogni articolo è associata un’immagine relativa all’argomento). I vettori di entrambe le tipologie di dati devono inoltre essere rappresentati come bag of words (di cui si parla nella sezione successiva) e le due modalità devono esprimere lo stesso contenuto.

2.4.1 I limiti dei modelli multimodali

Come già detto in precedenza, i MDSMs permettono un arricchimento dei vettori linguistici, nonché un miglioramento dei modelli distribuzionali. Tuttavia, come questi ultimi, anche i primi presentano degli svantaggi.

(15)

Anzi-tutto, i MDSMs sono generati costruendo separatamente lo spazio linguistico e quello visivo e solo dopo unendo i due; questa modalità di apprendimento tuttavia è molto diversa rispetto a quella utilizzata dagli essere umani, per i quali l’acquisizione di nuove parole avviene generalmente all’interno di un unico contesto percettivo. Inoltre, i MDSMs si basano sull’errata generalizzazione che informazioni testuali e visive siano accessibili per tutti i concetti. Questo presupposto è tuttavia sbagliato come dimostrano numerosi studi (Lazaridou et al. 2015, Anderson et al. 2017) che evidenziano la difficoltà, e in alcuni casi l’impossibilità, di ricavare immagini rappresentative di concetti quali felicità o

(16)

Capitolo 3

Ricerche recenti e lavori correlati

Per permettere di comprendere meglio le possibili applicazioni degli spazi visivi e multimodali, si presentano di seguito alcuni progetti particolarmente significativi e innovativi sviluppati negli ultimi anni all’interno di tale ambito.

3.1 Il primo modello multimodale

I primi a occuparsi di MDSMs sono Feng e Lapata nel 2010. Lo scopo del loro ambizioso progetto è quello di sviluppare un quadro di modellazione unificato del significato delle parole che combini al suo interno le mutue dipendenze tra il contesto linguistico e quello visivo. Feng e Lapata costruiscono quindi un modello che, combinando informazioni testuali e visive, è in grado di apprendere le rappresentazioni semantiche delle parole.

La scelta effettuata dai due autori della ricerca è quella di non modellare esplicitamente le corrispondenze tra le parole e i tratti dell’immagine ma di sviluppare una rappresentazione multimodale basata su informazioni visive e di statistica distribuzionale in cui l’associazione tra il testo e le corrispettive immagini venisse realizzata automaticamente.

Per poter raggiungere tale risultato è stato utilizzato un corpus che al suo interno comprende entrambe le tipologie di informazione: il BBC News website1_{. Da questo corpus sono quindi estratti 3.361 documenti ognuno dei}

quali comprende un contenuto testuale e un’immagine ad esso associata (Fig. 3.1). Le immagini e i documenti costituiscono però modalità di informazione

(17)

Figura 3.1: Documento del BBC News website

contenente sia il testo che immagine ad esso associata

diverse e, mentre le prime sono descritte da uno spazio dei tratti continuo (si pensi al colore, alla texture ecc.), le parole sono invece discrete, separate. Per risolvere tale problema Feng e Lapata convertono le componenti delle immagini da uno spazio continuo a uno discreto, utilizzando l’algoritmo di Scale Invariant Feature Transform (Lowe, 1999) per calcolare i descrittori delle immagini.

I descrittori SIFT (di cui si parlerà in maniera più approfondita in seguito), calcolati automaticamente sulla base dei punti più importanti dell’immagine, presentano rispetto ad altri modelli di partizione delle figure (come la segmen-tazione delle immagini all’interno di un sistema di griglie uniformi) il vantaggio di rimanere invariati nonostante i cambiamenti di illuminazione, posizione o punto di vista del soggetto (Fig 3.2).

Applicando il rilevatore di punti SIFT, le immagini vengono trasformate in un vettore formato da bag-of-words. A questo punto, poiché sia le immagini che i documenti sono rappresentati tramite bag-of-words e descrivono lo stesso contenuto, è possibile rappresentare ogni documento come un insieme di parole verbali e visive, costruendo così un modello multimodale congiunto.

Dopo la realizzazione del modello, Feng e Lapata sperimentano la bontà del nuovo sistema confrontandolo con un sottoset di WordSim353 (Finkelstein et al. 2002). Tale dataset comprende giudizi di relazione assegnati dai parlanti

(18)

Figura 3.2: Confronto tra la modalità di segmentazione

dell’immagine tramite griglie e il rilevatore di punti SIFT

e riferiti a 353 coppie di parole.

I risultati dell’esperimento di confronto, effettuato tramite l’utilizzo del coefficiente di Pearson 2, evidenzia i) che il modello di Feng e Lapata non solo supera la performance di quello solo testuale (con una differenza nella performance pari a p < 0.05), ii) che le informazioni visive permettono di realizzare cluster migliori e che iii) il modello multimodale è in grado di catturare le correlazioni percettive tra le parole.

Viene così dimostrato per la prima volta che è possibile ottenere una corrispondenza molto simile alla similarità e alle associazioni che gli essere umani individuano tra le parole se si integra la modalità visiva nel modello distribuzionale.

3.2 Un’altra modalità, la concatenazione vettoriale

Nel realizzare il primo modello multimodale Feng e Lapata propongono di combinare congiuntamente le informazioni testuali con quelle visive. Questo modello tuttavia, nonostante l’innovazione apportata allo studio della seman-tica distribuzionale, presenta due limitazioni. Anzitutto si rendono necessari l’utilizzo di un corpus contenente sia informazioni testuali sia quelle visive e la realizzazione di un metodo di estrazione del contesto che sia compatibile con l’interno modello multimodale. Inoltre addestrare un modello che congiunge

(19)

testo e immagini rende complicato valutare il peso dei singoli vettori visivi sulla performance complessiva.

Per risolvere tali limitazioni Bruni et al. (Bruni et al., 2011), propongono un’altra modalità, ossia quella di concatenare i vettori delle immagini con quelli testuali, al fine di produrre un solo vettore multimodale che rappresenti la parola. Secondo tale sistema, data una parola ne viene creato il vettore sia all’interno del modello testuale che di quello visivo; i due vettori sono poi normalizzati e concatenati per ottenere il vettore semantico distribuzionale multimodale. La matrice ottenuta da questa concatenazione costituisce il nuovo modello multimodale.

Come dataset testuale Bruni et al. selezionano DM, un modello realizzato nel 2010 da Baroni e Lenci e addestrato su un corpus di 2.8 miliardi di token estratti da Wikipedia e da BNC. Per quanto riguarda le immagini invece, viene utilizzato come dataset l’ESP-Game dataset (von Ahn e Dabbish, 2004), contenente 50K di immagini etichettate. I tag delle immagini costituiscono un vocabolario di 11K di tipi di parole. A queste immagini, come già fatto da Feng e Lapata, Bruni e i suoi colleghi applicano il rilevatore di punti SIFT per individuare automaticamente i punti chiave delle immagini e mapparli in Bag-of-Visual-Words.

I vettori testuali e visivi così prodotti, sono poi concatenati utilizzando un sistema che gli stessi autori chiameranno successivamente "Feature Level Fusion" (Bruni et al., 2014). In questo sistema si applica un metodo di fusione pesata lineare per combinare le due tipologie di vettori in una singola rappresentazione che viene poi usata per stimare la similarità delle coppie. Tale funzione di concatenazione è così definita:

F = α ∗ Ft⊕ (1 − α) ∗ Fv (3.1)

Dopo tale concatenazione, la bontà del modello viene valutata confrontan-dolo con due modelli esclusivamente testuali: WordSim-3533 _{(Finkelstein et al.,}

2002) citato già precedentemente, e BLESS 4 _{(Baroni and Lenci, 2011).}

Que-3_{Pagina di WordSimilarity-353 Test Collection: http://www.cs.technion.ac.il/~gabr/} resources/data/wordsim353/

(20)

st’ultimo è un dataset contenente 200 coppie di nomi per le seguenti relazioni: iperonimia (yacht-boat), co-iponimia (yacht-sailboat), meronimia (yacht-engine), attributi tipici (yacht-expensive, eventi correlati tipici (yacht-cruise) o relazione random (yacht-justice).

Dal confronto dei modelli emerge non soltanto che il modello multimodale presenta prestazioni migliori rispetto a quelli testuali ma anche che se si costruisce un modello solo di immagini, quest’ultimo presenta la performance peggiore sia rispetto ai modelli testuali sia rispetto a quello multimodale. Dalla ricerca condotta viene inoltre evidenziato come mentre i modelli fondati su immagini sono più orientati a catturare le similarità tra i concetti concreti, prestando attenzione a proprietà quali il colore o la forma, i modelli testuali sono più orientati verso gli oggetti astratti e alle loro proprietà. Pertanto, un modello che combina queste due tipologie di informazioni è in grado di fornire una caratterizzazione più completa dei concetti di una lingua.

3.3 The zero-shot learning

Lo sviluppo dei modelli visivi ha aperto le porte a numerose ricerche e progetti. Uno dei task con cui molti studiosi si sono confrontati nel corso degli anni è quello dello zero-shot learning. Per questo task è richiesto al modello di associare una rappresentazione linguistica ad un’immagine raffigurante oggetto mai visto prima.

A tal proposito è opportuno ricordare la ricerca di Lazaridou et al. 2014 che introducono una variante del zero-shot learning attraverso l’utilizzo di una associazione veloce (fast mapping). Tale metodo riproduce la modalità di apprendimento dei bambini che, quando sono esposti a un nuovo oggetto, posseggono poche informazioni linguistiche per definirlo. All’interno di questo contesto linguistico limitato l’apprendente deve imparare ad associare il nuovo oggetto a una definizione. Il fast mapping può essere quindi considerato come un caso speciale del zero-shot learning task. Mentre infatti il presupposto di quest’ultimo è che tutti i concetto hanno rappresentazioni linguistiche ricche e accurate, il fast mapping considera il caso in cui è necessario definire, all’interno di un contesto linguisticamente limitato, un nuovo oggetto.

(21)

Per lo svolgimento dell’esperimento Lazaridou et al. utilizzano due dataset lessicali: l’ESP-game e CIFAR-100 (Krizhevsky, 2009). Quest’ultimo comprende 60.000 immagini a colori raffiguranti 100 diversi concetti, divisi in 20 categorie. Dalle immagini di questi due dataset sono stati estratti i vettori usando il metodo delle Bag-of-Visual-Words; a questi è stata applicata la Local Mutual Information ed è stato ridotto lo spazio delle co-occorrenze a 300 dimensioni tramite la Singular Value Decomposition (SVD).

Per costruire i vettori testuali sono invece estratte le co-occorrenze statistiche dalla concatenazione di ukWaC e Wikipedia, per un totale di 2.7 miliardi di tokens. I vettori semantici sono costruiti su un set di 30K parole target e poi trasformati tramite LMI e ridotti a 300 dimensioni con SVD.

Dopo aver estratto entrambe le tipologie di vettori, è stato condotto l’e-sperimento di associazione oggetto-testo. Ai fini dell’el’e-sperimento Lazaridou et al. utilizzano solo gli N concetti che avevano sia una rappresentazione basata sulle immagini sia una basata sul testo. L’associazione cross-modale, realizzata tramite l’utilizzo di reti neurali, è quindi usata per implementare 5 modelli: context 1, context 5, context 10, context 20 e context full. Il nome d ognuno dei modelli denota il numero di frasi utilizzato per costruire la rappresentazione testuale. Dall’esito dell’esperimento emerge che il modello di fast mapping

Figura 3.3: Valori di media ottenuti per l’associazione

dal vettore visivo ai suoi vicini linguistici (v -> w) e per l’associazione dal vettore testuale ai suoi vicini visuali (w -> v). I valori più bassi indicano una performance

migliore

(22)

i valori di performance sembrano migliorare parallelamente al numero di frasi utilizzate per la rappresentazione (Fig. 3.3).

I modelli multimodali, secondo Lazaridou et al., possono quindi apportare effettivi miglioramenti alla risoluzione di task di zero-shot learning e di fast

mapping.

3.4 Predire automaticamente feature di oggetti

La ricerca di Făgărăsan et al. (2015) è in parte connessa al lavoro preceden-temente descritto.

Oggetto dell’indagine di Făgărăsan et al. è infatti la realizzazione di un metodo automatico per la predizione delle caratteristiche (feature norms) degli oggetti, ottenuto tramite l’associazione di uno spazio semantico distribuzionale con uno che utilizza le feature norms. In uno spazio semantico basato sulle feature i concetti sono trattati come le parole target, le feature come le parole contesto mentre i conteggi delle co-occorrenze sono sostituite dalle frequenze di produzione (ossia il numero di partecipanti che ha indicato quella caratteristica per un dato concetto, come mostrato in Fig. 3.4). Per il progetto da loro sviluppato, Făgărăsan et al. realizzano due diversi spazi semantici basati sulle feature (FS) e quattro di tipo distribuzionale (DS) basati sul corpus Wikipedia:

• FS1 utilizza come contesto le feature presenti nel dataset di McRae et al. (McRae et al., 2005);

• FS2, basato su FS1 ridotto a 300 dimensioni tramite SVD;

• DS1 che considera come contesti le 10K parole più frequenti in Wikipedia; • DS2, basato su gli stessi contesti di DS1 ma con i valori pesati tramite PPMI

e normalizzati;

• DS3, in cui vieve applicata una SVD a 300 dimensioni latenti al modello DS2 e infine

• DS4, uguale a DS3 ma con la normalizzazione dei valori effettuata dopo la riduzione della dimensionalità.

(23)

Figura 3.4: Esempio della rappresentazione di ’cat’

nello spazio basato sulle feature e in quello distribuzionale

Lo scopo del progetto è quindi quello di realizzare una funzione f : DS→FS che associ il vettore distribuzionale di un concetto al suo vettore di feature. Utilizzando un test set di 400 concetti del dataset di McRae, Făgărăsan et al. calcolano dunque dapprima il vettore del concetto in DS per poi restituire i vicini semantici del vettore (calcolati utilizzando la cosine similarity) in FS.

I risultati ottenuti dall’esperimento realizzato dimostrano che i modelli sviluppati (sopratutto DS3→FS1)sono in grado di individuare le feature più probabili per concetti non visti in precedenza, come mostrato dalla Figura 3.5.

Figura 3.5: Analisi qualitativa per 10 concetti del test

set. L’asterisco marca le feature non elencate nel vettore di feature gold standard per i concetti dati

Da un’analisi qualitativa sui risultati emerge inoltre che i modelli sono maggiormente in grado di riconoscere le feature corrette se queste appartengono alla sfera percettiva piuttosto che a quella astratta.

Grazie all’approccio sviluppato da Făgărăsan et al. è possibile comprendere meglio la relazione tra l’uso distribuzionale di una parola e come noi rappresen-tiamo, a livello cognitivo e pratico, il concetto corrispondente. Inoltre, affermano gli autori in conclusione, questa relazione potrebbe essere compresa più a fondo

(24)

se le informazioni di tipo testuale venissero integrate con informazioni di tipo visivo e audio, come viene fatto dai moderni modelli multimodali.

3.5 Dal concreto all’astratto

Un altro task con cui molti ricercatori si sono confrontati è quello relativo all’apprendimento di concetti astratti da parte dei sistemi multimodali. Infatti, quest’ultimi sono in grado di riconoscere con un alto grado di accuratezza termini come casa o cane mentre presentano prestazioni peggiori nel riconoscimento di concetti come libertà o giustizia. E tuttavia l’apprendimento delle parole astratte è di importanza fondamentale sia perché la maggioranza delle parole di uso comune è riconducibile a questa classe, sia perché i concetti astratti codificano informazioni di livello più alto rispetto alle parole concrete.

Non sorprende pertanto la ricerca di Hill e Korhonen (Hill and Korhonen, 2014), i quali hanno focalizzato il loro studio sullo sviluppo di un sistema che fosse in grado di apprendere tanto i nomi concreti quanto quelli astratti. Poiché inoltre il beneficio derivato dall’aggiunta di informazioni di tipo visivo sembra diminuire più i target sono astratti, Hill e Korhonen hanno cercato di individuare il numero e la tipologia ottimale delle immagini che i modelli dovrebbero utilizzare.

L’architettura proposta si basa su lo skip-gram model proposto da Mikolov et al. (Mikolov et al., 2013). Tale modello è in grado, per ogni parola target data, di massimizzare la probabilità di estrarre determinate parole contesto. Concetti che appaiono in contesti simili tenderanno dunque ad avere significati simili. Hill e Korhonen implementano il modello di Mikolov, estraendo le informazioni dalle immagini e codificandole in un array P che associa le parole

w alle bags-of-features b(w). Le informazioni di tipo visivo sono estratte da due

dataset: ESP-Game e CSLB (Devereux et al., 2013), un dataset contenente le proprietà semantiche per 638 concetti concreti. Le informazioni di tipo testuale sono state estratte da Text8 Corpus5_{, costituito da testi di Wikipedia.}

Per valutare la qualità delle rappresentazioni è stato usato l’University of South Florida Norms (Nelson et al., 2004), contenente i punteggi di associazione

(25)

per oltre 40.000 coppie di concetti. Hill e Korhonen hanno quindi misurato il coefficiente di Spearman6 _{tra i punteggi di associazione e il coseno di similarità}

tra i vettori. Analizzando i risultati, i concetti sono stati poi suddivisi in tre tipologie:

• Tipo I: concetti che vengono in egual modo descritti sia dai modelli multi-modali che da quelli testuali. Rientrano in questa categoria i nomi e i verbi concreti;

• Tipo II: concetti, inclusi i verbi astratti, la cui rappresentazione può essere incrementata dalla combinazione di informazioni visive e linguistiche; • Tipo III: concetti, come i nomi astratti, che possono essere appresi solo

tra-mite modelli testuali. In questo caso i modelli multimodali non producono alcun miglioramento nella qualità della loro rappresentazione.

In merito al quantitativo di dati necessari per la realizzazione di un modello multimodale ottimale, Hill e Korhonen evidenziano infine come, per i concetti di Tipo I e II (gli unici a trarre benefici da questo tipo di modello) la quantità ideale è quella di α = 1. Per ogni concetto, ovvero, dovrebbe essere fornito lo stesso numero di esempi di tipo testuale e di tipo visivo.

3.6 Distinguere i colori tramite modelli visivi

Mentre la ricerca di Hill e Korhonen è incentrata sul riconoscimento dei concetti astratti, quella di Bruni et al. ? mira a indagare l’utilità dei mo-delli multimodali nel distinguere tra uso letterale e uso metaforico dei colori all’interno di una frase.

Per essere più precisi, il progetto di Bruni et al. è suddiviso in due step: i) riuscire ad assegnare correttamente il colore a un oggetto e ii) distinguere l’uso metaforico del colore da quello letterale.

Come risorsa testuale per questo ambizioso progetto viene usata una com-binazione dei due corpora: ukWaC e Wackypedia. Da queste risorse sono

6_{Il coefficiente di Spearman è una misura statistica non parametrica di correlazione tra} due variabili.

(26)

quindi costruiti due modelli, Window2 e Window20 che si differenziano l’uno dall’altro dall’ampiezza della finestra di co-occorrenze considerata. Oltre a Window2 e Window20 Bruni et al. selezionano per l’esperimento altri due modelli testuali: Document, che registra la distribuzione di 30K di parole target su 30K di documenti, e DM (Baroni e Lenci 2010) che utilizza le relazioni sintattico-lessicali e di dipendenza tra le parole.

Come risorsa per le immagini è usato invece l’ESP-Game dataset, dalle cui immagini Bruni et al. estraggono descrittori di due tipi: i vettori standard Scale-Invariant Feature Transform (SIFT) e i descrittori LAB (Fairchild, 2002) che codificano solo informazioni relative al colore. Questi ultimi organizzano i dati provenienti dalle immagini all’interno di 3 assi ortogonali indipendenti: uno di luminosità e due di livello cromatico. I tratti LAB sono quindi campionati per ciascun pixel.

Le rappresentazioni testuali e quelle visive sono quindi assemblate in un modello multimodale che concatena le due tipologie di vettori dopo averli normalizzati. Come ulteriori modelli per il confronto, Bruni et al. utilizzano due modelli ibridi: ESP-Win in cui le parole del tag di un’immagine sono rappresentate in termini di co-occorrenza con gli altri tag della stessa figura, e ESP-Doc che rappresenta le parole in termini della loro co-occorrenza con le immagini. Nella prima fase della loro sperimentazione due degli autori della ricerca hanno etichettato una lista di nomi concreti (estratti dal dataset BLESS e da BNC) con uno dei seguenti colori: black, blue, brown, green, grey, orange,

pink, purple, red, white, yellow. Per la valutazione sono stati poi misurati i

coseni di ogni nome con gli 11 colori all’interno dello spazio prodotto dai vari modelli.

Da questo primo esperimento emerge anzitutto che i modelli visivi sono più in grado rispetto a quelli testuali di catturare le associazioni tra i concetti e i loro attributi visivi. Anche i modelli ibridi (e in particolar modo ESP-Doc) raggiungono per questo esperimento ottimi risultati mentre per quanto riguarda i modelli multimodali risulta che gli spazi che utilizzano SIFT non sono in grado di cogliere importanti informazioni semantiche che vengono catturate invece tramite l’uso di LAB. Nella seconda fase dell’esperimento Bruni et al. testano la performance dei differenti modelli tramite l’utilizzo di un dataset

(27)

costituito da frasi contenenti nomi e attributi di colore. Le frasi, selezionate in maniera casuale tra quelle con frequenza più alta all’interno dei corpora ukWaC, Wackypedia e BNC, sono quindi annotate come letteriali (e.g. black feather ) o non letterali (e.g. green future). I modelli visivi anche in questo caso sono maggiormente in grado di discriminare tra uso letterale e uso metaforico del colore, come mostrato in Figura 3.6. Dall’analisi effettuata è inoltre emerso che i descrittori SIFT hanno una performance migliore rispetto a quelli LAB e che in generale i modelli multimodali consentono un incremento della performance. Stando ai risultati dell’esperimento è quindi opportuno usare quest’ultima tipologia di modello per task di riconoscimento e di categorizzazione di attributi visivi riferiti alle parole.

3.7 Perché riconoscere solo gli oggetti non basta

Un interessante studio condotto recentemente da Shekhar et al. (2017a) evidenzia tuttavia un importante limite dei modelli che integrano immagini e testi. Sebbene questi siano in grado di riconoscere con un buon grado di accuratezza gli oggetti (rappresentati linguisticamente dai sostantivi) presenti in un’immagine, spesso hanno difficoltà nel trattare gli attributi (denotati dagli aggettivi), le azioni (i verbi), il modo (gli avverbi) e le relazioni spaziali (le preposizioni). Tramite un confronto con alcuni modelli, Shekhar et al.

Figura 3.6: Discriminazione dell’uso letterale(L) e non

letterale (N) dei colori da parte dei modelli visivi e testuali

(28)

vogliono pertanto dimostrare la difficoltà nel riconoscere elementi come avverbi e aggettivi.

Nell’effettuare tale sperimentazione, Shekhar et al. adottano la metodologia FOIL (Shekar et al., 2017b) che consiste nel sostituire una singola parola all’interno di una didascalia generata manualmente con un elemento errato (foil), che rende così la didascalia inadatta a descrivere l’immagine (Fig. 3.7).

Data tale sostituzione, il sistema dovrebbe essere in grado di svolgere tre task:

• predire se la didascalia è appropriata o meno per l’immagine (T1) • individuare la parola errata (T2)

• sostituire l’errore con il termine appropriato (T3)

Figura 3.7: Esempi di immagini seguite dalla didascalia

corretta originale e da una errata generata automaticamente

I modelli testati per tale esperimento sono quattro, di cui: uno basato solo sul testo delle didascalie, senza accesso alle informazioni visive (chiamato dagli autori "blind model") e tre multimodali. Questi ultimi a loro volta si dividono in: due del tipo Vision Question Answering e uno pensato per l’Image Captioning; i primi due sono LSTM7 _{(Antol et al., ?) e HieCoAtt}8 _{(Lu et al.,}

2016) mentre il terzo è IC-Wang (Wang et al., 2016).

7_{https://github.com/VT-vision-lab/VQA_LSTM_CNN} 8_{https://github.com/jiasenlu/HieCoAttenVQA}

(29)

Confrontando tali modelli Shekhar et al. evidenziano anzitutto come i valori migliori per il T1 siano ottenuti da HieCoAtt (con un’accuratezza complessiva del 79.09). In generale comunque tutti e quattro i modelli (compreso il blind model, con un valore di accuratezza del 75.48) presentano dei buoni risultati per il primo task. Performance peggiori sono invece registrate per il task T2, dove viene evidenziata in particolar modo la difficoltà dei modelli nel riconoscere errori all’interno delle classi aperte (come quella degli aggettivi e dei verbi). Ancora più complesso risulta essere il compito di sostituire gli errori con il termine appropriato. Per questo task la performance migliore è ottenuta da

IC-Wang che ottiene il valore più alto sui nomi (22.16), sui verbi (9.1), sugli

avverbi (3.44) e le preposizioni (7.78).

I risultati ottenuti dall’esperimento confermano l’assunto iniziale di Shekhar et al. secondo cui i modelli esistenti spesso non sono in grado di individuare a pieno tutti gli elementi presenti all’interno di un’immagine. Secondo gli autori della ricerca è quindi necessario la realizzazione di modelli che prendano in considerazione più dettagliatamente tutti gli elementi presenti di frase, inclusi gli attributi e le relazioni spaziali.

3.8 Nomi e verbi nei modelli multimodali

I contributi forniti dai modelli multimodali tramite le informazioni visive non hanno sempre la stessa valenza. Questo dato viene descritto efficacemente all’interno della ricerca di Köper e Schulte im Walde (Köper and im Walde, 2017) in cui vengono confrontati i modelli testuali con quelli multimodali in merito all’abilità di predire la composizionalità dei nomi composti e dei verbi con particella.

Nell’indagine effettuata, Köper e Schulte im Walde prendono come punto di partenza due risorse gold-standard con i valori di composizionalità annotati: GS-NN, un set di 868 nomi composti della lingua tedesca (Schulte im Walde et al., 2016), e GS-PV, un set di 400 verbi comprendenti 11 tipi di particelle (Bott et al., (Bott et al., 2016)).

I vettori testuali sono estratti da DECOW14AX (Schäfer and Bildhauer, 2012), un corpus contenente 12 miliardi di token. A partire da questi vettori

(30)

vengono costruiti due modelli, differenziati l’uno dall’altro dall’ampiezza della finestra di co-occorrenze considerate, pari rispettivamente a 5 e a 10. Per quanto riguarda le informazioni visive invece, Köper e Schulte im Walde estraggono 25 immagini per parola dal motore di ricerca bing, utilizzando due modelli neurali per il riconoscimento delle immagini: GoogLeNet (Szegedy et al., 2015) e AlexNet (Krizhevsky et al., 2012).

Calcolato il grado di similarità della coppia di vettori nome composto - co-stituente, vengono quindi comparate le predizioni di composizionalità effettuate dai modelli relativamente alle due risorse gold standard. Tenendo conto che la qualità delle predizioni poteva variare in base alla presenza di uno spazio visuale ottimizzato, Köper e Schulte im Walde introducono tre tipi di filtri:

• un filtro di dispersione, usato per decidere se includere le informazioni percettive in base ai valori di similarità tra tutte le immagini di un concetto;

• un filtro di immaginabilità, usato per selezionare solo le immagini per le parole target più probabili;

• un filtro di clustering, che effettua il clustering su 25 immagini di un dato concetto.

Dalla ricerca di Köper e Schulte im Walde emerge che l’utilizzo dei filtri permette di incrementare la performance dei modelli multimodali sopratutto se applicati ai verbi. Inoltre si nota dai risultati della ricerca che i modelli multimodali hanno prestazioni migliori rispetto a quelli testuali nel caso in cui: i) l’informazione testuale sia ricca di per sé e vengono prese in considerazione tutte le immagini (potenzialmente rumorose) oppure quando ii) l’informazione testuale di per sé è scarsa e viene aggiunta solo una selezione di immagini.

La predizione delle due risorse standard varia inoltre in relazione al grado di astrattezza; per GS-NN infatti i target concreti sono previsti meglio rispetto a quelli astratti mentre per GS-PV si verifica la situazione opposta. Ciò dimostra che i modelli multimediali hanno prestazioni diverse se applicati all’indagine dei nomi o a quella dei verbi.

(31)

3.9 I MDSMs e la ricerca cognitiva

Accanto a quello prettamente linguistico, un altro settore in cui i modelli di semantica distribuzionale multimodale trovano piena applicazione è quello degli studi relativi alle scienze cognitive e alla neurolinguistica. In questo ambito vale la pena di ricorda la ricerca di Anderson et al. ((Anderson et al., 2015)). La ricerca si sviluppa dal presupposto che esiste un nesso tra la rappresenta-zione delle parole oggetto e le regioni del cervello collegate alla percerappresenta-zione visiva degli oggetti. Per studiare quindi come il cervello codifichi le informazioni visive e per interpretare l’attività segnalata dai dispositivi di risonanza magnetica funzionale (fMRI), gli autori di questa ricerca realizzano un modello in cui le rappresentazioni delle immagini sono usate in combinazione con il testo. In questo modo diventa possibile catturare gli aspetti di similarità concettuale estratti dagli individui tramite generalizzazioni delle loro esperienze linguistiche.

Per effettuare tale indagine, Anderson et al. estraggono dapprima le im-magini relative a 51 concetti (Figura 3.8) dal database di imim-magini ImageNet. Quest’ultimo (di cui si parlerà in maniera più approfondita successivamente perché usato anche per la nostra ricerca) è un database liberamente accessibile le cui figure ad alta risoluzione sono annotate manualmente.

Figura 3.8: Classi e parole utilizzate da Anderson et al.

Per le immagini selezionate sono quindi estratti i descrittori tramite SIFT e le Words (presentate da Anderson con il nome di Bag-of-Visual-Features). Ai vettori BoVF per concetto viene successivamente applicata una Pointwise Mutual Information (PMI) non negativa e una riduzione delle dimensioni tramite Singular Value Decomposition pari a 50 dimensioni latenti.

(32)

La stessa PMI viene applicata ai vettori di tipo testuale, realizzati tramite l’estrazione delle co-occorrenze dei concetti dai corpora testuali ukWaC e Wackypedia, entrambi liberamente accessibili.

I dati fMRI utilizzati da Anderson et al. derivano invece dall’esperimento condotto da Just et al. nel 2010. Questo esperimento consisteva nel mostrare per sei volte a 11 partecipanti una parola con intervalli di 7s tra un’esposizione e l’altra; per ogni parola ai soggetti era quindi chiesto di pensare attivamente alle proprietà dell’oggetto a cui la parola si riferiva. I dati provenienti dalle rappresentazioni celebrali per parola sono stati poi organizzati in una matrice che rappresenta le regioni del cervello interessate (region of interest o ROI) nel processo. A questo punto, le ROI e le strutture di similarità dei modelli visivi e testuali sono comparate utilizzando il coefficiente di correlazione di Spearman.

Lo studio dei dati così ottenuti dimostra che le rappresentazioni celebrali legate alla descrizione visiva dell’oggetto sono decodificate con un livello di accuratezza più alto dal modello visivo piuttosto che da quello testuale; pertanto i modelli multimodali si dimostrano maggiormente esplicativi rispetto a quelli testuali nel prevedere la codifica delle rappresentazione dei concetti all’interno del cervello.

3.10 Strumenti per le rappresentazioni visive

Per concludere questa panoramica sui lavori realizzati in merito ai modelli visivi e multimodali, si vogliono infine ricordare due strumenti sviluppati di recente per l’annotazione semantica delle immagini e l’estrazione delle loro BoVW: ImageML e VSEM.

ImageML è un linguaggio di marcatura sviluppato da Bosque-Gil e Puste-jovsky nel 2015 e pensato appositamente per l’annotazione semantica delle risorse visive. Tale risorsa contribuisce a incrementare la precisione delle inter-rogazioni (query) relative alle immagini, venendo anche utilizzata per task di

event recognition e di marcatura automatica delle immagini.

I tag di ImageML sono divisi in sette categorie, ossia: tipo di immagine, evento, partecipanti, spazio, tempo, movimento e relazione. Nell’annotazione di un’immagine questi tag possono essere presenti in maniera variabile; poiché

(33)

tuttavia ImageML si propone di catturare la semantica delle immagini che rappresentano gli eventi, il tag EVENT tende ad essere sempre utilizzato. I tag sopra descritti sono così utilizzati:

• IMAGE descrive la tipologia di immagine (e.g. foto); • EVENT definisce il tipo di evento o azione raffigurata;

• FIGURE indica i partecipanti a un’azione o i soggetti coinvolti all’interno di una relazione. OFIGURE indica invece i soggetti non presenti nell’im-magine ma la cui presenza è presupposta dall’utente (e.g. in una foto di un cane al guinzaglio la figura del proprietario, se non presente, sarà marcata come OFIGURE);

• SETTING fornisce informazioni relativamente al luogo dell’evento;

• TIME descrive quando l’evento avviene estraendo informazioni dal back-ground dell’immagine;

• ROLELINK, HOLDINGLINK, MOTIONLINK e DIRLINK possono essere ricondotti alla categoria "movimento". Nell’ordine, i tag indicano: la fonte del movimento (agente), l’agente nel caso in cui tenga un’altra figura, la causa e la direzione del movimento;

• FACELINK, GAZELINK e EXLINK rientrano infine nella categoria "rela-zione". Il primo marca due figure orientate l’una verso l’altra, il secondo codifica la presenza di un contatto visivo tra le due figure e infine la terza indica due fatti mutualmente esclusivi (e.g. un aereo che decolla e atterra).

Tramite l’utilizzo dei tag sopra presentati, Bosque-Gil e Pustejovsky voglio-no quindi descrivere semanticamente gli elementi fondamentali di un’immagine. Sebbene non ancora realizzato, un dataset di immagini marcate tramite Ima-geML costituirebbe potenzialmente un’ottima risorsa da utilizzare in task di riconoscimento degli eventi o di generazione automatica dei testi per le immagini.

(34)

Mentre ImageML è un linguaggio di marcatura pensato per le immagini, VSEM è un open library, sviluppato da Bruni et al. (2013) , che permette di estrarre automaticamente le rappresentazioni visive di concetti. Partendo da un dataset di immagini taggate, VSEM è in grado di calcolare i descrittori SIFT ed estrarre dalle immagini le BoVW, tramite l’utilizzo del package vision. Le visual words vanno poi a formare gli elementi di un vocabolario visivo e per ogni immagine viene calcolato il centroide delle BoVW. Infine, per mezzo del package concepts le occorrenze delle visual words che rappresentano lo stesso concetto vengono aggregate, come mostrato in Figura 3.10. VSEM offre inoltre

(35)

Figura 3.10: Aggregazione delle visual words in VSEM

la possibilità di utilizzare i vettori visuali per calcolare i valori di associazione, ed evidenziare così le co-occorrenze salienti, e di applicare una riduzione della dimensionalità alla matrice di immagini.

In conclusione, VSEM si presenta quindi come uno strumento in grado di estrarre efficacemente l’informazione semantica da immagini pre-taggate e di organizzare tali informazioni all’interno di uno spazio distribuzionale.

ImageML, VSEM sono solo due dei molti progetti sviluppati negli ultimi anni nell’ambito della semantica distribuzionale visiva e multimodale. In questo capitolo ne è stata presentata solo una minima parte che tuttavia riflette tanto la varietà dei task a cui vengono applicati tali modelli (e.g. zero-shot recognition, esperimenti di neurolinguistica, disambiguazione di termini metaforici) quanto l’estremo interesse che essi hanno suscitato e suscitano tutt’ora nel mondo accademico.

(36)

Capitolo 4

Le risorse testuali

Avendo illustrato nel Capitolo precedente i concetti fondamentali dei modelli visivi, è adesso possibile definire meglio l’innovazione della nostra ricerca che, in base alle conoscenze e informazioni a nostra disposizione, costituisce il primo

modello semantico distribuzionale visivo sviluppato all’interno dell’Università di Pisa. Il modello elaborato si propone di dimostrare che l’utilizzo di vettori

visivi permetta di descrivere efficacemente la similarità tra i verbi ottenendo performance pari, se non maggiori, a quelle ottenute tramite l’utilizzo dei vettori testuali. Dati questi presupposti, il nostro progetto pone le basi anche per lo sviluppo successivo di un modello multimodale, che combini al suo interno informazioni di tipo visivo ed informazioni testuali.

Ai fini del nostro studio il vettore del verbo è ottenuto dalle occorrenze nominali che più frequentemente co-occorrono con il verbo in funzione di soggetto e di oggetto. L’insieme di tali sostantivi contribuisce alla costituzione del significato del verbo, che è quindi così definito:

~

V = ~V sogg ⊕ ~V ogg (4.1) Ciò che in questa sede si vuole dimostrare è utilizzare un vettore imma-gine Vi definito in 2.2, permette di incrementare le prestazioni del modello

distribuzionale.

~

(37)

Il metodo seguito per dimostrare quanto appena detto è composto da una serie di fasi, che possono essere riassunte come segue:

• selezione dei dataset testuali e visivi ed estrazione dei vettori di entrambe le tipologie di dati,

• costruzione della matrice testuale e di quella delle immagini,

• normalizzazione e riduzione della dimensionalità delle matrici distribuzionali, • confronto tra i valori di cosine similarity1 _{del modello testuale con quelli del}

modello visivo,

• valutazione della performance dei modelli realizzati.

Come si può vedere, selezionare le risorse ed estrarre i dati è il primo passo da compiere per la realizzazione del progetto. In questo e nel Capitolo successivo vengono quindi elencati gli strumenti utilizzati, divisi tra risorse

testuali e risorse visive.

4.1 Il dataset SimLex

Per poter costruire i vettori testuali è necessario anzitutto estrarre una lista di verbi-argomenti. A tal fine si è scelto di utilizzare una combinazione di dataset, estraendo i verbi dal SimLex-999 (Hill et al., 2015) e gli argomenti dal tensore marcato di DM (Baroni e Lenci, 2010).

SimLex-9992 _{è una risorsa che descrive la similarità tra coppie di parole}

ed è pensata per la valutazione di modelli di semantica distribuzionale. Al suo interno è formata da 999 coppie di parole divise per tre Part of Speech (sostantivi, verbi e aggettivi) e per due categorie (concretezza e astrattezza).

Più specificatamente, ci sono 666 coppie di sostantivi, 222 coppie di verbi e 111 coppie di aggettivi, ognuna delle quali comprende in egual misura termini astratti e termini concreti.

1_{La cosine similarity, o coseno di similitudine, è una tecnica per la misurazione della} similitudine tra due vettori effettuata calcolando il coseno tra di loro.

(38)

Per valutare il grado di similarità tra le coppie Hill et al. utilizzano la piattaforma di crowdsourcing di Amazon Mechanical Turk 3_{, chiedendo a}

500 parlanti nativi di inglese di portare a termine due task: i) individuare, all’interno di un set di 3 opzioni, la coppia con il più alto grado di similarità (e.g. [bread, butter] [bread, toast] [stale, bread]) e ii) valutare la similarità delle coppie all’interno di una scala da 1 a 6. Il coefficiente di correlazione di Spearman ρ, calcolato sulle valutazioni dei parlati, è pari a ρ = 0.67, segno che gli utenti hanno assegnato spesso valutazioni simili.

Rispetto ad altre risorse come WordSim-353 (Finkelstein et al. 2002 e MEN (Bruni et al. 2014), SimLex-999 quantifica quindi la similarità tra le coppie di parole piuttosto che la loro correlazione. Questo significa che le coppie che sono correlate ma non effettivamente simili tendono ad avere un risultato più basso rispetto a quello registrato in altri dataset, come esemplificato dalla Figura 4.1.

Figura 4.1: Differenza dei giudizi di similarità tra

SimLex-999 e WordSim-353

Questa caratteristica di SimLex-999 lo rende una risorsa complessa da replicare per i modelli computazionali che non sempre sono in grado di catturare la similarità tra due parole indipendentemente dal loro grado di associazione. In particolare, da un’analisi condotta da Hill et al., viene evidenziata la difficoltà nel catturare la similarità tra i verbi. Come si nota dalla Figura 4.2 infatti, la performance dei target verbali di SimLex-999 risulta essere peggiore di quella delle altre due Part-of-Speech sia in riferimento al modello semantico basato sulle dipendenze di Levy e Goldberg (2014) sia allo skip-gram model di Mikolov et al. (2013). Questo risultato è tuttavia in linea con la teoria per la quale i verbi sono concetti relazionali, il cui significato è strettamente legato alle altre parole che co-occorrono con i verbi.

(39)

Figura 4.2: Confronto tra la performance delle

Part-of-Speech

Pur non essendo una risorsa facile da adoperare, per i motivi sopra elencati, si è scelto di utilizzare SimLex-999 perché rispetto ad altre misure gold-stardard (come WordSim-353) è maggiormente in grado di rappresentare la similarità tra le coppie di parole. Inoltre consente di effettuare un’analisi dettagliata dei modelli semantici.

Da questo dataset sono quindi estratti 100 verbi 4 _{che costituiscono il}

target del nostro progetto. Per ognuno dei target vengono poi individuate le co-occorrenze nominali estraendole dal tensore di DM.

4.2 DM

Le co-occorrenze nominali sono individuate, come già detto, all’interno del modello di Distributional Memory5 _{(DM), sviluppato da Baroni e Lenci nel}

2010. Questo modello presenta un’architettura basata sull’estrazione dell’infor-mazione distribuzionale dal corpus testuale e la sua organizzazione in un set di tuple pesate parola-link-parola combinate di un tensore di terz’ordine marcato (Fig.4.36_).

I tensori rappresentano array a più dimensioni; l’ordine (o la n-dimensione) di un tensore è rappresentato dal numero di indici necessari ad identificare i suoi elementi. Un vettore è quindi un tensore del primo-ordine poiché i suoi elementi sono denotati da un singolo indice; invece una matrice costituisce

4_{Per la lista dei verbi usati si rimanda all’Appendice.} 5_{http://clic.cimec.unitn.it/dm/}

6_{Le Figure 2.2 e 2.3 sono tratte da Baroni e Lenci, "Distributional Memory: A general} framework for corpus-based semantics", 2010.

(40)

Figura 4.3: Esempio di tensore marcato

un tensore di secondo ordine. Un tensore di terzo ordine può essere infine considerato come una sorte di "cubo di informazioni", presentate in maniera diversa in base alla prospettiva con cui si decide di leggere i dati del tensore, come mostrato in Figura 4.4.

Figura 4.4: Esempi di matrici generate da un tensore di

terz’ordine

Per la nostra ricerca è utilizzata una modalità di lettura del tensore come quella del tipo A illustrata in Figura 4.4. Consideriamo quindi una matrice in cui sono riportati: i verbi target, la tupla <tipo di relazione - occorrenza nominale> e i valori di co-occorrenza.

I dati che costituiscono il tensore di DM derivano dalla concatenazione di tre corpora: ukWaC corpus 7_{, contenente circa 1.915 miliardi di tokens, la versione}

inglese di Wikipedia 8_{, con 820 milioni di tokens, e il British National Corpus}

7_{UkWaC:http://wacky.sslmit.unibo.it/.}

(41)

9_{, con circa 95 milioni di tokens. Il corpus risultante della concatenazione}

è quindi tokenizzato, annotato per Part-of-Speech e lemmatizzato. Da tale corpus, Baroni e Lenci selezionano 20.000 nomi con la frequenza più alta e oltre 5.000 verbi e aggettivi. Questi dati sono poi utilizzati per la realizzazione di tre modelli: DepDM, LexDM e TypeDM.

Il modello di DepDM è basato sull’idea che i path di dipendenza costituiscono una buona approssimazione delle relazioni semantiche tra le parole. In questo modello, il link che collega ogni coppia nome-verbo, nome-nome e aggettivo-nome esprime il tipo di relazione espressa (e.g. nella frase the teacher is reading

a book, il link tra book e read è marcato come obj per indicare che il libro

costituisce l’oggetto diretto del verbo).

Il modello di LexDM, basato sull’idea che gli elementi lessicali connessi a due parole sono estremamente informativi della loro relazione, comprende link complessi. Questi link descrivono, tra le altre informazioni presentate, i tratti morfologici delle parole, la presenza di articoli o aggettivi se si tratta di nomi, la presenza di avverbi per aggettivi. Ad esempio la frase the soldier is tall viene marcata come <tall, is+j+n+the, soldier>, dove is indica la presenza della copula, n e the marcano il nome come singolare e definito a cui è riferito un aggettivo j.

TypeDM costituisce una sorta di livello intermedio tra i due precedentemente

descritti. Questo modello utilizza infatti come link i pattern contenuti nei link di LexDM mentre i suffissi dei pattern sono usati per conteggiare il numero delle diverse rappresentazioni. Per esempio, i due link di LexDM of--1_{+n-a+n-the e}

of--1_{+nsj+n-the sono contati come due occorrenze dello stesso link di TypeDM}

of--1_{. TypeDM rappresenta la migliore implementazione di DM pertanto, per la}

ricerca oggetto di questa tesi, è utilizzato proprio questo modello. Utilizzando i verbi selezionati da SimLex-999, abbiamo estratto le loro co-occorrenze nominali, selezionando però solo le tuple marcate da uno dei seguenti link:

• sbj-intr: soggetto di un verbo senza oggetto diretto <teacher, sbj-intr, sing> • sbj-tr:: soggetto di un verbo con oggetto diretto <soldier, sbj-tr, read> • obj: oggetto diretto <book, obj, read>

(42)

• iobj: oggetto indiretto <woman, iobj, give>

Come risultato di questa estrazione abbiamo ottenuto per ogni verbo di SimLex-999 i suoi oggetti e soggetti tipici e la frequenza della loro occorrenza. I dati ottenuti sono usati (come verrà illustrato in seguito) per la creazione di due diversi modelli testuali: il primo costituito dai verbi di SimLex e dalle loro 20 co-occorrenze nominali10 con valore di Local Mutual Information più alto (M1); il secondo comprende invece tutte le co-occorrenze soggetto e oggetto

disponibili in TypeDM (M2).

10_{dal modello di TypeDM sono selezionati 10 sostantivi in funzione di soggetto e 10 in} funzione di oggetto.

(43)

Capitolo 5

Le risorse visive

5.1 ImageNet

Mentre le risorse testuali sono ottenute da una combinazione di due data-set, SimLex-999 e DM, per estrarre le risorse visive viene usato ImageNet 1. ImageNet (Deng et al. 2009a) costituisce un’ontologia di immagini costruita in base alla stessa struttura gerarchica utilizzata da WordNet (Miller, 2016).

Per estrarre le immagini che costituiscono questo dataset, Deng et al. hanno effettuato delle interrogazioni (query) in varie lingue (tra cui inglese, cinese, italiano e spagnolo) in base ai synset2 _{di WordNet. Risultato di queste query,}

rivolte a vari motori di ricerca, sono oltre 10.000 immagini per synset (in media). Per verificare la correttezza delle immagini estratte Deng et al. utilizzano la piattaforma di crowdsourcing di Amazon Mechanical Turk, chiedendo a utenti esterni di verificare se le immagini presentate contenessero gli oggetti del synset. Le immagini annotate nello stesso modo dalla maggioranza degli utenti sono quindi inserite nel dataset.

Per come è organizzato, il dataset ImageNet presenta numerosi vantaggi:

La dimensione. Con 14.197.122 immagini raffiguranti 21841 synset, Ima-geNet si presenta come uno dei più grandi database di immagini sia in termini

1_{Pagina web al seguente indirizzo:http://www.image-net.org/index}

2_{In WordNet nomi, verbi, aggettivi e avverbi sono raggruppati in synset, o "synonym set",} ognuno dei quali rappresenta un concetto.

(44)

Figura 5.1: Il dataset ImageNet. Per ogni query sono

presentate le immagini che descrivono l’oggetto della query, la sua posizione all’interno dell’albero gerarchico,

il numero di immagini disponibili, la percentuale di popolarità. E’ inoltre possibile valutare la correttezza

dell’immagine attraverso i bottoni typical e wrong.

di numero totale di immagini, sia in termini di immagini per categoria e di numero di categorie.

La struttura gerarchica. Le immagini sono organizzate secondo una gerar-chia semantica densamente popolata che segue il modello di quella di WordNet, come mostrato in Figura 5.3

L’accuratezza. All’interno di ogni sotto-albero, ImageNet offre un’accura-tezza media di descrizione dell’immagine del 99.7 %.

La diversità. ImageNet è costruita con l’obiettivo di raffigurare oggetti che possono variare nella posizione, nel punto di vista da cui sono osservati o nel contesto che li circonda.

ImageNet si presenta quindi come un dataset ricco di risorse che, anche al confronto con altri database di immagini come ESP game o TinyImage (dataset contenente 80 milioni di immagini a bassa risoluzione), come si può

(45)

Figura 5.2: Costruzione di ImageNet (Deng et al.,

2009b).

notare dai dati presentati in Tabella 2.1 3_{. Sebbene non utilizzi annotazioni}

segmentate, Imagenet offre infatti l’utilizzo di tag non ambigui associati alle immagini, annotazioni ordinate, un ottimo livello di accuratezza, immagini ad alta risoluzione e pubblicamente accessibili.

Figura 5.3: Esempio di immagini organizzate

gerarchicamente in ImageNet

(46)

Caratteristiche di Imagenet

ImageNet TinyImage ESP

Disambig. Y Y N

Ordine Y N Y

Risoluzione Y N Y

Accessibili Y Y N

Segmentazione N N N

Tabella 2.1: Caratteristiche di ImageNet al confronto con altri dataset visivi

I punti di forza di ImageNet hanno contribuito alla scelta di selezionare da questo dataset le immagini per la nostra ricerca. La procedura seguita per l’estrazione è la seguente:

1) dal modello di TypeDM sono selezionati i 10 sostantivi che co-occorrono più frequentemente con i verbi di SimLex-999 in funzione di soggetto, facendo lo stesso per i sostantivi in funzione di oggetto.

2) dalla selezione sono ricavati 2.000 sostantivi e 706 tipi. Per questi ultimi, utilizzando il toolkit di MMFeat illustrato di seguito, vengono estratte le immagini da ImageNet e vengono individuate le Bag of Visual Words tramite l’applicazione del descrittore SIFT.

5.2 MMFeat

MMFeat4 è un toolkit in Python (Kiela, 2016) appositamente pensato per semplificare l’estrazione e l’analisi di risorse visive ed audio da applicare a lavori di elaborazione del linguaggio naturale. In particolar modo, MMFeat permette di estrarre:

• BoVW: Bag of Visual Words, estratte tramite l’utilizzo dei descrittori SIFT; • BoAW: Bag of Audio Words per i file audio;

• CNN: rappresentazione tramite rete neurale convoluzionale.