• Non ci sono risultati.

In base alle analisi effettuate fino a questo momento, è possibile già delineare alcune prime conclusioni in merito ai valori di cosine similarity registrati tra i tre modelli.

Il primo risultato dell’analisi condotta è che, a seconda che si utilizzi un modello distribuzionale visivo o un modelle testuale, i vicini semantici dei verbi target vengono modificati. Ciò indica che la presenza di informazioni di tipo percettivo permette di cogliere informazioni semantiche in parte diverse rispetto a quelle catturate dai modelli basati sul testo.

Il secondo dato emerso dalla comparazione tra i modelli testuali è che il modello con più occorrenze nominali presenta valori di coseni più alti. Questo miglioramento nella performance di M2 rispetto a M1 si evince dal confronto dei grafici in Figura 7.3 e in 7.7, da cui è evidente che la distribuzione media dei coseni di M2 è superiore a quella dell’altro modello testuale.

Nel confronto tra i tre modelli tuttavia, quello visivo registra complessiva- mente i valori più alti di cosine similarity, come si nota sia dal confronto dei valori dei coseni rappresentati nelle Tabelle 7.2 e 7.5 5 sia dal confronto dei

Grafici 7.3 e 7.7. Il boxplot in Figura 7.10 rappresenta in maniera più sintetica rispetto ai grafici sopra nominati la distribuzione dei coseni nei tre modelli M1, M2 e MV. Come è possibile osservare da tale boxplot la media dei valori più alta è per l’appunto quella di MV che si attesta intorno allo 0.15, seguita poi dalla media di M2 (0.12) e infine di M1 (0.03). Questo dato rappresenta un primo indice relativo alla bontà del modello distribuzionale visivo da noi realizzato poiché denota che, solo sulla base di informazioni di tipo visivo, è

5Ad esempio, per la coppia di verbi save-protect il modello visuale ha prodotto un valore di similarità pari a 0.63, mentre i modelli M1 ed M2 registrano rispettivamente valori di 0,01 e di 0,12

possibile cogliere in maniera efficace il significato dei verbi e la loro similarità semantica.

Figura 7.10: Confronto tra i valori di cosine similarity registrati

all’interno dei tre modelli

Nel confronto delle distribuzioni dei coseni per i verbi costituiti solo da complemento oggetto o solo da co-occorrenze in funzione di soggetto, emerge invece anzitutto che, a parità di numero di co-occorrenze considerate, il modello visivo ha delle prestazioni peggiori rispetto al modello testuale nel collocare all’interno dello spazio distribuzionale i vettori verbali composti da co-occorrenze soggetto. Il dato descritto sopra è strettamente connesso al grado di astrattezza dei soggetti verbali. Già in altre ricerche e studi, precedentemente nominati, è stata infatti riscontrata la difficoltà dei modelli distribuzionali in generale, e ancor di più quelli visivi, nel riconoscere le parole astratte. In aggiunta a questo è importante ricordare che, per quanto riguarda il modello visivo, non è stato possibile estrarre le immagini raffiguranti alcune parole astratte come

experience o theory poiché non presenti all’interno del dataset di Imagenet

usato per l’estrazione delle immagini;

Per quanto riguarda infine la distribuzione dei coseni dei verbi costruiti solo sulla base dei loro complementi oggetto, è possibile evidenziare come: i) il modello visivo presenti una distribuzione media maggiore di quella dei modelli testuali mentre ii) questi ultimi esplicitano un numero più alto di correlazioni

inverse tra i verbi.

L’analisi della distribuzione dei coseni sembra quindi aver prodotto risultati che avvalorano la tesi sostenuta con la presente ricerca, in base alla quale i modelli visivi sono in grado di apportare benefici allo studio della semantica distribuzionale. Tuttavia,per poter valutare effettivamente la bontà del nostro modello visivo è necessario un ulteriore confronto utilizzando come termine di paragone una risorsa gold standard quale SimLex-999. Il Capitolo successivo descrive tale confronto e i risultati ottenuti da esso.

Capitolo 8

Il confronto con SimLex-999

Dopo aver realizzato il confronto tra la distribuzione dei coseni nei modelli, viene ora valutata la performance di M1, M2 e MV sulla base del confronto con SimLex-999. Tale confronto, effettuato tramite il calcolo del coefficiente ρ di Spearman, presenta due tipi di difficoltà, che vengono elencate di seguito.

La prima tra queste è che, come già espresso in precedenza, per i modelli computazionali è difficile produrre una buona performance nel confronto con SimLex, poiché generalmente i modelli semantici distribuzionali non sono in grado di individuare la similarità tra due parole indipendentemente dal loro grado di associazione, come invece fa la risorsa elaborata da Hill et al. Questo tipo di difficoltà viene individuata d’altra parte dallo stesso Hill il quale, confrontando la risorsa da lui prodotta con altri modelli evidenzia i bassi livelli di performance che questi registrano in rapporto a SimLex (Figura 8.1).

La seconda difficoltà è legata invece al tipo di Part-of-Speech presa in esame. I modelli distribuzionali infatti registrano performance peggiori nel riconoscere la similarità tra i verbi rispetto alle altre categorie grammaticali, come mostrato in Figura 8.2 (Hill et al., 2015). Questo avviene essenzialmente perché i verbi sono concetti relazionali, il cui significato è legato alle altre parole che co-occorrono con loro.

La valutazione i modelli M1, M2 e MV tiene quindi conto di questi fattori problematici. Il confronto dei nostri modelli con SimLex-999 è effettuato sulla base del calcolo l’indice di correlazione di Spearman.

Figura 8.1: Confronto effettuato da Hill et al. per tre modelli

confrontati con tre risorse gold standard; i tre modelli sono: il modello di Mikolov et al. (2013), VSM (modello vettoriale realizzato da Hill) e SVD (VSM ridotto a 300 dimensioni)

Figura 8.2: Confronto tra modelli per tre diverse POS. Il valore

indicato tra parentesi in ognuno dei modelli indica la grandezza della finestra di co-occorrenza considerata

buzionale per valutare la correlazione tra due modelli. Tale indice rappresenta una misura statistica non parametrica di correlazione tra due dataset:

ρ = 1 − 6P i D2 i N (N2− 1) (8.1)

dove Di è la differenza dei ranghi r ed s (essendo r ed s rispettivamente il

rango della prima variabile e della seconda variabile della i-esima osservazione) ed N è il numero complessivo di osservazioni.

I valori che ρ può assumere variano tra -1 e +1, dove +1 denota una correlazione positiva (all’aumentare di x aumenta anche y) mentre -1 indica una correlazione negativa (all’aumentare di x, y decrementa). La non correlazione è indicata, come nel caso della cosine similarity, dal valore 0.

I risultati 1 prodotti dal confronto2on SimLex sono illustrati nel grafico in Figura 8.3Per il confronto non sono state considerate le coppie di parole legate da rapporto di antonimia..

Figura 8.3: Performance dei tre modelli sviluppati

Come si può vedere dal grafico e considerando anche le criticità che il confronto con SimLex implica, il nostro modello visivo mostra un buon livello di performance con ρ=0.25. Questo dato è tanto più positivo se si considera che i modelli visivi fino ad ora sviluppati in ambito accademico tendono ad avere performance peggiori rispetto a quelli testuali, a parità di numero di dati che i modelli utilizzano. Di fatto, rispetto a M1 che si serve dello stesso numero di co-occorrenze nominali3 e che presenta un valore di correlazione pari a ρ =

0.06, il modello MV offre senza alcun dubbio prestazioni migliori.

1L’elenco completo delle coppie di parole utilizzate per il confronto, unitamente ai valori di associazione registrati in SimLex-999, in M1, M2 e Mv, sono presentati in Appendice.

2c

3Ricordiamo che il numero di co-occorrenze utilizzate per questo modello è pari a 10 sostantivi in funzione di oggetto e 10 in funzioni di soggetto.

Inoltre i risultati del nostro modello visivo risultano essere competitivo anche se confrontati con quelli ottenuti, relativamente alla classe dei verbi, dal modello di Mikolov et al., che utilizza le Bag of Words per codificare le informazioni linguistiche (Mikolov et al., 2013). Il coefficiente di correlazione di quest’ultimo è infatti pari a ρ =0.27 (sempre in riferimento alla risorsa gold

standard SimLex-999); il nostro modello si discosta pertanto dal valore ottenuto

dal modello testuale di Mikolov solo di 0.02.

Nel confronto tra il modello M2 e il modello visivo, si nota invece che il primo presenta un valore più alto, pari a ρ=0.38. Questo miglioramento registrato dal modello testuale si deve principalmente all’incremento del numero delle co-occorrenze. Come descritto anche da Hill et al., d’altra parte, nel confronto con SimLex i modelli che considerano un’ampia gamma di co-occorrenze, raggiungono valori di prestazione migliori.

8.1

Concreto vs astratto

Dato l’influenza, più volte sottolineata, che le parole astratte hanno sulle prestazioni generali dei modelli, si è effettuato anche un confronto tra SimLex e i tre modelli sviluppati prendendo però solo in considerazione i verbi concreti4

Figura 8.4: Performance dei modelli sulla base di un sottoset di

elementi concreti di SimLex-999. Analisi condotta da Hill et al.

4Come riferimento per valutare la concretezza di un verbo è stata utilizzata la ricerca di R.Power (2007).

I risultati dell’analisi dimostrano che, mentre i modelli testuali M1 e M2 ottengono poco o nessun giovamento nel considerare solo i concetti concreti (per M1 ρ = 0.09 mentre per M2 ρ = 0.31), incrementa invece in maniera sostanziale la performance del modello visivo, che registra un indice di correlazione pari a

ρ = 0.4.

Questo dato è avvalorato anche dalla ricerca condotta, sempre in questa direzione, da Hill et al. Come mostrato infatti dalla Figura 8.4, anche Hill registra un complessivo aumento, legato all’assenza di parole astratte, dei valori di correlazione dei modelli.

Sulla base delle analisi effettuate, possiamo delineare le seguenti conclusioni: i) a parità di informazioni codificate, il modello visivo risulta essere migliore rispetto a quello testuale, registrando un valore di correlazione superiore a quest’ultimo di 0.19;

ii) il numero di co-occorrenze utilizzate dai modelli distribuzionali influisce sul risultato finale della valutazione, come è possibile osservare dal confronto tra M1 e M2;

iii) la presenza di elementi astratti grava particolarmente sulla prestazione del modello visivo; considerando infatti solo i termini concreti il grado di correlazione ottenuto è superiore di 0.15 a quello registrato precedentemente.

Capitolo 9

Miglioramenti futuri

Il modello visivo sviluppato e descritto nella presente testi, visti i risultati ottenuti, costituisce una buona base di partenza per la realizzazione di ulteriori progetti e implementazioni, che ci proponiamo di sviluppare in futuro. Di seguito si elencano alcune delle possibilità che la ricerca effettuata offre.

9.1

Implementare il modello visivo con dati testuali

Il primo sviluppo possibile della nostra ricerca riguarda la creazione di un modello multimodale che utilizzi il modello visivo realizzato combinandolo con un modello distribuzionale testuale. All’interno del modello multimodale è possibile definire il significato della parola tramite la concatenazione del suo vettore testuale con quello basato sulle immagini. Sulla base di tale idea, il modello distribuzionale multimodale sarebbe quindi così costituito:

~

V tv = ~V t ⊕ ~V v (9.1) dove il vettore multimodale Vtv è il prodotto della concatenazione il vettore

testuale Vt con quello visivo Vt; di conseguenza la matrice distribuzionale

multimodale viene ottenuta dalla concatenazione delle tue tipologie di matrici, come mostrato di seguito:

        4 7 2 1 4 3 11 2 9                 1 0.2 9 3 1 4 0.1 7 8         =         4 7 2 1 0.2 9 1 4 3 3 1 4 11 2 9 0.1 7 8        

Figura 9.1: Metodo per lo sviluppo del modello

multimodale

Dei primi passi verso lo sviluppo di un modello semantico distribuzionale multimodale sono stati già effettuati e abbiamo realizzato un primo tentativo di concatenazione della matrice testuale M2 con quella visiva MV, seguendo il metodo illustrato dalla Figura 9.1.

In questa prima sperimentazione si è scelto di utilizzare il metodo della concatenazione, piuttosto che la modalità congiunta (joint) utilizzata invece ad esempio da Feng e Lapata 2010. Questo perché, come dimostrato da diversi studi (Bruno et al. 2005, Kiela et al. 2016) la prima modalità presenta generalmente risultati migliori rispetto a quelli registrati con i modelli multimodali congiunti.

In particolare, l’utilizzo della concatenazione presenta i seguenti vantaggi: • permette di estrarre i dati delle due modalità (testuale e visiva) da risorse

differenti,

• è meno suscettibile al rumore, poiché preserva le informazioni veicolate dalle singole modalità,

• i due modelli contribuiscono egualmente alla realizzazione dello spazio multimodale,

• non presenta costi computazionali aggiuntivi ed è semplice da applicare, Tuttavia questo modello multimodale che ci proponiamo di realizzare, pro- prio a causa della complessità legata alla sua realizzazione, è ancora in fase di sviluppo. I primi risultati ottenuti da questo progetto fanno comunque presup- porre che, utilizzando un numero di co-occorrenze nominali maggiori rispetto a quelle fino ad ora utilizzate, sia possibile ottenere una buona performance del modello multimodale. In progetti successivi si spera inoltre di riuscire a dimostrare che le prestazioni dei modelli che combinano risorse testuali con risorse linguistiche superano sia i risultati prodotti dai modelli testuali, sia quelli dei modelli visivi.

Documenti correlati