• Non ci sono risultati.

Per concludere questa panoramica sui lavori realizzati in merito ai modelli visivi e multimodali, si vogliono infine ricordare due strumenti sviluppati di recente per l’annotazione semantica delle immagini e l’estrazione delle loro BoVW: ImageML e VSEM.

ImageML è un linguaggio di marcatura sviluppato da Bosque-Gil e Puste- jovsky nel 2015 e pensato appositamente per l’annotazione semantica delle risorse visive. Tale risorsa contribuisce a incrementare la precisione delle inter- rogazioni (query) relative alle immagini, venendo anche utilizzata per task di

event recognition e di marcatura automatica delle immagini.

I tag di ImageML sono divisi in sette categorie, ossia: tipo di immagine, evento, partecipanti, spazio, tempo, movimento e relazione. Nell’annotazione di un’immagine questi tag possono essere presenti in maniera variabile; poiché

tuttavia ImageML si propone di catturare la semantica delle immagini che rappresentano gli eventi, il tag EVENT tende ad essere sempre utilizzato. I tag sopra descritti sono così utilizzati:

• IMAGE descrive la tipologia di immagine (e.g. foto); • EVENT definisce il tipo di evento o azione raffigurata;

• FIGURE indica i partecipanti a un’azione o i soggetti coinvolti all’interno di una relazione. OFIGURE indica invece i soggetti non presenti nell’im- magine ma la cui presenza è presupposta dall’utente (e.g. in una foto di un cane al guinzaglio la figura del proprietario, se non presente, sarà marcata come OFIGURE);

• SETTING fornisce informazioni relativamente al luogo dell’evento;

• TIME descrive quando l’evento avviene estraendo informazioni dal back- ground dell’immagine;

• ROLELINK, HOLDINGLINK, MOTIONLINK e DIRLINK possono essere ricondotti alla categoria "movimento". Nell’ordine, i tag indicano: la fonte del movimento (agente), l’agente nel caso in cui tenga un’altra figura, la causa e la direzione del movimento;

• FACELINK, GAZELINK e EXLINK rientrano infine nella categoria "rela- zione". Il primo marca due figure orientate l’una verso l’altra, il secondo codifica la presenza di un contatto visivo tra le due figure e infine la terza indica due fatti mutualmente esclusivi (e.g. un aereo che decolla e atterra).

Tramite l’utilizzo dei tag sopra presentati, Bosque-Gil e Pustejovsky voglio- no quindi descrivere semanticamente gli elementi fondamentali di un’immagine. Sebbene non ancora realizzato, un dataset di immagini marcate tramite Ima- geML costituirebbe potenzialmente un’ottima risorsa da utilizzare in task di riconoscimento degli eventi o di generazione automatica dei testi per le immagini.

Mentre ImageML è un linguaggio di marcatura pensato per le immagini, VSEM è un open library, sviluppato da Bruni et al. (2013) , che permette di estrarre automaticamente le rappresentazioni visive di concetti. Partendo da un dataset di immagini taggate, VSEM è in grado di calcolare i descrittori SIFT ed estrarre dalle immagini le BoVW, tramite l’utilizzo del package vision. Le visual words vanno poi a formare gli elementi di un vocabolario visivo e per ogni immagine viene calcolato il centroide delle BoVW. Infine, per mezzo del package concepts le occorrenze delle visual words che rappresentano lo stesso concetto vengono aggregate, come mostrato in Figura 3.10. VSEM offre inoltre

Figura 3.10: Aggregazione delle visual words in VSEM

la possibilità di utilizzare i vettori visuali per calcolare i valori di associazione, ed evidenziare così le co-occorrenze salienti, e di applicare una riduzione della dimensionalità alla matrice di immagini.

In conclusione, VSEM si presenta quindi come uno strumento in grado di estrarre efficacemente l’informazione semantica da immagini pre-taggate e di organizzare tali informazioni all’interno di uno spazio distribuzionale.

ImageML, VSEM sono solo due dei molti progetti sviluppati negli ultimi anni nell’ambito della semantica distribuzionale visiva e multimodale. In questo capitolo ne è stata presentata solo una minima parte che tuttavia riflette tanto la varietà dei task a cui vengono applicati tali modelli (e.g. zero-shot recognition, esperimenti di neurolinguistica, disambiguazione di termini metaforici) quanto l’estremo interesse che essi hanno suscitato e suscitano tutt’ora nel mondo accademico.

Capitolo 4

Le risorse testuali

Avendo illustrato nel Capitolo precedente i concetti fondamentali dei modelli visivi, è adesso possibile definire meglio l’innovazione della nostra ricerca che, in base alle conoscenze e informazioni a nostra disposizione, costituisce il primo

modello semantico distribuzionale visivo sviluppato all’interno dell’Università di Pisa. Il modello elaborato si propone di dimostrare che l’utilizzo di vettori

visivi permetta di descrivere efficacemente la similarità tra i verbi ottenendo performance pari, se non maggiori, a quelle ottenute tramite l’utilizzo dei vettori testuali. Dati questi presupposti, il nostro progetto pone le basi anche per lo sviluppo successivo di un modello multimodale, che combini al suo interno informazioni di tipo visivo ed informazioni testuali.

Ai fini del nostro studio il vettore del verbo è ottenuto dalle occorrenze nominali che più frequentemente co-occorrono con il verbo in funzione di soggetto e di oggetto. L’insieme di tali sostantivi contribuisce alla costituzione del significato del verbo, che è quindi così definito:

~

V = ~V sogg ⊕ ~V ogg (4.1) Ciò che in questa sede si vuole dimostrare è utilizzare un vettore imma- gine Vi definito in 2.2, permette di incrementare le prestazioni del modello

distribuzionale.

~

Il metodo seguito per dimostrare quanto appena detto è composto da una serie di fasi, che possono essere riassunte come segue:

• selezione dei dataset testuali e visivi ed estrazione dei vettori di entrambe le tipologie di dati,

• costruzione della matrice testuale e di quella delle immagini,

• normalizzazione e riduzione della dimensionalità delle matrici distribuzionali, • confronto tra i valori di cosine similarity1 del modello testuale con quelli del

modello visivo,

• valutazione della performance dei modelli realizzati.

Come si può vedere, selezionare le risorse ed estrarre i dati è il primo passo da compiere per la realizzazione del progetto. In questo e nel Capitolo successivo vengono quindi elencati gli strumenti utilizzati, divisi tra risorse

testuali e risorse visive.

4.1

Il dataset SimLex

Per poter costruire i vettori testuali è necessario anzitutto estrarre una lista di verbi-argomenti. A tal fine si è scelto di utilizzare una combinazione di dataset, estraendo i verbi dal SimLex-999 (Hill et al., 2015) e gli argomenti dal tensore marcato di DM (Baroni e Lenci, 2010).

SimLex-9992 è una risorsa che descrive la similarità tra coppie di parole

ed è pensata per la valutazione di modelli di semantica distribuzionale. Al suo interno è formata da 999 coppie di parole divise per tre Part of Speech (sostantivi, verbi e aggettivi) e per due categorie (concretezza e astrattezza).

Più specificatamente, ci sono 666 coppie di sostantivi, 222 coppie di verbi e 111 coppie di aggettivi, ognuna delle quali comprende in egual misura termini astratti e termini concreti.

1La cosine similarity, o coseno di similitudine, è una tecnica per la misurazione della similitudine tra due vettori effettuata calcolando il coseno tra di loro.

Per valutare il grado di similarità tra le coppie Hill et al. utilizzano la piattaforma di crowdsourcing di Amazon Mechanical Turk 3, chiedendo a

500 parlanti nativi di inglese di portare a termine due task: i) individuare, all’interno di un set di 3 opzioni, la coppia con il più alto grado di similarità (e.g. [bread, butter] [bread, toast] [stale, bread]) e ii) valutare la similarità delle coppie all’interno di una scala da 1 a 6. Il coefficiente di correlazione di Spearman ρ, calcolato sulle valutazioni dei parlati, è pari a ρ = 0.67, segno che gli utenti hanno assegnato spesso valutazioni simili.

Rispetto ad altre risorse come WordSim-353 (Finkelstein et al. 2002 e MEN (Bruni et al. 2014), SimLex-999 quantifica quindi la similarità tra le coppie di parole piuttosto che la loro correlazione. Questo significa che le coppie che sono correlate ma non effettivamente simili tendono ad avere un risultato più basso rispetto a quello registrato in altri dataset, come esemplificato dalla Figura 4.1.

Figura 4.1: Differenza dei giudizi di similarità tra

SimLex-999 e WordSim-353

Questa caratteristica di SimLex-999 lo rende una risorsa complessa da replicare per i modelli computazionali che non sempre sono in grado di catturare la similarità tra due parole indipendentemente dal loro grado di associazione. In particolare, da un’analisi condotta da Hill et al., viene evidenziata la difficoltà nel catturare la similarità tra i verbi. Come si nota dalla Figura 4.2 infatti, la performance dei target verbali di SimLex-999 risulta essere peggiore di quella delle altre due Part-of-Speech sia in riferimento al modello semantico basato sulle dipendenze di Levy e Goldberg (2014) sia allo skip-gram model di Mikolov et al. (2013). Questo risultato è tuttavia in linea con la teoria per la quale i verbi sono concetti relazionali, il cui significato è strettamente legato alle altre parole che co-occorrono con i verbi.

Figura 4.2: Confronto tra la performance delle

Part-of-Speech

Pur non essendo una risorsa facile da adoperare, per i motivi sopra elencati, si è scelto di utilizzare SimLex-999 perché rispetto ad altre misure gold-stardard (come WordSim-353) è maggiormente in grado di rappresentare la similarità tra le coppie di parole. Inoltre consente di effettuare un’analisi dettagliata dei modelli semantici.

Da questo dataset sono quindi estratti 100 verbi 4 che costituiscono il

target del nostro progetto. Per ognuno dei target vengono poi individuate le co-occorrenze nominali estraendole dal tensore di DM.

Documenti correlati