• Non ci sono risultati.

Studio dei risultati ottenuti usando sia embedding crea-

6.2 Studio dell’impatto di un corpus di dominio rispetto a uno non

6.2.3 Studio dei risultati ottenuti usando sia embedding crea-

con FastText

Per quanto riguarda il task Subjectivity Classification, vediamo in Figura 6.31 una situazione già vista quando si usano solo embedding addestrati con FastText: usando i due modelli addestrati su Tweets si ha una performance media pari a (0.5087); usando i modelli addestrati su Paisà si ha una perfor- mance media più alta di quasi 0.01 (0.5166), a differenza di quanto già visto usando solo embedding addestrati con Word2Vec; la performance ottenuta usando tutti i modelli insieme (0.5023) è la più bassa, come già visto usando

Figura 6.30: Confronto della F-score media ottenuta nel task Irony Detec- tion usando solo gli embedding addestrati su Tweets, solo quelli addestrati su Paisà oppure entrambi i tipi di modelli, in tutti e tre i casi usando solo embedding addestrati con FastText. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colon- na Tweets si vedano le Tabelle A.4 e A.5; per la colonna Paisà si vedano le Tabelle A.8 e A.9; per la colonna Tweets e Paisà si vedano le Tabelle A.12 e A.13.

solo embedding addestrati con Word2Vec o solo con FastText.

Tutte e tre le F-score crescono rispetto alla baseline (0.4711), come visto anche usando solo modelli addestrati con FastText; tale miglioramento va tra 0.03 e 0.045.

Per quanto riguarda il task Polarity Classification, vediamo in Figura 6.32 che la performance media più alta si ha usando gli embedding addestrati su Tweets (0.5253); usando il modello addestrato su Paisà si ha una perfor- mance più bassa di quasi 0.01 (0.5166); la performance che si ha quando si usano tutti i modelli insieme (0.5099) è la più bassa, similmente sia a quanto visto usando solo modelli addestrati con Word2Vec sia a quanto visto usando solo modelli addestrati solo con FastText.

Figura 6.31: Confronto della F-score media ottenuta nel task Subjectivity Classification usando solo gli embedding addestrati su Tweets, solo quelli addestrati su Paisà oppure entrambi i tipi di modelli, in tutti e tre i casi usando sia embedding addestrati con Word2Vec sia embedding addestrati con FastText. Ogni colonna riporta la media di 65 esperimenti, le cui con- figurazioni sono riportate in Appendice: per la colonna Tweets si vedano le Tabelle A.14 e A.15; per la colonna Paisà si vedano le Tabelle A.16 e A.17; per la colonna Tweets e Paisà si vedano le Tabelle A.18 e A.19.

Tutte e tre le performance hanno un peggioramento rispetto alla baseline (0.5499) che va all’incirca da 0.025 e 0.04, in maniera abbastanza simile a quanto visto quando si usano solo embedding addestrati con FastText.

Per quanto riguarda il task Irony Detection, vediamo in Figura 6.33 che la performance ottenuta usando i modelli addestrati su Tweets è (0.4857); che usando gli embedding addestrati su Paisà la performance è sostanzialmen- te equivalente (0.4885), anche se leggermente più alta; che la performance media più alta (come quando si usano solo embedding creati con FastText) si ha quando si usano tutti i modelli insieme (0.4888), anche se il valore è di fatto identico a quello ottenuto con i modelli addestrati su Paisà. Tutte e tre le F-score mostrano un miglioramento di quasi 0.01 rispetto alla base-

Figura 6.32: Confronto della F-score media ottenuta nel task Polarity Clas- sification usando solo gli embedding addestrati su Tweets, solo quelli adde- strati su Paisà oppure entrambi i tipi di modelli, in tutti e tre i casi usando sia embedding addestrati con Word2Vec sia embedding addestrati con Fast- Text. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colonna Tweets si vedano le Tabelle A.14 e A.15; per la colonna Paisà si vedano le Tabelle A.16 e A.17; per la colonna Tweets e Paisà si vedano le Tabelle A.18 e A.19.

line (0.4787), più alta rispetto a quanto visto con i modelli addestrati su Word2Vec.

Figura 6.33: Confronto della F-score media ottenuta nel task Irony Detec- tion usando solo gli embedding addestrati su Tweets, solo quelli addestrati su Paisà oppure entrambi i tipi di modelli, in tutti e tre i casi usando sia em- bedding addestrati con Word2Vec sia embedding addestrati con FastText. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colonna Tweets si vedano le Tabelle A.14 e A.15; per la colonna Paisà si vedano le Tabelle A.16 e A.17; per la colonna Tweets e Paisà si vedano le Tabelle A.18 e A.19.

Capitolo 7

Studio sperimentale sulle

metodologie di addestramento dei

modelli distribuzionali

In questo capitolo forniamo dei dati sperimentali al fine di rispondere alla domanda n. 3 proposta nel Capitolo 5. Pertanto, discuteremo i risultati degli esperimenti che indagano le differenze qualitative fra gli embedding creati con Word2Vec e gli embedding creati con FastText.

7.1

Studio dell’impatto dell’uso di embedding

di parole o di embedding di n-grammi di

caratteri sulla performance del classificato-

re

In questa sezione si analizzerà il modo in cui la performance del classifica- tore cambia in relazione al tipo dei embedding usati per ottenere le feature; abbiamo usato:

• embedding di parole (creati con Word2Vec);

• embedding di n-grammi di caratteri (creati con FastText); • entrambi i tipi di embedding contemporaneamente.

Per confrontare i risultati, li abbiamo raggruppati in base al tipo di mo- dello (o di modelli) distribuzionale usato (addestrato su Tweets, su Paisà o entrambi i modelli). Li abbiamo poi ulteriormente divisi per task. Mostrere- mo quindi tanti grafici quante sono le possibili coppie corpus-task; in ogni grafico compaiono tre colonne, le quali riportano le performance medie otte- nute negli esperimenti in cui sono stati usati, rispettivamente, solo il modello addestrato con Word2Vec, solo quello addestrato con FastText e entrambi i modelli; ogni grafico contiene inoltre una retta orizzontale corrisponden- te al valore della baseline per il task in questione. La performance di ogni esperimento è stata misurata mediante la F-score calcolata con lo script di valutazione di Evalita-SENTIPOLC.

7.1.1

Studio dei risultati ottenuti usando gli embedding

addestrati su Tweets

Per quanto riguarda il task Subjectivity Classification, vediamo in Figu- ra 7.1 che la performance media più alta si ha usando il modello addestrato con Word2Vec (0.5901); usando gli embedding addestrati con FastText si ottiene una F-score media più bassa di 0.07 rispetto a quando si usa il mo- dello addestrato con Word2Vec (0.5198); la performance ottenuta usando entrambi i modelli (0.5087) è più bassa di 0.08 rispetto a quando si usa il modello addestrato con Word2Vec e di 0.01 rispetto a quando si usa il mo- dello addestrato con FastText.

Vediamo che la baseline (0.4711) viene superata da tutte e tre le F-score: quando si usa il modello addestrato su Word2Vec il miglioramento è di quasi 0.12; negli altri due casi la differenza è più contenuta, all’incirca tra 0.04 e

0.05 punti. Appare quindi evidente che, relativamente a questo task e usan- do il corpus Tweets come input di addestramento, Word2Vec risulta essere la metodologia migliore per creare gli embedding, mentre usando entrambi i tipi di embedding contemporaneamente si peggiora.

Figura 7.1: Confronto della F-score media ottenuta nel task Subjectivity Classification usando solo gli embedding addestrati con Word2Vec, solo quelli addestrati con FastText oppure entrambi i tipi di embedding, in tutti e tre i casi usando solo embedding addestrati su Tweets. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colonna Word2Vec si vedano le Tabelle A.2 e A.3; per la colonna FastText si vedano le Tabelle A.4 e A.5; per la colonna Word2Vec e FastText si vedano le Tabelle A.14 e A.15.

Per quanto riguarda il task Polarity Classification, vediamo in Figura 7.2 una situazione simile a quella vista per il task Subjectivity Classifica- tion: la performance media più alta si ha usando il modello addestrato con Word2Vec (0.592), mentre quando si usa il modello addestrato con FastText si ha una F-score media più bassa di 0.05 (0.5384); la performance media ottenuta usando entrambi i modelli (0.5253) è ancora più bassa (circa 0.06 in meno rispetto a Word2Vec e 0.01 rispetto a FastText).

La baseline (0.5499) viene superata di circa 0.04 quando si usa il modello addestrato con Word2Vec; negli altri due casi si ha invece un peggioramento tra 0.01 e 0.02.

Vediamo quindi che anche in questo caso gli embedding migliori sono quelli creati con Word2Vec, e che l’uso di entrambi i modelli porta il classifi- catore ad dare una F-score più bassa rispetto a entrambe quelle ottenute con i due modelli usati singolarmente.

Inoltre, va notato che la baseline è notevolmente alta per Polarity Classi- fication, e quindi si spiega bene perché, pur essendo tutte e tre le F-score più alte dei corrispondenti valori in Subjectivity Classification, in questo caso essa viene superata solo da uno dei valori presentati, mentre nel task precedente viene superata da tutte e tre le F-score.

Per quanto riguarda il task Irony Detection, in Figura 7.3 possiamo notare una situazione nettamente diversa rispetto agli altri due task: la F- score ottenuta quando si usa il modello addestrato con Word2Vec (0.4837) non è la più alta; rispetto a quest’ultima, la performance che si ha usando il modello addestrato con FastText (0.4776) è più bassa di molto poco, circa 0.005; la performance media più alta si ha quando si usano entrambi i modelli (0.4857), comunque poco al di sopra del valore ottenuto con il modello di Word2Vec.

La baseline (0.4787) viene superata, anche se di poco, quando si usano entrambi i modelli e quando si usa solo il modello addestrato con Word2Vec; si ha invece un peggioramento trascurabile quando si usa il modello adde- strato con FastText.

Possiamo quindi vedere che, diversamente da quanto visto a proposito degli altri due task, usando entrambi i tipi di modelli distribuzionali si ottiene la F-score più alta; similarmente a quanto visto per gli altri due task, il modello addestrato con Word2Vec dà una F-score più alta rispetto a quella ottenuta con FastText, anche se di poco.

Figura 7.2: Confronto della F-score media ottenuta nel task Polarity Clas- sification usando solo gli embedding addestrati con Word2Vec, solo quelli addestrati con FastText oppure entrambi i tipi di embedding, in tutti e tre i casi usando solo embedding addestrati su Tweets. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colonna Word2Vec si vedano le Tabelle A.2 e A.3; per la colonna Fast- Text si vedano le Tabelle A.4 e A.5; per la colonna Word2Vec e FastText si vedano le Tabelle A.14 e A.15.

7.1.2

Studio dei risultati ottenuti usando gli embedding

addestrati su Paisà

Usando gli embedding addestrati sul corpus Paisà si ha una situazione si- mile a quella vista quando si usano i modelli addestrati su Tweets. Come si sta per descrivere nel dettaglio, anche qui usando il modello addestrato con Word2Vec si ha la F-score più alta nei task Subjectivity Classification e Polarity Classification, mentre la più bassa (in entrambi i task) si ha usando entrambi i modelli; va precisato che tutti e tre i valori sono in questo caso più bassi di quelli visti usando i modelli addestrati su Tweets.

Usando entrambi i modelli si ha la F-score più alta nel task Irony De- tection, mentre la F-score più bassa si ha usando il modello addetrato con

Figura 7.3: Confronto della F-score media ottenuta nel task Irony Detec- tion usando solo gli embedding addestrati con Word2Vec, solo quelli adde- strati con FastText oppure entrambi i tipi di embedding, in tutti e tre i casi usando solo embedding addestrati su Tweets. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colonna Word2Vec si vedano le Tabelle A.2 e A.3; per la colonna FastText si vedano le Tabelle A.4 e A.5; per la colonna Word2Vec e FastText si vedano le Tabelle A.14 e A.15.

FastText.

Per quanto riguarda il task Subjectivity Classification, vediamo in Figura 7.4 che la performance media più alta si ha quando si usa il modello addestrato con Word2Vec (0.572); quando si usa il modello addestrato con FastText si ha una F-score media più bassa di 0.05 (0.5205); la performance media che si ha quando si usano entrambi i modelli (0.5165) è più bassa di circa mezzo punto rispetto a entrambi gli altri valori, in particolare rispetto a Word2Vec (oltre 0.05 in meno). Va quindi notato che, rispetto a quando si usa Tweets come corpus di addestramento degli embedding, la F-score media ottenuta usando il modello addestrato con Word2Vec peggiora, mentre usando gli altri due modelli al contrario migliora.

La baseline (0.4711) viene superata in tutti e tre i casi (come quan- do si usano i modelli addestrati su Tweets): usando il modello addestrato con Word2Vec si ha un miglioramento di 0.01; negli altri due casi si ha un miglioramento che va da 0.035 a quasi 0.05.

Figura 7.4: Confronto della F-score media ottenuta nel task Subjectivity Classification usando solo gli embedding addestrati con Word2Vec, solo quelli addestrati con FastText oppure entrambi i tipi di embedding, in tutti e tre i casi usando solo embedding addestrati su Paisà. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colonna Word2Vec si vedano le Tabelle A.6 e A.7; per la colonna FastText si vedano le Tabelle A.8 e A.9; per la colonna Word2Vec e FastText si vedano le Tabelle A.16 e A.17.

Per quanto riguarda il task Polarity Classification, vediamo in Figura 7.5 che la performance media più alta si ha usando il modello addestrato con Word2Vec (0.569); quando si usa il modello addestrato con FastText si ha una F-score media più bassa di quasi 0.04 (0.531); la performance media che si ha quando si usano entrambi i modelli (0.517) è più bassa rispetto agli altri due valori (0.05 in meno).

La baseline (0.5499) viene superata di 0.02 solo usando il modello ad- destrato con Word2Vec, come quando si usano gli embedding addestrati con Tweets; negli altri due casi si ha invece un peggioramento, che va tra 0.015 e 0.035. Come già ripetuto più volte, va tenuto presente che la F-score ottenuta dalla baseline nel task Polarity Classification è molto alta.

Figura 7.5: Confronto della F-score media ottenuta nel task Polarity Clas- sification usando solo gli embedding addestrati con Word2Vec, solo quelli addestrati con FastText oppure entrambi i tipi di embedding, in tutti e tre i casi usando solo embedding addestrati su Paisà. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colonna Word2Vec si vedano le Tabelle A.6 e A.7; per la colonna Fast- Text si vedano le Tabelle A.8 e A.9; per la colonna Word2Vec e FastText si vedano le Tabelle A.16 e A.17.

Per quanto riguarda il task Irony Detection, vediamo in Figura 7.6 che quando si usa il modello addestrato con Word2Vec si ha una F-score media di 0.479); la performance media che si ha usando il modello addestrato con FastText è quasi equivalente (0.476); la F-score media più alta si ha usando entrambi i modelli (0.488), circa 0.01 in più rispetto agli altri due risultati.

Usando entrambi i modelli si supera la baseline (0.4787) di circa 0.01; le F-score ottenute usando gli altri due modelli sono invece quasi equivalenti alla baseline.

Figura 7.6: Confronto della F-score media ottenuta nel task Irony Detec- tion usando solo gli embedding addestrati con Word2Vec, solo quelli adde- strati con FastText oppure entrambi i tipi di embedding, in tutti e tre i casi usando solo embedding addestrati su Paisà. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colonna Word2Vec si vedano le Tabelle A.6 e A.7; per la colonna FastText si vedano le Tabelle A.8 e A.9; per la colonna Word2Vec e FastText si vedano le Tabelle A.16 e A.17.

7.1.3

Studio dei risultati ottenuti usando sia gli em-

bedding addestrati su Tweets sia gli embedding

addestrati su Paisà

Come verrà illustrato a breve, usando sia i modelli addestrati su Tweets sia quelli addestrati su Paisà si ha una situazione simile a quella già vista quando si usano solo modelli addestrati su un corpus o solo gli embedding addestrati

sull’altro: sia in Subjectivity Classification che in Polarity Classifica- tion la F-score più alta si ha usando gli embedding creati con Word2Vec, e quella più bassa si ha usando entrambi i tipi di embedding, pur notando che in questi due task tutte e tre le F-score sono inferiori ai corrispondenti valori ottenuti usando solo i modelli su uno dei due corpora. Nel task Irony Detectionla F-score più alta è data usando insieme i modelli addestrati con Word2Vec e quelli addestrati con FastText, mentre la performance peggiore si ha usando solo gli embedding addestrati con FastText.

Per quanto riguarda il task Subjectivity Classification, vediamo in Fi- gura 7.7 che la performance media più alta si ha usando il modello addestrato con Word2Vec (0.568); usando il modello addestrato con FastText si ha una F-score media più bassa di 0.06 punti (0.506); usando entrambi i modelli si ha una performance media (0.502) più bassa di 0.065 rispetto a Word2Vec e di 0.005 rispetto a FastText (di fatto equivalente).

La baseline (0.4711) viene superata da tutte e tre le F-score: quando si usa il modello addestrato con Word2Vec si ha un miglioramento di quasi 0.1; negli altri due casi si ha un miglioramento più contenuto, di circa 0.06.

Per quanto riguarda il task Polarity Classification, vediamo in Figura 7.8 che la performance media più alta si ha usando gli embedding addestra- ti con Word2Vec (0.5678); quando si usano gli embedding addestrati con FastText si ha una performance media più bassa di circa 0.055 (0.5125); rispetto a quest’ultima la performance che si ha usando i modelli di entrambi i tipi (0.50989) è inferiore di 0.06 rispetto a Word2Vec (quasi equivalente a FastText).

La baseline (0.5499) viene superata solo usando gli embedding adde- strato con Word2Vec, con cui si ha un miglioramento di 0.02; negli altri due casi si ha invece un peggioramento che va tra 0.035 e 0.04.

Per quanto riguarda il task Irony Detection, vediamo in Figura 7.9 che usando il modello addestrato con Word2Vec si ha una F-score media pari a 0.4861; rispetto a quest’ultima, la performance media che si ha usando il

Figura 7.7: Confronto della F-score media ottenuta nel task Subjectivi- ty Classification usando solo gli embedding addestrati con Word2Vec, solo quelli addestrati con FastText oppure entrambi i tipi di embedding, in tut- ti e tre i casi usando sia embedding addestrati su Tweets sia embedding addestrati su Paisà. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colonna Word2Vec si vedano le Tabelle A.10 e A.11; per la colonna FastText si vedano le Tabelle A.12 e A.13; per la colonna Word2Vec e FastText si vedano le Tabelle A.18 e A.19.

modello addestrato con FastText è più bassa di 0.01 (0.4761). La perfor- mance media più alta si ha usando entrambi i modelli (0.4888); si tratta di una F-score più alta sia rispetto al corrispondente valore ottenuto usando solo embedding addestrati su Tweets sia rispetto al valore ottenuto usando solo embedding addestrati su Paisà.

La baseline (0.4787) viene superata di circa 0.01 usando il modello addestrato con Word2Vec o entrambi i modelli; usando il modello addestrato con FastText si ha invece un peggioramento, comunque troppo piccolo per essere significativo. È importante sottolineare che l’uso combinato dei modelli addestrati con le due metodologie dà sempre i risultati migliori per il task

Figura 7.8: Confronto della F-score media ottenuta nel task Polarity Clas- sification usando solo gli embedding addestrati con Word2Vec, solo quelli addestrati con FastText oppure entrambi i tipi di embedding, in tutti e tre i casi usando sia embedding addestrati su Tweets sia embedding addestrati su Paisà. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colonna Word2Vec si vedano le Tabelle A.10 e A.11; per la colonna FastText si vedano le Tabelle A.12 e A.13; per la colonna Word2Vec e FastText si vedano le Tabelle A.18 e A.19.

Figura 7.9: Confronto della F-score media ottenuta nel task Irony Detec- tion usando solo gli embedding addestrati con Word2Vec, solo quelli adde- strati con FastText oppure entrambi i tipi di embedding, in tutti e tre i casi usando sia embedding addestrati su Tweets sia embedding addestrati su