Analisi delle performance ottenute nel task Polarity

5.3 Metodologia sperimentale

6.1.2 Analisi delle performance ottenute nel task Polarity

In questa sezione analizziamo come, al variare delle dimensioni del corpus Tweets, cambino le F-score media, massima minima e la deviazione standard per il task Polarity Classification; prima si valutano le F-score ottenute usando gli embedding creati con Word2Vec, poi le quelle ottenute usando i modelli addestrati con FastText; infine, si confrontano i risultati ottenuti usando i due tipi di embedding.

6.1.2.1 Modelli addestrati con Word2Vec

In questo paragrafo analizziamo i risultati ottenuti nel task Polarity Clas- sification usando gli embedding creati con Word2Vec.

Analisi della F-score media

Per quanto riguarda la F-score media, possiamo vedere in Figura 6.9 che il valore cresce con tendenza logaritmica, come già visto per il task Subjectivity Classification. Tale crescita è infatti più rapida nella parte iniziale: possiamo vedere che si sale da 0.5736 (10 milioni di token) a 0.5869 (100 milioni di token), quindi più di 0.01 aggiungendo 90 milioni di token. Nella seconda parte del grafico la crescita è nettamente più lenta: si sale da 0.5869 (100 milioni di token) a 0.5921 (1200 milioni di token), quindi 0.005 aggiungendo 1100 milioni di token.

Token (milioni) Media Massimo Minimo Dev. standard 10 0.5736 0.6692 0.397 0.0796 20 0.5789 0.6754 0.3973 0.0817 30 0.5819 0.6739 0.397 0.0809 41 0.5853 0.6793 0.397 0.0829 51 0.5828 0.6802 0.3968 0.0828 61 0.5843 0.6814 0.3968 0.0828 71 0.5833 0.6838 0.3968 0.0827 81 0.5866 0.6824 0.3968 0.0833 91 0.5846 0.6791 0.3968 0.0837 101 0.5869 0.6859 0.3968 0.0841 242 0.5886 0.6846 0.3968 0.0835 483 0.5895 0.6881 0.3968 0.0843 726 0.59 0.6862 0.3968 0.0841 966 0.5887 0.6894 0.397 0.0833 1,212 0.5921 0.6925 0.3968 0.0864

Tabella 6.3: Statistiche sulle F-score ottenute dal classificatore nel task Po- larity Classification, usando come feature gli embedding addestrati con Word2Vec sul corpus Tweets, al variare della dimensione del corpus. La correlazione tra la F-score media e il numero di token usati per creare gli embedding è forte (0.7).

Analisi della F-score massima

Il grafico della F-score massima, che possiamo vedere in Figura 6.10, mo- stra una tendenza di crescita logaritmica, similmente a quanto appena visto per la F-score media. Si può infatti notare una rapida crescita nella prima parte: si sale da 0.6692 (10 milioni di token) a 0.6859 (100 milioni di token), quindi 0.015 aggiungendo 90 milioni di token. Nella seconda parte del grafico c’è una crescita molto meno rapida: si sale da 0.6859 (100 milioni di token) a 0.692 (1200 milioni di token), trattandosi quindi di 0.005 aggiungendo 1100 milioni di token.

Figura 6.9: Valori medi della F-score ottenuta nel task Polarity Classi- fication usando i modelli addestrati con Word2Vec sul corpus Tweets, in relazione con la dimensione del corpus.

La correlazione tra la F-score massima e il numero di token usati per creare gli embedding è forte (0.76).

Analisi della F-score minima

Per quanto riguarda la F-score minima, di cui possiamo osservare l’andamento nel grafico riportato in Figura 6.11, si può sicuramente dire che il trend complessivo è di decrescita, con tendenza grosso modo logaritmica. All’inizio il valore cala molto rapidamente, quasi verticalmente: da 0.3973 (20 milioni di token) si scende a 0.3968 (90 milioni di token). Da questo punto in poi il valore è praticamente costante, con oscillazioni inferiori a 0.0001, salvo che per la F-score minima ottenuta usando 960 milioni di token (0.397). È fondamentale sottolineare che tutte le variazioni della F-score minima sono molto piccole in termini assoluti: il valore più alto del grafico è 0.3973 (20 milioni di token), mentre il valore più basso è 0.3968 (482 milioni di token), con una differenza molto piccola (0.0005).

Figura 6.10: Valori massimi della F-score ottenuta nel task Polarity Clas- sification usando i modelli addestrati con Word2Vec sul corpus Tweets, in relazione con la dimensione del corpus.

La correlazione tra la F-score minima e il numero di token usati per creare gli embedding è molto debolmente negativa (-0.19).

Analisi della deviazione standard

Per quanto riguarda la deviazione standard della F-score, possiamo vedere in Figura 6.12 che c’è un trend complessivo di crescita, con tendenza logaritmica. Il valore cresce più velocemente nella prima parte del grafico: si sale da 0.0795 (10 milioni di token) a 0.0841 (100 milioni di token). A partire da 240 milioni di token, il valore rimane sostanzialmente costante, oscillando tra 0.083 e 0.084. Va notato che l’ultimo valore (in corrispondenza di 1200 milioni di token) è un po’ più alto (0.0864).

La correlazione tra la deviazione standard e il numero di token usati per addestrare gli embedding è forte (0.67).

Figura 6.11: Valori minimi della F-score ottenuta nel task Polarity Clas- sificationusando i modelli addestrati con Word2Vec sul corpus Tweets, in relazione con la dimensione del corpus.

Figura 6.12: Valori della deviazione standard della F-score ottenuta nel task Polarity Classification usando i modelli addestrati con Word2Vec sul corpus Tweets, in relazione con la dimensione del corpus.

6.1.2.2 Modelli addestrati con FastText

In questo paragrafo analizziamo i risultati ottenuti nel task Polarity Classi- fication usando gli embedding addestrati con FastText.

Token (milioni) Media Massimo Minimo Dev. standard 10 0.55 0.6603 0.4762 0.043 20 0.5504 0.6711 0.487 0.0455 30 0.5464 0.6757 0.4808 0.0484 41 0.5469 0.6803 0.4752 0.0501 51 0.5444 0.678 0.4903 0.0493 61 0.5471 0.6796 0.4791 0.049 71 0.5463 0.6796 0.4739 0.0521 81 0.5444 0.6715 0.4651 0.0502 91 0.5415 0.6784 0.459 0.0513 101 0.5439 0.6786 0.4656 0.0527 242 0.5429 0.68 0.4606 0.0552 483 0.5371 0.6756 0.4542 0.0563 726 0.5342 0.6783 0.4176 0.0555 966 0.5368 0.6715 0.4523 0.0515 1,212 0.5384 0.678 0.4329 0.0553

Tabella 6.4: Statistiche sulle F-score ottenute dal classificatore nel task Po- larity Classification, usando come feature gli embedding addestrati con FastText sul corpus Tweets, al variare della dimensione del corpus.

Analisi della F-score media

Per quanto riguarda la F-score media, possiamo vedere in Figura 6.13 una situazione opposta a quanto visto relativamente all’uso nello stesso task di embedding creati con WordVec, e analoga invece a quanto visto relativamente all’uso di embedding creati con FastText nel task Subjectivity Classification. Il grafico è divisibile in due parti: una prima parte (da 10 a 700 milioni di token) in cui il valore decresce con tendenza logaritmica (da 0.55 a 0.5342);

una seconda parte (da 700 a 1200 milioni di token) in cui il valore cresce con tendenza lineare (da 0.5342 a 0.5384).

La correlazione tra la F-score media e il numero di token usati per creare gli embedding è molto fortemente negativa (-0.8).

Figura 6.13: Valori medi della F-score ottenuta nel task Polarity Clas- sification usando i modelli addestrati con FastText sul corpus Tweets, in relazione con la dimensione del corpus.

Analisi della F-score massima

Per quanto riguarda la F-score massima, vediamo in Figura 6.14 una situazione più simile sia a quella vista con l’uso di embedding addestrati con Word2Vec nello stesso task, sia a quella vista con l’uso dei modelli creati con FastText nel task Subjectivity Classification. Infatti il valore cresce con tendenza logaritmica: si sale da 0.6603 (10 milioni di token) a 0.6803 (40 milioni di token), quindi di 0.02 aggiungendo 30 milioni di token. Da questo punto il valore rimane per un po’ sostanzialmente costante, per poi assumere una tendenza leggermente decrescente negli ultimi quattro valori, (con note- voli oscillazioni). Il valore finale è comunque molto vicino a 0.68, il punto

più alto del grafico.

La correlazione tra la F-score massima e il numero di token usati per creare gli embedding con FastText è molto debole (0.07).

Figura 6.14: Valori massimi della F-score ottenuta nel task Polarity Clas- sification usando i modelli addestrati con FastText sul corpus Tweets, in relazione con la dimensione del corpus.

Analisi della F-score minima

Per quanto riguarda la F-score minima, possiamo vedere in Figura 6.15 che il valore tende a decrescere con tendenza logaritmica. La situazione è abbastanza simile a quella vista per la F-score media. Innanzitutto, va rilevata nel grafico una rapida decrescita nella prima parte del grafico: si passa da 0.487(20 milioni di token) a 0.459 (90 milioni di token), ovvero circa 0.03 in 70 milioni di token. La tendenza alla decrescita rimane significativa in tutto il resto del grafico, benché meno rapida: si passa da 0.4656 (100 milioni di token) a 0.4329 (1200 milioni di token), trattandosi quindi di 0.04 in 1100 milioni di token. L’andamento della decrescita è quasi lineare; va però notato che la F-score ottenuta con 725 milioni di token (0.417) è nettamente più

bassa rispetto a tutti gli altri valori.

La correlazione tra la F-score minima e il numero di token usati per addestrare gli embedding è molto fortemente negativa (-0.81).

Figura 6.15: Valori minimi della F-score ottenuta nel task Polarity Clas- sification usando i modelli addestrati con FastText sul corpus Tweets, in relazione con la dimensione del corpus.

Analisi della deviazione standard

Per quanto riguarda la deviazione standard della F-score, possiamo vedere in Figura 6.16 che il valore tende a crescere con tendenza logaritmica al- l’aumentare del numero di token usati per l’addestramento degli embedding. Vediamo infatti che si ha una crescita più marcata all’inizio del grafico: si passa da 0.043 (10 milioni di token) a 0.0527 (100 milioni di token), quindi circa 0.01 in 90 milioni di token. La crescita da qui fino alla fine del grafico è meno marcata: si passa da 0.0527 (100 milioni di token) a 0.0553 (1200 milioni di token), quindi circa 0.003 in 1100 milioni di token.

Figura 6.16: Valori della deviazione standard della F-score ottenuta nel task Polarity Classification usando i modelli addestrati con FastText sul corpus Tweets, in relazione con la dimensione del corpus.

6.1.2.3 Confronto tra Word2Vec e FastText

In questo paragrafo confrontiamo i risultati ottenuti nel task Polarity Clas- sificationusando embedding creati con Word2Vec e i risultati ottenuti usando embedding creati con FastText.

Per quanto riguarda la F-score media, possiamo vedere che c’è un indice di correlazione fortemente negativa (-0.83) tra le due serie di valori: abbiamo visto infatti che nel caso di Word2Vec si ha un grafico crescente con tendenza logaritmica, mentre nel caso di FastText il grafico è decrescente con tendenza logaritmica. Il range in cui ricadono le medie ottenute usando embedding creati con Word2Vec è più alto rispetto al range in cui ricadono le medie ottenute usando embedding creati con FastText: nel primo caso si oscilla tra 0.5736 e 0.5921; nel secondo caso tra 0.5342 e 0.5504.

Per quanto riguarda la F-score massima, possiamo vedere che c’è correlazione moderata (0.51) tra le due serie di valori, meno di quanto ci si potrebbe aspettare dal fatto che in entrambi i casi si ha un grafico crescente con ten-

denza logaritmica. I due range in cui ricadono i valori in questione sono in parte sovrapposti: tra 0.6692 e 0.6925 nel caso di Word2Vec, tra 0.6603 e 0.6803 nel caso di FastText.

Per quanto riguarda la F-score minima, la correlazione tra le due serie di valori è moderata (0.43). Ciò è probabilmente legato al fatto che i due grafici, pur essendo entrambi decrescenti con tendenza logaritmica, presentano delle differenze significative. Le due serie di valori ricadono in range nettamente diversi: tra 0.3968 e 0.3973 nel caso di Word2Vec, tra 0.4176 e 0.4903 nel caso di FastText.

Per quanto riguarda la deviazione standard, tra le due serie di valori abbiamo una correlazione molto forte (0.86); infatti, entrambi i grafici si mostrano crescenti con tendenza logaritmica. I range in cui ricadono le due serie di valori sono abbastanza diversi: tra 0.0796 e 0.0864 nel caso di Word2Vec, tra 0.043 e 0.0563 nel caso di FastText.

6.1.3 Analisi delle performance ottenute nel task Irony

Nel documento Strategie di rappresentazione di documenti mediante Word Embedding nei task di Sentiment Analysis (pagine 85-95)