Analisi delle performance ottenute nel task Irony De-

5.3 Metodologia sperimentale

6.1.3 Analisi delle performance ottenute nel task Irony De-

In questa sezione analizziamo in che modo variano, al variare delle dimen- sioni del corpus Tweets, le F-score media, massima e minima e la deviazione standard per il task Irony Detection; prima si valutano i risultati ottenuti usando embedding creati con Word2Vec, poi i risultati ottenuti usando embedding creati con FastText; infine si farà un confronto tra i risultati ottenuti usando i due tipi di embedding.

6.1.3.1 Modelli addestrati con Word2Vec

In questo paragrafo analizziamo i risultati ottenuti nel task Irony Detection usando embedding creati con Word2Vec.

Token (milioni) Media Massimo Minimo Dev. standard 10 0.4785 0.5633 0.4397 0.0215 20 0.4802 0.5743 0.4688 0.0219 30 0.4806 0.5718 0.4688 0.0218 41 0.4824 0.5819 0.4688 0.0258 51 0.483 0.5745 0.4686 0.0256 61 0.4799 0.5767 0.4683 0.022 71 0.482 0.5833 0.4687 0.0242 81 0.483 0.5912 0.4685 0.0267 91 0.482 0.5795 0.4619 0.025 101 0.4799 0.574 0.4685 0.0218 242 0.4831 0.5865 0.4685 0.026 483 0.4828 0.5845 0.4688 0.0253 726 0.484 0.5871 0.4686 0.0265 966 0.4825 0.5749 0.4117 0.029 1,212 0.4837 0.5938 0.4686 0.0269

Tabella 6.5: Statistiche sulle F-score ottenute dal classificatore nel task Irony Detection, usando come feature gli embedding addestrati con Word2Vec sul corpus Tweets, al variare della dimensione del corpus.

Analisi della F-score media

Per quanto riguarda la F-score media, possiamo vedere in Figura 6.17 che il valore tende a crescere con tendenza logaritmica all’aumentare del numero di token usati per creare gli embedding. Tale crescita è più rapida nella prima parte del grafico: si sale infatti da 0.4785 (10 milioni di token) a 0.483 (50 milioni di token), quindi di 0.005 aggiungendo 40 milioni di token. Dopodiché si ha una crescita più lenta: da 0.483 (50 milioni di token) si sale a 0.4837 (1200 milioni di token), quindi di quasi 0.001 aggiungendo più di un miliardo di token.

La correlazione tra la F-score media e il numero di token usati per creare gli embedding è moderata (0.57).

Figura 6.17: Valori medi della F-score ottenuta nel task Irony Detection usando i modelli addestrati con Word2Vec sul corpus Tweets, in relazione con la dimensione del corpus.

Analisi della F-score massima

Per quanto riguarda la F-score massima, si può vedere in Figura 6.18 che il valore cresce all’aumentare della dimensione del corpus usato per creare gli embedding. Tale crescita è più rapida all’inizio del grafico: si sale da 0.5633(10 milioni di token) a 0.5833 (70 milioni di token), quindi 0.02 con 60 milioni di token in più. La crescita è più lenta nella seconda parte del grafico: si sale da 0.5833 (70 milioni di token) a 0.5938 (1200 milioni di token), quindi poco più di 0.01 aggiungendo più di un miliardo di token. Va notato che sia nella prima parte sia nella seconda ci sono delle oscillazioni significative.

La correlazione tra la F-score massima e il numero di token è moderata (0.48).

Figura 6.18: Valori massimi della F-score ottenuta nel task Irony De- tection usando i modelli addestrati con Word2Vec sul corpus Tweets, in relazione con la dimensione del corpus.

Analisi della F-score minima

A proposito della F-score minima, possiamo vedere in Figura 6.19 che il valore non cresce insieme alla dimensione del corpus usato per creare gli embedding, ma è pressoché costante: quasi tutti i valori sono compresi tra 0.4683 e 0.4688, con l’eccezione di alcuni valori che sono significativamente più bassi.

La correlazione tra la F-score minima e il numero di token è debolmente negativa (-0.35).

Analisi della deviazione standard

Per quanto riguarda la deviazione standard della F-score, si può vedere in Figura 6.20 che il valore cresce insieme al numero di token usati per creare gli embedding. La crescita è sostanzialmente lineare: si sale gradualmente dal valore di 0.022 (10 milioni di token) al valore di 0.027 (1200 milioni di token), con lievi oscillazioni.

Figura 6.19: Valori minimi della F-score ottenuta nel task Irony De- tection usando i modelli addestrati con Word2Vec sul corpus Tweets, in relazione con la dimensione del corpus.

La correlazione tra la deviazione standard e il numero di token usati per creare gli embedding è forte (0.67).

6.1.3.2 Modelli addestrati con FastText

In questo paragrafo analizziamo i risultati ottenuti nel task Irony Detection usando embedding addestrati con FastText.

Analisi della F-score media

Per quanto riguarda la F-score media, possiamo vedere in Figura 6.21 che il valore decresce con tendenza logaritmica al crescere del numero di token usati per addestrare gli embedding. Tale decrescita infatti è più marcata nella parte iniziale del grafico: si scende da 0.4895 (10 milioni di token) a 0.4729(240 milioni di token), quindi circa 0.015 in meno con 230 milioni di token in più. Da questo punto in poi sembra esserci una leggera ricrescita della F-score media, che in corrispondenza dell’ultimo elemento della serie

Figura 6.20: Valori della deviazione standard della F-score ottenuta nel task Irony Detection usando i modelli addestrati con Word2Vec sul corpus Tweets, in relazione con la dimensione del corpus.

assume il valore di 0.4778, quindi 0.005 in più con circa un miliardo di token in più.

La correlazione tra la F-score media e i numero di token usati è moderatamente negativa (-0.52).

Analisi della F-score massima

Per quanto riguarda la F-score massima, possiamo vedere in Figura 6.22 che il valore tende a decrescere con tendenza logaritmica all’aumentare del numero di token usati per addestrare gli embedding, differentemente sia rispetto a quanto visto con lo stesso task con l’uso degli embedding creati con Word2Vec, sia rispetto a quanto visto con l’uso dei modelli addestrati con FastText negli altri due task. Tale decrescita si mostra più veloce nella prima parte del grafico: vediamo infatti che si scende da 0.5593 (10 milioni di token) a 0.5291 (240 milioni di token), quindi 0.03 in meno con 40 milioni di token in più. Dopodiché si ha un momento di risalita seguito da una discesa

Token (milioni) Media Massimo Minimo Dev. standard 10 0.4892 0.5593 0.4282 0.023 20 0.4867 0.5447 0.4192 0.0231 30 0.4846 0.5368 0.4311 0.0206 41 0.4828 0.5508 0.4335 0.0237 51 0.4771 0.5295 0.3998 0.0241 61 0.4762 0.533 0.4065 0.0235 71 0.4817 0.5464 0.4343 0.0217 81 0.4768 0.5329 0.4188 0.026 91 0.4824 0.5334 0.424 0.0216 101 0.4796 0.5427 0.4042 0.0259 242 0.4729 0.5291 0.41 0.0258 483 0.4753 0.544 0.4039 0.0264 726 0.4765 0.5424 0.4299 0.0287 966 0.4734 0.5359 0.3792 0.0282 1,212 0.4776 0.5317 0.4123 0.0299

Tabella 6.6: Statistiche sulle F-score ottenute dal classificatore nel task Irony Detection, usando come feature gli embedding addestrati con FastText sul corpus Tweets, al variare della dimensione del corpus.

pressoché lineare.

La correlazione tra la F-score massima e il numero di token è debolmente negativa (-0.25).

Analisi della F-score minima

Per quanto riguarda la F-score minima, possiamo vedere in Figura 6.23 che il valore nel complesso tende a scendere con l’aumentare del numero di token, con tendenza grosso modo logaritmica ma con grandi oscillazioni. Dal valore di 0.4282 (10 milioni di token) si scende a 0.4042 (100 milioni). Dopodiché il valore rimane per nella finestra compresa tra 0.4 e 0.41, salvo due grosse oscillazioni in corrispondenza di 725 milioni di token (0.43) e di 965 milioni token (0.3792).

Figura 6.21: Valori medi della F-score ottenuta nel task Irony Detection usando i modelli addestrati con FastText sul corpus Tweets, in relazione con la dimensione del corpus.

Figura 6.22: Valori massimi della F-score ottenuta nel task Irony De- tection usando i modelli addestrati con FastText sul corpus Tweets, in relazione con la dimensione del corpus.

La correlazione tra la F-score minima e il numero di token è moderatamente negativa (-0.42).

Figura 6.23: Valori minimi della F-score ottenuta nel task Irony De- tection usando i modelli addestrati con FastText sul corpus Tweets, in relazione con la dimensione del corpus.

Analisi della deviazione standard

Per quanto riguarda la deviazione standard della F-score, vediamo in Figura 6.24 una situazione molto simile a quella vista con Word2Vec, in quanto il valore cresce insieme al numero di token usati con tendenza lineare: possiamo infatti vedere come si salga gradualmente dal valore di 0.023 (10 milioni di token) al valore di 0.0299 (1200 milioni di token).

La correlazione tra la deviazione standard e il numero di token è molto forte(0.85).

6.1.3.3 Confronto tra Word2Vec e FastText

In questo paragrafo confrontiamo, per il task Irony Detection, i risultati ottenuti usando gli embedding creati con Word2Vec e i risultati ottenuti

Figura 6.24: Valori della deviazione standard della F-score ottenuta nel task Irony Detection usando i modelli addestrati con FastText sul corpus Tweets, in relazione con la dimensione del corpus.

usando gli embedding creati con FastText.

Per quanto riguarda la F-score media, possiamo vedere che la correlazione tra le due serie di dati è fortemente negativa (-0.66); la cosa non sorprende, in quanto nel caso di Word2Vec il grafico è crescente con tendenza logaritmica, mentre nel caso di FastText è decrescente con tendenza logaritmica. I range di valori in cui ricadono le medie sono simili: tra 0.4785 e 0.4837 nel caso di Word2Vec, tra 0.4729 e 0.4892 nel caso di FastText.

Per quanto riguarda la F-score massima, possiamo vedere che la correlazione tra le due serie di dati è moderatamente negativa (0.43), cosa non sorprendente visto che nel caso di Word2Vec il grafico è crescente con tendenza logaritmica, mentre nel caso di FastText il grafico è decrescente con tendenza logaritmica. I range di valori in cui ricadono le F-score massime sono diversi ma vicini: tra 0.5633 e 0.5938 nel caso di Word2Vec, tra 0.5291 e 0.5593 nel caso di FastText.

ne tra le due serie di valori è moderata (0.48). I range in cui ricadono i valori delle F-score minime sono abbastanza diversi tra loro: tra 0.4117 e 0.4688 nel caso di Word2Vec, tra 0.3792 e 0.4343 nel caso di FastText.

Per quanto riguarda la deviazione standard, possiamo vedere che la correlazione tra le due serie di valori è forte (0.65). Ciò non sorprende, in quanto in entrambi il grafico si presenta crescente con tendenza lineare. I range in cui ricadono i valori sono molto simili tra loro: tra 0.021 e 0.03 nel caso di Word2Vec, tra 0.02 e 0.03 nel caso di FastText.

Nel documento Strategie di rappresentazione di documenti mediante Word Embedding nei task di Sentiment Analysis (pagine 95-105)