Studio dei risultati ottenuti usando embedding creat

6.2 Studio dell’impatto di un corpus di dominio rispetto a uno non

6.2.1 Studio dei risultati ottenuti usando embedding creat

Per quanto riguarda il task Subjectivity Classification, possiamo vedere in Figura 6.25 che la performance media più alta è data dagli esperimenti in cui si usa solo il modello distribuzionale addestrato sul corpus Tweets (0.59), che è più alta di quasi 0.02 rispetto alla performance media ottenuta usando solo il modello addestrato su Paisà (0.572). È interessante notare che l’uso congiunto dei modelli addestrati su Tweets e di quelli addestrati su Paisà non

dà alcun miglioramento, anzi: vediamo che la performance media (0.5683) è più bassa (anche se di molto poco) rispetto alla media data dagli esperimenti in cui si usa il modello addestrato su Paisà, e soprattutto è più bassa di circa 0.025 rispetto alla F-score media ottenuta usando il modello addestrato su Tweets. Non si ha quindi un miglioramento quando si usa sia il modello addestrato su un corpus sia il modello addestrato sull’altro.

Tutte e tre le F-score superano di molto la baseline (0.4711), con un miglioramento che va tra 0.09 e 0.12.

Figura 6.25: Confronto della F-score media ottenuta nel task Subjectivity Classificationusando come feature solo gli embedding addestrati su Tweets, solo quelli addestrati su Paisà oppure entrambi i tipi di embedding, in tutti e tre i casi usando solo embedding addestrati con Word2Vec. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colonna Tweets si vedano le Tabelle A.2 e A.3; per la colonna Paisà si vedano le Tabelle A.6 e A.7; per la colonna Tweets e Paisà si vedano le Tabelle A.10 e A.11.

Per quanto riguarda il task Polarity Classification, possiamo vedere in Figura 6.26 una situazione molto simile a quella vista per il task Subjectivity Classification. Le performance medie sono quasi identiche: anche in questo

caso la performance media più alta si ottiene negli esperimenti in cui si usa solo il modello addestrato su Tweets (0.592); la performance media ottenuta usando il modello addestrato su Paisà è più bassa di 0.02 (0.569); la performance media ottenuta usando entrambi i modelli è praticamente identica (è più bassa di pochissimo) a quella che si ha quando si usa solo il modello addestrato su Paisà (0.568). Pertanto nemmeno in questo task si hanno miglioramenti quando si combinano i modelli addestrati sui due corpora.

Tutte e tre le F-score, pur avendo valori simili a quelli visti per il task Subjectivity Classification, presentano un miglioramento rispetto alla baseline(0.5499) che è più contenuto (tra 0.02 e 0.04), in quanto la baseline per il task Polarity Classification è notevolmente più alta.

Figura 6.26: Confronto della F-score media ottenuta nel task Polarity Clas- sification usando solo gli embedding addestrati su Tweets, solo quelli addestrati su Paisà oppure entrambi i tipi di embedding, in tutti e tre i casi usando solo embedding addestrati con Word2Vec. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colonna Tweets si vedano le Tabelle A.2 e A.3; per la colonna Paisà si vedano le Tabelle A.6 e A.7; per la colonna Tweets e Paisà si vedano le Tabelle A.10 e A.11.

Per quanto riguarda il task Irony Detection, vediamo in Figura 6.27 una situazione un po’ diversa rispetto agli altri due task. Va sottolineato che nessuna delle F-score medie prese in analisi raggiunge il valore di 0.5, cosa che conferma la maggiore difficoltà di questo task. La performance media ottenuta usando il modello addestrato su Tweets ha il valore di 0.484. quando si usa il modello addestrato su Paisà si ha una F-score media più bassa (0.479), ma di poco. Stavolta quando si usano entrambi i modelli si ha un miglioramento, anche se abbastanza piccolo: la F-score media è 0.486, superiore rispetto a entrambi i valori appena visti, in particolare quello ottenuto usando solo il modello addestrato su Paisà.

La baseline (0.4787) viene superata da tutte e tre le F-score, tuttavia di molto poco: il miglioramento si avvicina a 0.01 solo quando si usano entrambi i modelli.

6.2.2 Studio dei risultati ottenuti usando embedding

creati con FastText

Per quanto riguarda il task Subjectivity Classification, in Figura 6.28 vediamo che quando si usa il modello addestrato su Tweets si ha una performance media pari a 0.5198; a differenza di quanto visto con Word2Vec, quando si usano gli embedding addestrati su Paisà si ha una F-score media più alta (0.5205), anche se di pochissimo; quando si usano entrambi i modelli la performance media si riduce di circa 0.015 rispetto ai due valori appena visti (0.5056), quindi anche in questa situazione l’uso di entrambi i modelli non porta miglioramenti, analogamente a quanto visto con Word2Vec. La baseline (0.4711) viene superata da tutte e tre le F-score, con un miglioramento che va tra 0.03 e 0.05, che è inferiore a quanto visto con Word2Vec.

Per quanto riguarda il task Polarity Classification, possiamo vedere in Figura 6.29 che la performance media più alta si ha quando si usano gli embedding addestrati su Tweets (0.538); quando si usa il modello addestrato

Figura 6.27: Confronto della F-score media ottenuta nel task Irony Detec- tion usando solo gli embedding addestrati su Tweets, solo quelli addestrati su Paisà oppure entrambi i tipi di modelli, in tutti e tre i casi usando solo embedding addestrati con Word2Vec. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colonna Tweets si vedano le Tabelle A.2 e A.3; per la colonna Paisà si vedano le Tabelle A.6 e A.7; per la colonna Tweets e Paisà si vedano le Tabelle A.10 e A.11.

su Paisà la performance media è leggermente più bassa, con una differenza di meno di 0.01 (0.531); rispetto a quest’ultimo caso, quando si usano entrambi i modelli si ha una performance media (0.5125) più bassa di di 0.02-0.03 rispetto agli altri due valori; neanche in questo caso si ha quindi un miglioramento rispetto a quando si usano i due modelli separatamente. Tutte e tre le performance medie presentano rispetto alla baseline (0.5499) un peggioramento che va tra 0.01 e 0.04.

Per quanto riguarda il task Irony Detection, possiamo vedere in Figura 6.30 che la performance media più alta si ha usando gli embedding addestrati su Tweets (0.4776); quando si usa il modello addestrato su Paisà si ha una performance media leggermente più bassa (0.4759); usando entrambi i

Figura 6.28: Confronto della F-score media ottenuta nel task Subjectivity Classification usando solo gli embedding addestrati su Tweets, solo quelli addestrati su Paisà oppure entrambi i tipi di modelli, in tutti e tre i casi usando solo embedding addestrati con FastText. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colonna Tweets si vedano le Tabelle A.4 e A.5; per la colonna Paisà si vedano le Tabelle A.8 e A.9; per la colonna Tweets e Paisà si vedano le Tabelle A.12 e A.13.

modelli si ha un performance media che si colloca in posizione intermedia tra gli altri due valori appena visti (0.4761), differentemente rispetto a quanto visto con i modelli addestrati con Word2Vec, nel qual caso l’uso di entrambi i modelli dà la F-score media più alta.

Tutte e tre le performance medie sono più basse rispetto alla baseline (0.4787), anche se di molto poco (molto meno di 0.01); ciò costituisce un’ul- teriore differenza rispetto a quanto visto con Word2Vec, dove tutti e tre i valori superano le baseline, anche se di poco.

Figura 6.29: Confronto della F-score media ottenuta nel task Polarity Clas- sification usando solo gli embedding addestrati su Tweets, solo quelli addestrati su Paisà oppure entrambi i tipi di modelli, in tutti e tre i casi usando solo embedding addestrati con FastText. Ogni colonna riporta la media di 65 esperimenti, le cui configurazioni sono riportate in Appendice: per la colonna Tweets si vedano le Tabelle A.4 e A.5; per la colonna Paisà si vedano le Tabelle A.8 e A.9; per la colonna Tweets e Paisà si vedano le Tabelle A.12 e A.13.

6.2.3 Studio dei risultati ottenuti usando sia embed-

Nel documento Strategie di rappresentazione di documenti mediante Word Embedding nei task di Sentiment Analysis (pagine 108-114)