Configurazione degli esperimenti sui word embedding

5.3 Metodologia sperimentale

5.3.4 Configurazione degli esperimenti sui word embedding

Gli esperimenti sono stati eseguiti sperimentando tutti i possibili abbinamenti di modelli distribuzionali, di selezioni di categorie grammaticali e di metodi di combinazione dei word embedding. L’obiettivo era capire quali feature sono più utili per ottenere un modello che generalizzi i dati nel modo

migliore possibile.

Per indicare al sistema quali feature usare, abbiamo utilizzato dei documenti di configurazionein formato .csv; ogni riga di tali documenti è relativa a un singolo esperimento e riporta i parametri con cui configurare l’estrazione delle feature e la classificazione. Nella Tabella A.1 in Appendice mostriamo le configurazioni degli esperimenti in cui non usiamo i word embedding come feature. La struttura dei csv di configurazione degli esperimenti in cui usiamo i word embedding come feature è illustrata nelle Tabelle da A.2 a A.19; 65 configurazioni di feature vengono ripetute per ogni combinazione di modelli distribuzionali, per cui la struttura dei csv è sempre la stessa, salvo che per i campi tweets-w2v, paisa-w2v, tweets-ft e paisa-ft, che indicano quale o quali dei quattro modelli debbano essere usati.

Come già affermato in precedenza, gli esperimenti senza embedding pre- vedono l’uso di feature di parola, delle emoticon e lessicali (bag-of-words). Dato che queste tipologie di feature non sono l’argomento di interesse di questa lavoro, non abbiamo ritenuto necessario approfondire sugli effetti che ognuna di esse ha sulla performance del classificatore se presa singolarmente; piuttosto, ci siamo limitati a considerarne i risultati come limite inferiore in base al quale valutare le performance ottenute dal classificatore quando gli si forniscono feature di tipo distribuzionale. Le feature di parola e delle emoticon sono state testate insieme; poi è stata testata la bag-of-words da sola; infine abbiamo testato tutte le feature insieme.

Come già accennato in 5.2.3.1, gli esperimenti con embedding sono stati condotti sia usando solo modello per volta, sia usando più modelli insieme. Abbiamo sperimentato i seguenti abbinamenti di modelli:

• tweets_w2v; • tweets_ft; • paisa_w2v; • paisa_ft;

• tweets_w2v, tweets_ft; • paisa_w2v, paisa_ft; • tweets_w2v, paisa_w2v; • tweets_ft, paisa_ft;

• tweets_w2v, tweets_ft, paisa_w2v, paisa_ft.

Ognuna di tali nove combinazioni di modelli è stata usata una serie di 65 esperimenti (per un totale di 594) per valutare l’impatto nei task di classificazione dell’uso di feature ricavate dagli embedding. I parametri di tali esperimenti sono illustrati nelle Tabelle da A.2 a A.19 in Appendice. Più precisamente, in tali esperimenti usiamo singolarmente tutti i metodi di combinazione dei vettori delle parole del tweet, e li usiamo poi anche tutti insieme in contemporanea, secondo una delle seguenti alternative:

• somma; • media; • prodotto; • minimo; • massimo;

• somma, media, prodotto, minimo, massimo.

A ognuna di queste alternative abbiamo dato in input i vettori di parole appartenenti a differenti selezioni di categorie grammaticali. Per ognuna delle categorie selezionate si hanno tanti vettori quanti sono i metodi di combinazione selezionati. Le selezioni di categorie grammaticali che abbiamo usato sono le seguenti:

• verbi; • aggettivi; • avverbi;

• nomi, verbi, aggettivi, avverbi; • tutte le parole;

• tutte le parole, nomi; • tutte le parole, verbi; • tutte le parole, aggettivi; • tutte le parole, avverbi;

• tutte le parole, nomi, verbi, aggettivi, avverbi.

5.3.5 Interrogativi da risolvere nella fase sperimentale

La fase sperimentale descritta nei Capitoli 6, 7 e 8 ha avuto lo scopo di verificare quale apporto possano dare gli embedding costruiti con Word2Vec e FastText nell’ambito della Sentiment Analysis; a tale scopo, sono stati pre- si in considerazione i tre sotto-task in cui si articola il task SENTIPOLC proposto nell’ambito della campagna di valutazione Evalita, nell’edizione del 2016. Tale scelta è stata motivata dal fatto che Evalita rispecchia bene quello che è lo stato dell’arte nel natural language processing della lingua italiana, sia per quanto riguarda le tematiche affrontate sia per le soluzioni proposte dai partecipanti alla competizione.

Abbiamo voluto rispondere a una serie di quesiti sui risultati che si poteva- no ottenere usando i diversi modelli distribuzionali addestrati. Le domande poste sono le seguenti:

1. quale effetto ha la dimensione del corpus a partire dal quale si pro- ducono i word embedding sull’accuratezza del sistema di sentiment analysis?

2. quale impatto ha l’utilizzo di embedding creati a partire da un corpus dello stesso genere di quello analizzato dal sistema di sentiment analysis rispetto all’uso di embedding estratti da testi generici?

3. quale approccio per la creazione di embedding (di parole o di sequenze di caratteri) è più efficace nella sentiment analysis?

4. qual’è la migliore strategia di combinazione dei word embedding per rappresentare il testo all’interno di sistemi di sentiment analysis? 5. quale impatto ha l’uso di embedding delle diverse categorie grammati-

cali sull’accuratezza del sistema di sentiment analysis?

Nel Capitolo 6 cercheremo di rispondere alle domande n. 1 e n. 2 sulle dimensioni e sul genere testuale del corpus a partire dal quale si creano gli embedding.

Nel Capitolo 7 cercheremo di rispondere alla domanda n. 3 su quale sia l’approccio migliore per la creazione degli embedding.

Nel Capitolo 8 cercheremo di rispondere alle domande n. 4 e n. 5 su quale sia la strategia migliore per combinare gli embedding e su quale sia la categoria grammaticale che fornisce gli embedding più utili per il classificatore.

Nel Capitolo 9 discuteremo in maniera generale i risultati descritti nei tre capitoli precedenti.

Capitolo 6

Studi sperimentali sulle

caratteristiche del training-set di

addestramento dei modelli

distribuzionali

In questo capitolo forniamo dei dati sperimentali al fine di rispondere alle domande n. 1 e n. 2proposte nel Capitolo 5. Pertanto, dapprima discuteremo i risultati degli esperimenti sull’impatto delle dimensioni del corpus di addestramento sulla qualità degli embedding; poi discuteremo i risultati degli esperimenti sull’effetto del dominio del corpus di addestramento sulla qualità degli embedding.

6.1 Studio dell’impatto delle dimensioni del cor-

pus

Tweets sulla qualità degli embedding

In questa sezione analizziamo l’effetto che si ha sulla performance del classificatore ottenendo le feature da modelli distribuzionali addestrati su porzioni

del corpus Tweets contenenti un numero di token progressivamente crescen- te. Per addestrare i modelli distribuzionali sono stati usati sia Word2Vec sia FastText.

Per valutare l’effetto delle dimensioni del corpus di addestramento sulla bontà del modello distribuzionale ottenuto, abbiamo condotto i 65 esperimenti illustrati nelle Tabelle da A.2 a A.5 in Appendice, usando ognuno dei modelli addestrati usando come input le 14 partizioni di Tweets descritte nel Capitolo 5; abbiamo quindi testato in totale 28 modelli: ogni partizione è stata usata come input sia per Word2Vec sia per FastText. Infine, abbiamo testato i due modelli ottenuti usando come input l’intero corpus, usando sia Word2Vec sia FastText per addestrare gli embedding. Tutte le 65 configurazioni di feature sono state applicate a tutti i corpora (ridotti e non). Per valutare le performance del classificatore si tengono in considerazione alcuni parametri, calcolati sulla F-score ottenuta nei 65 esperimenti condotti nei tre task Subjectivity Classification, Polarity Classification e Irony Detection:

• valore medio della F-score; • valore massimo della F-score; • valore minimo della F-score; • deviazione standard della F-score. Inoltre, abbiamo voluto verificare:

• la correlazione che esiste tra tali misure statistiche e la dimensione del corpus usato per costruire il modello;

• la correlazione tra i risultati ottenuti nei tre task per ognuna delle quattro misure dette sopra;

• la correlazione tra i risultati ottenuti con Word2Vec e quelli ottenuti con FastText.

A tale scopo abbiamo usato il coefficiente di correlazione di Pearson, un indice che esprime in che misura c’è una relazione di linearità tra due variabili statistiche. Più precisamente, date due variabili statistiche X e Y , l’indice di correlazione ρXY è dato dal rapporto tra la covarianza tra le due

variabili e il prodotto tra le deviazioni standard delle due variabili: ρXY =

σXY

σXσY

dove σXY è la covarianza tra le due variabili, mentre σX e σY sono le devia-

zioni standard delle due variabili. Il valore dell’indice di correlazione è sempre compreso tra -1 e 1. In particolare, se ρXY = 0 le due variabili

sono dette incorrelate; se ρXY > 0 esse sono dette direttamente o positiva-

mente correlate; se ρXY < 0 esse sono dette inversamente o negativamente

correlate. Quando l’indice di Pearson è uguale a 1, si dice che si ha correlazione positiva perfetta; quando l’indice di è uguale a -1, si dice che si ha correlazione negativa perfetta (Ross, 2014).

In questo lavoro, per quanto riguarda la correlazione positiva, definiamo come riferimento i seguenti range di valori:

• se 0 < ρXY < 0.2 la correlazione è molto debole;

• se 0.2 ≤ ρXY < 0.4 la correlazione è debole;

• se 0.4 ≤ ρXY < 0.6 la correlazione è moderata;

• se 0.6 ≤ ρXY < 0.8 la correlazione è forte;

• se 0.8 ≤ ρXY ≤ 1la correlazione è molto forte.

Per la correlazione negativa può essere fatto un discorso analogo.

La descrizione dei risultati relativi a questo punto di studio è suddivisa in tre sezioni, ognuna delle quali è dedicata a uno dei tre task proposti in SEN- TIPOLC. Per ogni task verranno discussi separatamente – e poi confrontati – i risultati ottenuti usando i due tipi di embedding (creati con Word2Vec

o con FastText). Infine, si farà un confronto tra i risultati ottenuti nei tre task.

6.1.1 Analisi delle performance ottenute nel task Sub-

Nel documento Strategie di rappresentazione di documenti mediante Word Embedding nei task di Sentiment Analysis (pagine 66-75)