• Non ci sono risultati.

Ai fini di incrementare l’accuratezza della classificazione ottenuta, si è pensato di combinare le quattro singole tecniche di classificazione supervisionate utilizzate costruendo un multiclassificatore. Sono stati dunque costruiti 100 datasets di Training e di Testing in modo analogo alla fase precedente ed è stato realizzato un multi-classificatore che funziona nel modo seguente:

i. le features estratte da ogni trial vengono classificate utilizzando i quattro metodi di classificazione: KNN, SVM, un albero decisionale e una ANN;

ii. i singoli algoritmi vengono implementati in modo analogo a quanto fatto nella fase precedente dell’analisi;

iii. i risultati dei singoli metodi vengono memorizzati e successivamente si procede alla scelta della classe di appartenenza del trial;

iv. l’assegnazione alla classe viene fatta sulla base del seguente criterio: viene scelta la classe più “votata” dai quattro classificatori, in caso di parità viene

65

assegnata la classe “votata” dal sistema che ha ottenuto i risultati migliori come singolo classificatore, in questo caso l’albero decisionale.

L’utilizzo di questo sistema di multi-classificazione ha portato dei benefici in termini di accuratezza della classificazione ottenuta, confermando l’ipotesi iniziale su cui era stato costruito, ovvero che la combinazione di più metodi di classificazione potesse portare ad un’esaltazione dei vantaggi e ad una riduzione degli aspetti negativi delle singole tecniche di classificazione. L’intera procedura seguita in questa analisi è rappresentata in Figura 24.

66

Figura 24 Diagramma descrittivo della procedura seguita per l'analisi dei single trial ERPs. ACQUISIZIONE SEGNALI EEG

ESTRAZIONE 310 FEATURES

SELEZIONE DELLE FEATURES

ANALISI DEI RISULTATI DELLA SELEZIONE DELLE FEATURES

ESTRAZIONE DI 9 FEATURES

CRITERIO DI ASSEGNAZIONE CLASSE

ESTRAZIONE SINGLE-TRIAL ERPs

SBS SFS CLASSIFICAZIONE KNN SVM ALBERO DECISIO NALE RETE NEURALE ANALISI DEI RISULTATI ANALISI DEI RISULTATI ANALISI DEI RISULTATI MULTI-CLASSIFICATORE KNN SVM ALBERO DECISIONALE RETE NEURALE TRIALS CLASSIFICATI CLASSIFICAZIONE TRIALS ANALISI DEI RISULTATI

67

Risultati

I potenziali evento-correlati acquisiti su 20 soggetti sono stati pre-elaborati come descritto nel Capitolo 2 ai fini di eliminare rumore e artefatti. Alla fine della fase di pre-elaborazione sono stati estratti per ogni soggetto i trials relativi alla risposta emotiva.

I trials estratti sono in totale 3351, di cui 1114 relativi a stimoli con valenza negativa e 2237 relativi a stimoli con valenza neutra.

Il numero medio di trials per soggetto è di 167,5 (92-201); la media di trials relativi a stimoli con valenza negativa è di 55,7 (30-67) e la media di trials relativi a stimoli neutri è di 111,8 (62-134) (Tabella 2)

Numero medio dei trials Totali Valenza negativa Valenza neutra

Trials totali 3351 1114 2237

Trials medi per soggetto 167,5 (92-201) 55,7 (30-67) 111,8 (62-134)

Tabella 2 Tabella riassuntiva del numero medio di trials su cui è stata effettuata l'analisi. Tra le parentesi

sono indicati il valore minimo e massimo.

Per ognuno dei trials sono state estratte 310 features.

La fase di selezione delle features ha riportato una percentuale di successo della classificazione massima del 68 %, ottenuta con l’applicazione dell’algoritmo SFS. Nella Tabella 3 sono

68

riportati i valori dell’accuratezza massima di classificazione ottenuti con le 5 applicazioni dei due algoritmi di ricerca sequenziale.

SFS SBS 1 65,04% 63,27% 2 67,48% 62,23% 3 68,51% 61,38% 4 68,32% 63,11% 5 65,51% 64,56%

Tabella 3 Massima percentuale di accuratezza della classificazione ottenuta in percentuale.

Le features selezionate per la classificazione sono le seguenti:

1. PSI medio globale in banda alfa; 2. PSI medio globale in banda delta; 3. PSI medio globale in banda theta;

4. PSI medio nella regione frontale in banda alfa; 5. PSI medio nella regione frontale in banda theta;

6. ( ) ( ) globale globale DSP DSP   7. _ _ ( ) ( ) regione temporale regione temporale DSP DSP   8. DSP( 2) regione centrale_

9. Ampiezza del picco dell’ERPs nella regione temporale nell’intervallo 0-100 millisecondi in banda alfa.

69

A ciascuna delle features è stata applicato un test ANOVA a due fattori: il fattore soggetto e il fattore valenza dello stimolo. In tabella sono rappresentati i risultati del test ANOVA in termini di p-value.

Nome feature p-value

fattore valenza p-value fattore soggetto Feat 1 0.2012 0* Feat 2 0.1345 0* Feat 3 0.0344* 0* Feat 4 0.2038 0* Feat 5 0.4327 0* Feat 6 0.7338 0* Feat 7 0.2000 0* Feat 8 0.1377 0* Feat 9 0.0176* 0* *statisticamente significativo

Nome Tipo di feature

Feat 1 PSI medio globale in banda alfa

Feat 2 PSI medio globale in banda delta

Feat 3 PSI medio globale in banda theta

Feat 4 PSI medio nella regione frontale in

banda alfa

Feat 5 PSI medio nella regione frontale in

banda theta

Feat 6 Rapporto tra DSP media globale in

banda delta e DSP media globale in banda theta

Feat 7 Rapporto tra DSP media nella regione

temporale in banda delta e la DSP media nella regione temporale in banda theta

Feat 8 DSP media nella regione centrale in

banda beta2

Feat 9 Ampiezza del picco nell’intervallo 0- 100 msec in banda alfa nella regione temporale

70 Tabella 4 Tabella riassuntiva dei risultati dell'ANOVA a due vie.

Dopo l’ANOVA è stata effettuata un’analisi post-hoc per stabilire la relazione tra la valenza degli stimoli e i valori delle feature. In Figura 25 vengono mostrati i grafici relativi ai risultati.

71 Per la fase di classificazione sono stati utilizzati:

 100 datasets di Training contenenti in media 2845,7 trials (2704-2987); la media dei

trials relativi agli stimoli con valenza negativa è di 945,8 (919-994) e la media dei

trials relativi agli stimoli con valenza neutra è di 1899,9 (1844-1993);

 100 datasets di Testing contenenti in media 496,6 trials (364-580); la media dei

trials relativi agli stimoli con valenza negativa è di 165 (120-192) e la media dei

trials relativi agli stimoli con valenza neutra è di 331,6 (244-388) (Tabella 5).

Figura 25 Rappresentazione dei risultati dell’analisi post-hoc sulle 9 features selezionate. Le due barre

rappresentano gli intervalli dei valori numerici delle features per le due categorie di stimoli: val=0 stimoli neutri, val=1 stimoli a valenza negativa.

72

Numero medio dei trials Totali Valenza negativa Valenza neutra

Training 2845,7 (2704-2987) 945,8 (919-994) 1899,9 (1844-1993)

Testing 496,6 (364-580) 165 (120-192) 331,6 (244-388)

Tabella 5 Tabella riassuntiva del numero medio di trials su cui è stata effettuata la classificazione. Tra le parentesi sono indicati il valore minimo e massimo.

L’applicazione delle singole tecniche di classificazione utilizzando i 100 datasets di Training e di Testing ha dato i seguenti risultati:

1. Classificazione con KNN: la percentuale media di accuratezza della classificazione è del 57,25 % (46,04%-71,53%); la percentuale di accuratezza di classificazione dei trials relativi agli stimoli con valenza negativa è del 36,05 % (18,90%-59,52%) e la percentuale di accuratezza di classificazione dei trials relativi agli stimoli con valenza neutra è del 67,80 % (53,28 %-82,35%);

2. Classificazione con SVM: la percentuale media di accuratezza della classificazione è del 67,73 % (65,83%-74,79%); la percentuale di accuratezza di classificazione dei trials relativi agli stimoli con valenza negativa è del 3,20 % (0%-25,00%) e la percentuale di accuratezza di classificazione dei trials relativi agli stimoli con valenza neutra è del 99,84 % (97,89%-100%);

3. Classificazione con l’albero decisionale: la percentuale media di accuratezza della classificazione è del 87,50 % (70,99%-96,32%); la percentuale di accuratezza di classificazione dei trials relativi agli stimoli con valenza negativa è del 80,53% (49,47%-93,29%) e la percentuale di accuratezza di classificazione dei trials relativi agli stimoli con valenza neutra è del 90,96% (77,89%-98,18%).

4. Classificazione con ANN: la percentuale media di accuratezza della classificazione è del 66,53 % (62,03%-67,19%); la percentuale di accuratezza di classificazione dei trials

73

relativi agli stimoli con valenza negativa è del 1,05 % (0%-16,07%) e la percentuale di accuratezza di classificazione dei trials relativi agli stimoli con valenza neutra è del 84,93 % (53,28%-82,35%);

L’utilizzo del multi-classificatore ha dato i seguenti risultati: la percentuale media di accuratezza della classificazione è del 91,49 % (73,35%-98,03%); la percentuale di accuratezza di classificazione dei trials relativi agli stimoli con valenza negativa è del 77,85% (34,04%- 93,26%) e la percentuale di accuratezza di classificazione dei trials relativi agli stimoli con valenza neutra è del 98,29% (88,95%-100%).

Sistema di classificazione Totale Valenza negativa Valenza neutra

KNN 57,25 % (46,04%-71,53%) 36,05 % (18,90%-59,52%) 67,80 % (53,28 %-82,35%) SVM 67,73 % (65,83%-74,79%) 3,20 % (0%-25,00%) 99,84 % (97,89%-100%) Albero decisionale 87,50 % (70,99%-96,32%) 80,53% (49,47%-93,29%) 90,96% (77,89%-98,18%) Rete neurale artificiale 66,53 %

(62,03%-67,19%) 1,05 % (0%-16,07%) 84,93 % (53,28%-82,35%) Multiclassificatore 91,49 % (73,35%-98,03%) 77,85% (34,04%-93,26%) 98,29% (88,95%-100%).

Tabella 6 Tabella riassuntiva dei risultati ottenuti con i diversi sistemi di classificazione. Tra le parentesi sono indicati il valore minimo e massimo.

74

Discussione

I risultati ottenuti utilizzando la procedura sviluppata e descritta nel Capitolo 3 vengono discussi in questo paragrafo, suddiviso in base a quelli che sono considerati i tre aspetti determinanti e caratterizzanti il processo di classificazione della risposta emotiva: le features selezionate, i risultati ottenuti mediante l’utilizzo delle tecniche di classificazione singole e i benefici derivanti invece dall’adozione del sistema di multi-classificazione.

Features selezionate

La prima considerazione da fare riguarda la questione che ci si era posti all’inizio dell’analisi, ovvero quella di stabilire quali siano, fra le innumerevoli caratteristiche che è possibile estrarre dai single-trial ERPs, quelle effettivamente importanti per la classificazione. L’applicazione degli algoritmi di ricerca sequenziale ha portato alla selezione di 9 features tra le 310 estratte da ciascun trial. Le 9 features selezionate e poi utilizzate per la classificazione costituiscono solo il 2,9% della totalità delle features estratte. Le performances della classificazione ottenute utilizzando un numero così ristretto di features porta alla conclusione che non è la numerosità delle informazioni estratte ma la loro rilevanza e la significatività a fare la differenza nella caratterizzazione degli stati emotivi. La necessità di estrarre poche features dal segnale ERPs si traduce naturalmente in una riduzione del costo computazionale dell’intera procedura per la classificazione; poter utilizzare un numero così esiguo di features apre dunque alla concreta possibilità di poter realizzare in futuro una classificazione degli stati emozionali dell’uomo real-

75

Un’ulteriore considerazione da fare riguarda la scelta dell’algoritmo di feature selection utilizzato. Confrontando i risultati dell’applicazione delle due tecniche utilizzate, l’algoritmo SFS mostra le performances migliori. Questo risultato appare in linea con quelli riscontrati da Hatamikiaet al. che in uno studio del 2014 hanno comparato due metodi di classificazione basati sull’utilizzo di due tecniche di feature selection, una basata sull’indice di Davies-Bouldin e l’altra costituita proprio dall’SFS, mostrando che l’applicazione di questa ultima fornisce i risultati migliori per l’emotion recognition (Hatamikia et al; 2014).

Ulteriore riflessione deve essere condotta sulle features escluse dall’analisi. La fase di feature

selection ha portato all’esclusione dall’analisi di un’intera categoria di features, gli indici di

entropia. Questo è un risultato interessante, in quanto diversi studi sull’emotion recognition basata sull’analisi dei segnali EEG mostrano la significatività e l’adeguatezza dell’entropia nell’abilità di classificare gli stati emozionali: Murugappan et al. hanno evidenziato la capacità dell’entropia di discernere tra 5 emozioni differenti (rabbia, disgusto, felicità, paura ed emozione neutrale), anche comparata con altre features (deviazione standard, varianza, potenza) (Murugappan et al; 2009); anche gli studi di Ruo-Nan-Dan et al. e di Zheng et al. hanno mostrato l’efficacia dell’utilizzo dell’entropia differenziale sottolineando un incremento dell’accuratezza nella classificazione in caso di utilizzo dell’indice di entropia stimato in banda beta e gamma (Ruo-Nan-Dan et al; 2013; Zheng et al; 2014). Gli studi citati fanno però riferimento all’analisi di gruppi di trials e non all’analisi single-trial. Questo potrebbe significare che gli indici di entropia potrebbero perdere di rilevanza se stimati sul singolo trial, oppure che la loro importanza nella caratterizzazione degli stati emotivi sulla base dell’analisi dei single-trial sia minore rispetto a quella di features appartenenti ad altre categorie. Ulteriori studi sono necessari per l’approfondimento e il chiarimento di questo aspetto.

La fase di selezione delle caratteristiche ha invece evidenziato l’importanza di altre categorie di features quali gli indici di connettività cerebrale, e le grandezze estratte nel dominio del tempo e della frequenza.

76

Gli indici di connettività cerebrale selezionati sono tre indici stimati su tutto lo scalpo, il PSI medio globale stimato in tre bande frequenziali differenti: delta, alfa e theta, e due indici stimati nella regione frontale in due bande frequenziali diverse, il PSI medio nella regione frontale stimato in banda delta e theta.

La presenza dei tre indici stimati a livello globale rafforza e supporta l’idea che il manifestarsi e di uno stato emotivo è un processo complesso che coinvolge l’attività di numerose aree cerebrali (Mauss et al; 2009) e che dunque la caratterizzazione della risposta emotiva mediante l’analisi del segnale EEG ad essa correlato non può prescindere dall’osservazione di caratteristiche che quantificano la connettività tra regioni diverse.

La presenza delle misure stimate nella regione frontale conferma il coinvolgimento di questa area nel processamento di numerose emozioni, in accordo con le evidenze neurobiologiche (Murugappan et al; 2010).

La presenza della banda delta non trova riscontro in letteratura, ma i risultati ottenuti suggeriscono che l’attività in questo range frequenziale potrebbe essere coinvolta nella manifestazione degli stati emozionali, almeno in termini di connettività funzionale. Sono necessari ulteriori studi per investigare su questo aspetto.

La misura della connettività funzionale stimata in banda theta e a livello globale risulta quella maggiormente significativa nella caratterizzazione degli stati emozionali. Difatti l’analisi post- hoc mostra che il PSI medio globale in banda theta è statisticamente significativo (p-

value=0.0344) e questo rafforza la sua rilevanza nella classificazione degli stati emotivi.

Nello specifico in banda theta la valenza negativa degli stimoli è associata ad una maggiore sincronizzazione a livello globale rispetto alla valenza neutra. Questo risultato è in linea con quanto riscontrato da Lee et al. che hanno trovato che gli stati emozionali a valenza negativa sono associati ad una maggiore sincronizzazione rispetto agli stati a valenza neutra (Lee et al; 2014).

77

Le features selezionate nel dominio della frequenza sono la densità spettrale di potenza in banda beta2 nella regione centrale, e il rapporto tra la densità spettrale di potenza in banda delta e la densità spettrale di potenza in banda theta, sia a livello globale che nella regione temporale.

La DSP è la feature più popolare nel contesto della classificazione delle emozioni; numerosi studi hanno mostrato che in effetti la DSP estratta dai segnali risulta efficace nel distinguere gli stati affettivi (Jung et al; 1997; Murugappan et al; 2009; Koelstra et al; 2010; Jyrayucharoensak et al; 2014; Kroupi et al; 2011), per cui la sua presenza tra le features selezionate è un’ulteriore conferma della sua importanza nella classificazione degli stati emozionali.

In particolare, la potenza associata all’attività in banda beta2 conferma che le features estratte nelle bande a elevata frequenza contengono informazioni più significative per il riconoscimento delle emozioni (Zheng et al; 2014).

La presenza del rapporto tra la densità spettrale di potenza in banda delta e la densità spettrale di potenza in banda theta apre invece alla riflessione sul ruolo della banda delta nella caratterizzazione degli stati emotivi, finora poco studiato. La sua presenza sia nelle features selezionate nel dominio della frequenza, sia negli indici di connettività potrebbe indirizzare verso studi più approfonditi circa la rilevanza dell’attività cerebrale in questa banda nel manifestarsi delle emozioni.

Non stupisce invece la presenza della regione temporale a causa del ruolo ricoperto dall’amigdala, che risulta particolarmente coinvolta nella manifestazione delle emozioni negative (Mauss et al; 2009).

La feature selezionata nel dominio del tempo è l’ampiezza del picco nella regione temporale in banda alfa nei primi 100 millisecondi che seguono la presentazione dello stimolo. Nello specifico, l’ampiezza del picco risulta maggiore nel caso di stimoli a valenza neutra. La selezione della regione temporale è in linea con le conoscenze neuroscientifiche che

78

evidenziano il ruolo dell’amigdala come struttura particolarmente coinvolta nei processi affettivi (Dagleish et al; 2004).

L’intervallo temporale selezionato è in accordo con le conclusioni di Oloffson et al; che, in una

review degli studi condotto per oltre 40 anni sull’analisi dei potenziali evento-correlati come

misura dei processi affettivi, afferma che la valenza degli stimoli modula l’ampiezza degli ERPs negli istanti immediatamente successivi alla presentazione di uno stimolo; la risposta emotiva immediata è infatti associata al bisogno di identificare un evento in termini di valenza, per elaborare una risposta adeguata in caso di eventi terrificanti o spiacevoli (Oloffson et al; 2007).

L’analisi post-hoc mostra inoltre che la valenza degli stimoli influenza in maniera statisticamente significativa (p-value=0.0176) i valori di questa feature.

In generale tutte le features selezionate sono state sottoposte ad una valutazione statistica che ha evidenziato in primo luogo l’influenza della variabile ‘soggetto’ sui valori assunti dalle features. Il fattore soggetto risulta statisticamente significativo per tutte e 9 le features valutate. La variabilità interindividuale rappresenta quindi uno dei maggiori ostacoli da superare nell’ambito dello sviluppo di metodi per la caratterizzazione delle emozioni.

Il fattore ‘valenza’ risulta invece significativo, come già accennato, solo per due features se valutate a livello individuale: il PSI medio globale in banda theta e l’ampiezza del picco nei primi 100 millisecondi in banda alfa nella regione temporale.

Le altre 7 features non risultano statisticamente significative. Questo porta a concludere che alcune features sono importanti nella classificazione solo se utilizzate insieme ad altre, mentre da sole perdono di rilevanza. La selezione di una combinazione di features adeguata allo scopo è dunque il primo obiettivo da perseguire se si vuole ottenere un buon successo nella classificazione.

79

Utilizzo delle tecniche di classificazione singole

Osservando i risultati dell’utilizzo delle singole tecniche di classificazione appare in primo luogo evidente la difficoltà per tutti i metodi utilizzati di riconoscere i trials associati agli stimoli con valenza negativa. Le performances peggiori in questo senso sono state mostrate dall’applicazione dell’algoritmo SVM e dalla rete neurale artificiale, che mostrano comunque una buona capacità di classificazione con un’accuratezza media rispettivamente del 67,73 % e del 66,53%.

L’applicazione dell’algoritmo KNN ha mostrato risultati leggermente peggiori in termini di percentuale di successo della classificazione media che risulta pari al 57,25 %, ma un maggior equilibrio nella capacità di riconoscere i trials appartenenti alle due categorie.

I tre algoritmi di Machine-learning commentati finora, il KNN, L’SVM e le ANN (Reti Neurali Artificiali) sono quelli più comunemente utilizzati come classificatori di emozioni. Tra i tre il metodo di classificazione più usato si basa sull’utilizzo dell’SVM come classificatore di features estratte nel dominio della frequenza, tipicamente la DSP (Al-Nafjan et al; 2017). Gli studi condotti utilizzando queste tre tecniche sono numerosi e mostrano risultati nella classificazione variabili, ma generalmente sono considerati uno strumento affidabile nella classificazione della risposta emotiva basata sull’analisi dei trials. I risultati ottenuti in questo lavoro di Tesi suggeriscono che non costituiscono metodi efficienti per la classificazione emotiva basata sull’analisi dei single-trial.

Un’ulteriore riflessione deve essere condotta riguardo ai datasets che vengono utilizzati per condurre l’analisi. Spesso i datasets utilizzati per l’addestramento (Training) e per il test dei sistemi di classificazione proposti vengono mischiati e contengono alcuni dati uguali; questo fattore influenza moltissimo i risultati dell’analisi portando ad un incremento del successo della classificazione. In questo lavoro di Tesi invece è stata effettuata una netta separazione tra i due

80

tipi di datasets (Training e Testing) proprio per verificare la reale efficacia e l’effettiva abilità di classificazione delle tecniche proposte.

Tra le 4 tecniche di classificazione supervisionata usate quella che ha mostrato le migliori

performances è l’albero decisionale che ha ottenuto una percentuale media di successo di

classificazione del 87,50 %, mostrando una buona capacità di distinguere le due categorie di stimoli.

L’albero decisionale, una tecnica finora poco utilizzata nell’ambito dell’emotion recognition si è dimostrata adeguata per la classificazione della risposta emotiva mediante analisi dei single-

trial ERPs. Questo è un risultato positivo soprattutto considerando le caratteristiche di

semplicità e velocità di esecuzione di questa tecnica.

I benefici del multi-classificatore

Alla base della costruzione del multi-classificatore vi è l’ipotesi che, nonostante individualmente le tecniche di classificazione non mostrano risultati eccellenti, la combinazione di più sistemi può comunque portare ad un aumento dell’accuratezza della classificazione della risposta emotiva. I risultati ottenuti mostrano che il contributo di ciascun classificatore, seppur minimo, si traduce in un effettivo incremento del successo nella classificazione.

Applicando il multi-classificatore l’accuratezza di classificazione media totale ottenuta è del 91,49% con un picco massimo del 98,03%. Anche in termini di successo nella classificazione dei trials a valenza negativa e neutra i risultati sono soddisfacenti: per la valenza negativa l’accuratezza media è del 77,85 % con un picco massimo del 93,26 % e per la valenza neutra l’accuratezza media risulta del 98,29 % con un picco massimo del 100 %.

81

L’aspetto interessante dei risultati raggiunti che rendono il sistema proposto un punto di partenza promettente per lo sviluppo di tecniche di classificazione basate su questo approccio risiede nel fatto che i datasets utilizzati per l’addestramento dei classificatori usati e poi per il

Documenti correlati