CAPITOLO 2: IL PROBLEMA DEGLI ARTEFATTI NEL SEGNALE
2.2 ANALISI DELLE COMPONENTI INDIPENDENTI (ICA)
2.2.4 ALGORITMI PER LA STIMA DELLE COMPONENT
INDIPENDENTI
Sulla base di quanto detto precedentemente, il problema ICA si esprime come la ricerca della matrice ๐ฬ ortogonale tale che la trasformazione
๐ฆ = ๐ฬ ๐ฅ ฬ (2.12)
abbia componenti ๐ฆ1, ๐ฆ2, โฆ , ๐ฆ๐ massimamente indipendenti. Una volta trovato ๐ฬ gli algoritmi restituiscono ๐ = ๐ฬ ๐.
Risolvere il problema appena espresso richiede la definizione di criteri quantitativi di indipendenza delle ๐ฆ๐. In particolare il problema di stimare il modello ICA puรฒ essere
scomposto in due punti chiave:
๐ฐ๐ช๐จ = ๐๐๐๐๐๐๐๐ ๐๐๐๐๐ + ๐๐๐๐๐๐๐๐๐ ๐ ๐ ๐๐๐๐๐๐๐๐๐๐๐๐๐๐
1) Identificazione di una determinata funzione costo ๐น(โ) (o funzione obiettivo) legata alla indipendenza statistica delle ๐ฆ๐.
2) Identificazione di un opportuno algoritmo per ottimizzare la funzione costo (per massimizzare o minimizzare, a seconda dei casi, la funzione costo).
Esistono diversi metodi per stimare le componenti indipendenti che si basano sullโutilizzo di diverse funzioni costo. Tra essi si possono citare:
52
๏ metodi basati su misure di non gaussianitร (la curtosi e la negentropia), detti
algoritmi FastICA;
๏ il principio Infomax (formalizzato in termini di rete neurale).
Di seguito si descrive brevemente il principio teorico alla base di questi due metodi, senza entrare nei dettagli degli algoritmi di ottimizzazione utilizzati.
I due principali algoritmi che permettono di eseguire il metodo ICA sono lโInfomax e la FastICA.
1) Lโalgoritmo Infomax, รจ una formalizzazione basata su una rete neurale; si basa sul fatto che massimizzando lโentropia (e quindi la quantitร di informazione) in uscita da una rete neurale caratterizzata da neuroni non lineari si puรฒ ottenere la determinazione del modello.
Lโentropia di una variabile aleatoria รจ una quantitร statistica interpretabile come una misura dellโinformazione acquisita a seguito di ogni osservazione. Qualitativamente si puรฒ affermare che lโentropia di una variabile รจ tanto maggiore quanto piรน essa รจ casuale o impredicibile.
Lโentropia (๐ฏ) di una variabile aleatoria discreta รจ formalizzata nel seguente modo:
๐ป(๐) = โ โ ๐(๐ = ๐๐) log ๐(๐ = ๐๐) (2.13) ๐
๐ รจ una variabile aleatoria discreta che puรฒ assumere unicamente i valori ๐๐. Nel caso di variabili aleatorie continue e multi-dimensionali si parla di entropia
differenziale definita come:
๐ป (๐ฆ) = โ โซ ๐๐ฆ(๐ฆ) log2๐๐ฆ(๐ฆ) ๐๐ฆ +โ
โโ
(2.14)
Lโentropia congiunta si ottiene generalizzando le definizione di entropia differenziale al caso multidimensionale e puรฒ essere interpretata come una misura dellโimpredicibilitร legata allโosservazione congiunta delle ๐ variabili.
53
La rete รจ costituita da ๐ neuroni in ingresso (cerchi piccoli azzurri) che rappresentano le variabili ๐ฅ๐ (centrate e sbiancate) e da ๐ neuroni in uscita (cerchi grandi grigi). Ogni neurone di uscita riceve come input una somma pesata degli ingressi, ovvero ๐ฆ๐ = ๐ค๐๐๐ e calcola attraverso una funzione di attivazione ๐๐(โ) non lineare, una variabile di uscita ๐ข๐. ๐ค๐ รจ il vettore corrispondente alla riga i-esima della matrice ๐. Le funzioni ๐๐(โ) sono funzioni scalari, monotone crescenti di valore compreso tra 0 e 1 con un andamento simile a una sigmoide.
La matrice dei pesi ๐ viene fatta variare in questa rete cosรฌ da massimizzare la funzione costo ๐ป(๐) che รจ lโentropia congiunta delle variabili di uscita. Si puรฒ dimostrare infatti che trovare la matrice ๐ che massimizza ๐ป(๐) equivale a trovare la matrice ๐ che minimizza la mutua informazione tra le variabili ๐ฆ๐; ovvero, visto che la mutua informazione tra variabili รจ nulla se e solo se le variabili sono statisticamente indipendenti, significa trovare la matrice ๐ che rende le ๐ฆ๐ massimamente indipendenti.
. . .
Funzione Costo
54
Pertanto la ICA basata sul principio Infomax puรฒ essere formalizzata come la ricerca della matrice ๐ che risolve il seguente problema:
{ max ๐ ๐น๐๐๐๐๐๐๐ฅ(๐) = max๐ ๐ป (๐1(๐ค1 ๐๐), ๐ 2(๐ค2๐๐), โฆ , ๐๐(๐ค๐๐๐)) ๐๐๐ = ๐ผ
Lโimposizione di matrice ๐ ortogonale corrisponde a imporre componenti indipendenti a varianza unitaria a partire dai dati sbiancati. [11]
2) Lโalgoritmo FastICA opera su dati sbiancati ed รจ di semplice implementazione per la ricerca delle componenti indipendenti. Alla base dellโalgoritmo FastICA vi รจ un algoritmo iterativo che cerca le proiezioni ๐ฆ๐ = ๐ค๐๐๐ฅ che massimizzano la non
gaussianitร delle componenti ๐ฆ๐, dove ๐ฅ รจ la matrice dei segnali osservati organizzati per riga (ogni riga รจ un segnale, ogni variabile รจ una osservazione) e ๐ค๐ รจ una riga della matrice di demixing ๐.
Una giustificazione alla massimizzazione della non-gaussianitร per la stima delle componenti indipendenti deriva dal teorema del limite centrale. Il teorema del limite centrale afferma che la combinazione lineare di k variabili aleatorie indipendenti converge ad una distribuzione gaussiana al crescere di k qualunque sia la funzione densitร di probabilitร delle singole variabili. In base a questo teorema, se le variabili indipendenti che si combinano sono non gaussiane (come ipotizziamo siano le sorgenti del modello ICA), allora la loro combinazione lineare รจ certamente piรน gaussiana delle singole variabili indipendenti. In particolare, anche la combinazione lineare di due sole variabili indipendenti non gaussiane รจ piรน gaussiana di ciascuna delle due variabili originali. Pertanto, massimizzare la non gaussianitร di ๐ฆ๐ significa separarla dalle altre componenti indipendenti (se fosse
ancora combinazione di piรน componenti indipendenti la sua non gaussianitร non sarebbe massima).
55
Esistono due versioni dellโalgoritmo FastICA, in base alla misura di non gaussianitร utilizzata: la curtosi (๐๐ข๐๐ก) e la negentropia ( ๐ฝ).
La curtosi di ๐ฆ รจ definita da ๐๐ข๐๐ก (๐ฆ) = ๐ธ {๐ฆ4} โ 3(๐ธ {๐ฆ2})2 che si semplifica in
๐ธ {๐ฆ4} โ 3, avendo supposto che la variabile aleatoria ๐ฆ รจ centrata (ossia a media
nulla) e a varianza unitaria. Poichรฉ, per una gaussiana, il momento di ordine 4 ๐ธ {๐ฆ4} รจ pari a 3(๐ธ {๐ฆ2})2, allora la curtosi di una variabile casuale gaussiana รจ uguale a zero. Per la maggior parte delle variabili non gaussiane, la curtosi รจ diversa da zero, e puรฒ essere sia positiva che negativa. Le variabili casuali che hanno una curtosi negativa sono chiamate subgaussiane, mentre quelle che hanno una curtosi positiva sono chiamate supergaussiane. Come funzione costo nel metodo ICA basato sulla curtosi, si utilizza la curtosi al quadrato.
Unโaltra variabile usata per misurare la non gaussianitร รจ la negentropia. La negentropia ๐ฝ (๐ฆ) di una variabile casuale ๐ฆ misura di quanto si discosta lโentropia della variabile da quella una variabile gaussiana di pari varianza (tra tutte le variabili di pari varianza, la variabile gaussiana ha entropia massima). La negentropia ๐ฝ (๐ฆ) di una variabile casuale ๐ฆ รจ sempre non negativa, ed รจ nulla se e solo se ๐ฆ รจ gaussiana; quindi quanto piรน una variabili casuale ๐ฆ ha negentropia diversa da 0 tanto piรน si allontana da una distribuzione gaussiana.
Gli algoritmi FastICA basati sulla negentropia utilizzano una approssimazione della negentropia definita mediante lโutilizzo di una funzione ๐บ non lineare e non quadratica nel seguente modo:
๐ฝ (๐ฆ) โ (๐ธ {๐บ (๐ฆ)} โ ๐ธ{๐บ(๐)})2 (2.15)
Il simbolo โ denota la proporzionalitร , ma a noi interessano le direzioni ๐ค๐ che
massimizzano la negentropia ๐ฝ(๐ค๐๐๐ฅ). In base al problema che si ha difronte si sceglie una funzione ๐บ(๐ฆ) diversa, le piรน usate comunemente sono:
๐บ1(๐ฆ) = 1
๐1log (cosh (๐1๐ฆ)) ๐บ2(๐ฆ) = โexp (โ 1 2๐ฆ
2) ๐บ
3(๐ฆ) = ๐ฆ4 (2.16)
56
Quindi, in base a quanto detto, i metodi FastICA ricercano la generica componente indipendente ๐ฆ๐ = ๐ค๐๐๐, utilizzando a seconda dei casi la seguente funzione costo:
๐น๐๐ข๐๐ก(๐ค๐) = (๐๐ข๐๐ก(๐ค๐๐๐)) 2
= (๐ธ {(๐ค๐๐๐)4} โ 3)2
๐น๐๐๐(๐ค๐) = ๐ฝ๐๐๐(๐ค๐๐๐) = [๐ธ{๐บ(๐ค๐๐๐)} โ ๐ธ{๐บ(๐)}] 2
Tale funzione deve essere massimizzata sotto i vincoli di ๐ค๐ a norma unitaria ed ortogonale alle direzioni ๐ค๐, ๐ = 1,2, โฆ , ๐ โ 1 di massima curtosi giร stimate (in questo modo si stima una matrice ๐ ortogonale). Pertanto, la ricerca della i-esima componente indipendente (๐ = 1, 2, โฆ ๐), puรฒ essere formalizzata come:
{ max ๐๐โโ๐ ๐น๐๐ข๐๐ก(๐๐) ๐๐๐๐ข๐๐ max ๐๐โโ๐ ๐น๐๐๐(๐๐) โ๐๐โ2 = 1 ๐๐๐๐๐ = 0, ๐ = 1, 2, โฆ , ๐ โ 1
Ovviamente, allโatto pratico i valori attesi vanno sostituiti da medie sui campioni e vanno applicati opportuni metodi di ottimizzazione alle funzioni costo. [11]
Nel presente lavoro รจ stato usato lโalgoritmo basato sul principio Infomax disponibile nel toolbox EEGLab di Matlab. Lโuso di Infomax rispetto ad altri algoritmi ICA รจ consigliato dagli autori del Toolbox.
57 LโICA Per la rimozione degli artefatti.
Le seguenti figure (Figura 2.8 a, b, c) illustrano lโuso della ICA per la rimozione degli artefatti.
riconoscimento
sorgenti da
artefatto
Es. s
5ICA sul segnale
stimiamo W e A
Sโ= S a meno della 5
ยฐriga
(la sorgente da artefatto)
che poniamo = 0
T (T = numero di osservazioni)Xโ=ASโ
ricostruzione
del segnale
libero
dallโartefatto
segnale EEG contaminato da artefatti
soluzione : ICA sul segnale, riconoscimento delle sorgenti di artefatto,
rimozione tramite cancellazione
EEG - Problema degli artefatti: ICA /1
A)
58
C)
Figura 2.8: A) schema a blocchi del modello ICA; B) decomposizione del segnale in componenti indipendenti; C) rimozione delle componenti degli
59
CAPITOLO 3: MATERIALI E METODI
Lโobbiettivo di questo lavoro รจ valutare gli effetti prodotti da uno stimolo di stress (attraverso lo svolgimento ripetitivo di conti matematici per un certo lasso di tempo finito), sullโattivitร cerebrale, attraverso EEG, e valutare il comportamento della bilancia simpato-vagale, attraverso lo studio spettrale del segnale di variabilitร della frequenza cardiaca.