Common Spatial Patterns: CSP - ALGORITMI PER L’IDENTIFICAZIONE DEI FENOMENI ERD/ERS IN APPLICAZ

2. ALGORITMI PER L’IDENTIFICAZIONE DEI FENOMENI ERD/ERS IN APPLICAZIONI BC

2.1 Common Spatial Patterns: CSP

Con il termine “Common Spatial Patterns” si intende un metodo per costruire filtri spaziali che portino a nuove serie temporali con la proprietà di avere varianza massima per una condizione e nello stesso tempo minima per l’altra.

Questo metodo è stato introdotto da Koles et al. nel 1990 [35] con lo scopo diagnostico di distinguere automaticamente una popolazione di individui sani da una di individui malati. In seguito questo algoritmo è stato utilizzato per estrarre componenti anormali nel tracciato EEG [36] e per la localizzione delle sorgenti (Koles et al. 1995).

Dal 1999 grazie al lavoro di Muller, Pfurtscheller e Flyvbjergc [48] è stato utilizzato con successo nella discriminazione di due diversi stati mentali.

È un approccio di tipo esplorativo (o data-driven cioè che non richiede la conoscenza a priori del modello probabilistico) basato sulla diagonalizzazione simultanea delle matrici di covarianza relative alle due classi da discriminare.

Il fine di tale metodo è la costruzione di una matrice di proiezione che proietti i segnali dallo spazio originale dei sensori ad uno spazio surrogato dei sensori con la proprietà che il primo e l’ultimo canale abbiano rispettivamente varianza minima (o massima) per una condizione e varianza massima (o minima) per l’altra.

Per la costruzione della matrice di proiezione è necessario disporre di un dataset di training dove i trials siano classificati (etichettati) per le due condizioni da discriminare.

Prendiamo Xdi ȯ ℜNxT i dati grezzi del trial i nella condizione d ȯ {a,b} ( che in un esperimento

di motor imagery possono essere il movimento della mano destra e il movimento della mano sinistra) come una matrice NxT con N i canali dell’EEG e T gli istanti temporali relativi ad un trial.

Un istante temporale può essere quindi visto come un punto in uno spazio N-dimensionale e un tracciato EEG come la distribuzione di tali punti. Se eliminiamo la componente continua filtrando con un filtro passa alto, la media di tale distribuzione è nulla. Questo ci costringe a cercare

informazioni caratteristiche nei momenti del secondo ordine come la covarianza. Le matrici di covarianza vengono calcolate e normalizzate nel seguente modo

Rai = Xai XaiT / trace(Xai XaiT)

Rbi = Xbi XbiT / trace(Xbi XbiT)

La normalizzazione sulla somma della diagonale della matrice di covarianza è eseguita in modo da eliminare le variazioni intertrials dei valori assoluti dei momenti.

Calcolate le matrici di covarianza per ogni trial queste vengono mediate in modo da avere le matrici di covarianza per le due condizioni a e b:

Ra = <Rai>trial

Rb = <Rbi>trial

A questo punto possiamo calcolare la matrice di covarianza composta :

Rc = Ra + Rb

È utile adesso cercare la matrice di sbiancamento della covarianza composta cioè rendere tale matrice ortogonale in modo che la sua covarianza sia la matrice di identità. Per cercare la matrice di sbiancamento si fattorizza la matrice nei suoi autovettori :

Rc= Bc Ȝ BcT

Dove Bc (NxN) sono gli autovettori tali che BcBcT=INxN e Ȝ (NxN) è la corrispondente matrice

diagonale degli autovalori. La matrice di sbiancamento che equalizza la varianza nello spazio attraversato dagli autovettori è ottenuta nel seguente modo:

W = Ȝ-1/2 BcT

Ora si trasformano le matrici di covarianza individualmente in modo da portarle nello stesso spazio e che condividano quindi gli stessi autovalori:

Sa = W RaWT

Sb = W RbWT

Le matrici Sa e Sb condividono gli stessi autovalori dal momento che

Se decomponiamo queste matrici otteniamo quindi:

Sa = U ĭaUT

Sb = U ĭbUT

I corrispondenti autovalori sono tali che ĭa + ĭb = I dove con I si intende la matrice di identità.

Di conseguenza la proiezione dell’EEG sbiancato su U ci darà vettori caratteristici ottimali per la discriminazione delle due popolazioni rispetto alla loro varianza.

La matrice di proiezione di interesse è quindi:

PT = UT W

E le serie temporali si ottengono filtrando nel seguente modo:

Z = PT X

Invertendo questa equazione otteniamo nuovamente i dati originali dai coefficienti di espansione:

X = (P -1)T Z

In questo caso le colonne della matrice P sono i filtri spaziali (righe della matrice PT) e le righe della matrice A=(P -1) sono i pattern spaziali. Ogni filtro pj estrae l’attività del pattern aj.

Se avessimo indicato con Z = WX il filtraggio spaziale avremmo avuto le righe della matrice W come filtri spaziali e le colonne della matrice W–1 come patterns spaziali.

Questa trattazione può essere riassunta brevemente con la simultanea diagonalizzazione delle due matrici di covarianza normalizzate Ȉae Ȉb:

P TȈa P = ȁa

P TȈb P = ȁb

Dove la matrice P è determinata dalla condizione ȁa + ȁb = I, che è risolvibile risolvendo il

Ȉap = Ȝ Ȉb p

Indicando con Ȝ j (d) gli elementi diagonali di ȁ(d) nella condizione (d) troviamo la condizione

particolare che: Ȝ j a + Ȝ j b = 1. Quindi un valore prossimo a 1 di Ȝ j a (Ȝ j b) indica che il

corrispondente filtro spaziale pj produce una alta varianza nella condizione a (b) e una varianza

piccola per la condizione b (a).

Koles [36] spiega che la decomposizione appena vista offre una base comune per le due condizioni in quanto il segnale filtrato xCSP(t) = PTx(t) è incorrelato in entrambe le condizioni, la cui

incorrelazione implicherebbe indipendenza nel caso di variabili aleatorie Gaussiane.

Un’altra visione dello stesso problema si ottiene valutando le attività comune e quelle differenziali nel seguente modo:

Ac = Ȉa + Ȉb

Ad = Ȉa – Ȉb

Dove con Ac indichiamo l’attività comune alla quale non siamo interessati e con Ad si intende

l’attività discriminativa (i.e. la differenza della potenza di banda tra le due condizioni). Quindi una soluzione per questo problema si può ottenere risolvendo lo stesso problema generalizzato degli autovalori :

maximize{ p ȯ ℜC } [pT Ad p / pT Ac p ]

Pertanto possiamo notare che i filtri pj hanno l’obiettivo di massimizzare le differenze tra Ȝja– Ȝjb

(assumendo come sopra che Ȝj a+ Ȝj b = 1).

Abbiamo precedentemente stabilito che una volta ricavata la matrice P di proiezione, ordinata secondo valori crescenti degli autovalori, si ottiene la proiezione dei dati nello spazio degli elettrodi surrogati.

Z = PT Xi

Questi nuovi dati Z (coefficienti di espansione) hanno la proprietà che la varianza della prima riga è massima per i trials del gruppo a ed allo stesso tempo è minima per i trials del gruppo b

mentre per l’ultima riga succede l’opposto. Quindi, ai fini della classificazione, utilizziamo solo m filtri e le features che estraiamo sono rappresentate dalla varianza dei coefficienti di espansione normalizzata in scala logaritmica. Indicando con varip la varianza della p-esima riga di Zi il vettore

delle features per il trial i è composto dalle varianze normalizzate delle prime e delle ultime m righe:

fpi = log ( varpi / sum(varip=1:m; N-m : m )

La trasformazione logaritmica è eseguita con lo scopo di approssimare la distribuzione degli elementi di f i ad una distribuzione normale.

La varianza estratta per segnali prefiltrati passa banda corrisponde alla potenza spettrale in tale banda. La lunghezza dell’intervallo che usiamo per estrarre le features è scelta in base a un compromesso: finestre temporali brevi offrono ad un ridotto tempo di ritardo di estrazione delle features a scapito di una più elevata sensibilità a disturbi, mentre finestre temporali lunghe corrispondono ad un maggiore ritardo nell'estrazione delle features ma anche ad una maggiore robustezza a disturbi transitori..

Data la linearità del metodo l’operazione di filtraggio in frequenza può essere eseguita sia prima che dopo il filtraggio spaziale, anche se questo non sempre applicabile a causa della stima non ottima della matrice di covarianza [37].

Per l’interpretazione fisiologica dei filtri spaziali (colonne della matrice P) e dei patterns spaziali (colonne della matrice (P-1)T ) bisogna ricordare che l’algoritmo CSP non è volto alla separazione di sorgenti ma a massimizzare la varianza per una classe minimizzandola per l’altra. Ad esempio, considerando un filtro che massimizza la varianza per la classe movimento dei piedi e la minimizza per la classe movimento della mano destra, un focus di tale filtro sull’emisfero sinistro (preponderante per il movimento della mano destra) potrebbe avere diverse spiegazioni: può essere originato da un ERD causato dal movimento della mano destra, da un ERS causato dal movimento dei piedi oppure dalla somma dei due effetti (anche se per il compito di discriminazione questo ultimo caso sarebbe dannoso [37]).

Oltre al numero di filtri che si possono scegliere (nella maggior parte degli studi vengono usati solamente il primo e l’ultimo), altro parametro fondamentale nell’applicazione dei CSP è la banda frequenziale entro la quale filtriamo il segnale. Una scelta molto comune è quella di filtrare il segnale in un intervallo 7-30Hz in modo da includere i fenomeni di desincronizzazione e sincronizzazione dei ritmi alpha e beta. Con lo scopo di aumentare l’accuratezza della classificazione e di migliorare l’approccio a sistemi BCI basati su algoritmi CSP sono stati proposte diverse varianti di tale metodo incentrate sull’ottimizzazione delle frequenze da analizzare.

Un approccio di tipo “brute force” implementato è quello di aumentare il numero dei canali EEG con gli stessi canali filtrati a bande differenti. Questo approccio porta a dei buoni risultati tuttavia il numero di frequenze analizzate diviene elevato (solitamente maggiore di 50 bande) con un conseguente notevole aumento del costo computazionale.

Nel documento Metodi di analisi di segnali EEG in applicazioni di Brain Computer Interfaces (pagine 36-41)