Approccio tempo-frequenza per la valutazione della connettività funzionale in risonanza magnetica cerebrale

(1)

DIPARTIMENTO DI FISICA ENRICO FERMI

Corso di Laurea Magistrale in Fisica

Tesi di Laurea Magistrale

Approccio tempo-frequenza per la valutazione

della connettività funzionale

in risonanza magnetica cerebrale

Anno Accademico 2017/2018

Relatore

Dott.ssa Retico Alessandra

Candidato

Capanni Leonardo

(2)

(3)

Capanni Leonardo

1 Sommario

Introduzione ... 3

Capitolo 1: Risonanza Magnetica funzionale e misure di connettività cerebrale ... 7

f-MRI e segnale BOLD ... 7

Resting state f-MRI ... 9

Connettività statica ... 10

Connettività dinamica ... 11

Capitolo 2: Trasformata Wavelet e coerenza Wavelet ... 13

Trasformata di Fourier ... 13

Trasformata Wavelet ... 15

Correlazione di Pearson ... 19

Coerenza Wavelet ... 19

Capitolo 3: Tecniche di Machine Learning ... 23

Principi ... 23

Apprendimento ... 23

Classificatori ... 24

Support Vector Machine con kernel lineare (L-SVM) ... 26

Figure di merito: Curva ROC e AUC ... 30

Test delle permutazioni ... 33

Definizione delle caratteristiche e delle classi di appartenenza ... 34

Addestramento e Validazione dei classificatori L-SVM ... 35

Capitolo 4: Dataset ... 37

Il progetto Autism Brain Imaging Data Exchange (ABIDE) ... 37

Dati rs-fMRI pre-processati in ABIDE ... 38

(4)

Capanni Leonardo

2

Atlanti anatomici o funzionali , aree e reti neurali ... 41

Capitolo 5: Selezione del campione ed elaborazione dei dati ... 43

Scelta del Dataset ... 43

Matrici di connettività basate sulla correlazione di Pearson ... 48

Matrici di connettività basate su Coerenza Wavelet ... 49

Percentuale di tempo in-fase, contro fase, ritardo e anticipo ... 51

Ottave e sub-regioni ... 54

Capitolo 6: Valutazione del potere predittivo delle misure di connettività funzionale ... 57

Confronto tra correlazione di Pearson e coerenza Wavelet... 57

Contributo delle reti alla classificazione ... 62

Capitolo 7: Conclusioni e sviluppi futuri ... 67

Appendice ... 71

Il fenomeno della Risonanza Magnetica Nucleare ... 71

Principi fisici della Risonanza Magnetica Nucleare ... 72

L’Imaging di Risonanza Magnetica ... 80

(5)

Capanni Leonardo

3 Introduzione

In questo lavoro di tesi vengono messe a confronto diverse misure di connettività funzionale cerebrale al fine di valutarne l’efficacia per la discriminazione tra soggetti con Disturbo dello Spettro Autistico (DSA) e soggetti di controllo, mediante tecniche di machine learning.

La connettività funzionale cerebrale è stata valutata a partire da dati di di risonanza magnetica funzionale di tipo resting-state (rs-fMRI). Questa tecnica d’imaging prevede l’acquisizione d’immagini di risonanza magnetica funzionale, mentre il paziente non esegue specifici compiti, ma è a riposo. L’attività cerebrale può essere rivelata grazie al segnale BOLD (Blood Oxygenation Level Dependent signal), la cui intensità dipende dal livello di ossigenazione delle aree cerebrali che sono coinvolte nell’attività neuronale.

Come connettività funzionale si intende la correlazione tra i segnali (serie temporali) provenienti da aree cerebrali diverse. Tale correlazione è stata valutata col metodo tradizionale basato sui coefficienti di Pearson e tramite la coerenza Wavelet (CW); i due metodi sono stati, poi, messi a confronto. Il primo metodo valuta la correlazione tra serie temporali, che rappresentano l’attività neuronale, di diverse aree del cervello solo nel dominio del tempo e non permette di evidenziare eventuali correlazioni con un certo grado di sfasamento tra i segnali, che potrebbero rappresentare correlazioni “ritardate” tra aree cerebrali. Il metodo basato sull’analisi Wavelet, invece, trasforma la serie temporale in una mappa tempo-frequenza del segnale e valuta le correlazioni tra aree sia nel dominio temporale che frequenziale, tenendo conto anche dello sfasamento dei segnali. Sono stati quindi

(6)

Capanni Leonardo

4

analizzati i dati di risonanza magnetica funzionale di un campione di soggetti (33 soggetti con DSA e 23 soggetti di controllo) provenienti da un archivio accessibile pubblicamente, messo a disposizione dal progetto ABIDE (Autism Brain Image Data Exchange).

Il confronto tra le due metodiche è stato effettuato attraverso una procedura di classificazione, basata su tecniche di machine learning. E’ stato implementato un classificatore L-SVM (Linear-Support Vector Machine) per classificare i soggetti in due classi (soggetti con DSA e non). Mentre i dati di connettività ottenuti attraverso la correlazione di Pearson si presentano come quindici valori di correlazione tra sei reti funzionali cerebrali (Primaria, Eteromodale, Unimodale, Limbica, Paralimbica e Subcorticale), quelli disponibili nella mappa tempo frequenza che rappresenta la CW sono molti di più (circa 10000 valori), per cui è stato affrontato il problema della riduzione della dimensionalità. Per poter addestrare un classificatore avendo a disposizione un numero limitati di soggetti è stata ideata una codifica ad-hoc per la CW, per ottenere un numero di caratteristiche descrittive della connettività dimensionalmente simile ai 15 valori di correlazione di Pearson per ogni soggetto.

Come figura di merito per quantificare le prestazioni di classificazione è stata utilizzata l’area sotto la curva ROC (AUC) ottenuta implementando un metodo di cross validazione durante l’addestramento del classificatore. I risultati vengono sempre riportati in termini del valore medio di AUC e la relativa deviazione standard, ottenuta al variare della assegnazione random dei casi al campione di train o validazione. Il lavoro di Tesi è organizzato in questo modo: i primi tre capitoli illustrano i metodi usati per estrarre le diverse misure di connettività

(7)

Capanni Leonardo

5

dai dati 4D di rs-fMRI del dataset scelto e gli strumenti usati per la classificazione; i capitoli rimanenti descrivono il lavoro originale svolto e i risultati ottenuti. In quest’ultima parte sono state tratte delle conclusioni sulla base dei risultati ottenuti e proposte delle eventuali prospettive future di approfondimento e validazioni della metodologia proposta su altri dataset.

(8)

Capanni Leonardo

(9)

Capanni Leonardo

7 Capitolo 1: Risonanza Magnetica funzionale e

misure di connettività cerebrale

L’imaging di Risonanza Magnetica (MRI) si basa sul fenomeno della Risonanza Magnetica Nucleare (NMR). La risonanza magnetica permette, grazie all’utilizzo di sequenze di acquisizione diverse del segnale, di acquisire sia informazioni morfologiche che funzionali dell’organo in essere. Nel primo caso si parla di MRI e l’informazione che se ne ottiene è puramente morfologica; in altre parole sono visualizzate le varie strutture anatomiche in differenti scale di grigio, in base alle proprietà magnetiche del tessuto.

Nel secondo caso, mediante tecniche d’imaging funzionale (fMRI), è possibile produrre immagini che rappresentino una ben specifica attività biologica, che è possibile eventualmente sovrapporre a quelle morfologiche. Nella pratica, per quanto riguarda l’attività cerebrale, l’fMRI si basa sul meccanismo che correla l’attività cerebrale all’ approvvigionamento di ossigeno da parte delle aree coinvolte in un’ attività neuronale. Il segnale alla base dell’immagine fMRI è chiamato BOLD (Blood Oxygen Level Dependent).

f-MRI e segnale BOLD

L’effetto BOLD sfrutta il comportamento magnetico della deossiemoglobina, che assume in partica il ruolo di mezzo di contrasto endogeno.

(10)

Capanni Leonardo

8

Il sangue si può considerare come una miscela di plasma e globuli rossi. I globuli rossi contengono emoglobina o, più precisamente, una miscela di ossiemoglobina e deossiemoglobina; la prima è legata a molecole di ossigeno mentre la seconda no. La diversa disposizione del ferro in queste molecole le rende rispettivamente diamagnetiche o paramagnetiche. La suscettività magnetica è responsabile diretta del fenomeno del paramagnetismo dei nuclei, dunque il contributo maggioritario alla suscettività magnetica del sangue è dato dalla frazione di deossiemoglobina.

Dopo lo stimolo di attivazione si ha un iniziale aumento di deossiemoglobina dovuto al recepimento dell’ossigeno da parte dell’area, successivamente si presenterà un maggiore afflusso di sangue e quindi anche di ossiemoglobina, che farà innalzare il rapporto ossiemoglobina/deossiemoglobina. Una variazione del rapporto ossi/deossiemoglobina si traduce in un aumento del segnale pesato in o , in quanto sensibile alle variazioni di suscettività magnetica. Una volta concluso lo stimolo il rapporto torna al suo valore basale. Pertanto, l’attività neuronale è rilevabile direttamente in termini di un aumento di segnale nell’imaging pesato in o . L’andamento temporale del segnale BOLD è riportato in fig. 1.1.

In pratica, l’acquisizione funzionale (sia f-MRI che rs-fMRI) consiste nell’acquisizione rapida di volume con sequenze pesate in o . Normalmente viene acquisito un intero volume con un periodo che va da 1-4 secondi con una risoluzione spaziale non troppo elevata, ossia, con dimensioni dei voxel cubici di circa 3-4 mm di lato.

(11)

Capanni Leonardo

9

Figura 1.1: Andamento temporale del segnale BOLD.

Il segnale BOLD viene sfruttato in ambito clinico per evidenziare mancanze o deviazioni dell’attivazione neuronale in condizioni patologiche e non, rappresentando così uno strumento efficace di monitoraggio periodico di un paziente grazie all’assenza di controindicazioni, tipica, in generale dell’imaging basato su risonanza magnetica.

Resting state f-MRI

Questo metodo prevede l’esecuzione di una f-MRI su un soggetto al quale non viene richiesto di compiere alcuna specifica attività. Il soggetto si trova quindi in una situazione di “riposo” nella quale l’attività cerebrale dovrebbe essere caratteristica dei normali processi fisiologici in atto in diverse aree del cervello. Le deviazioni da questi processi “standard” possono essere interpretate come anomale e

(12)

Capanni Leonardo

10

quindi sintomatiche di una patologia o di un disturbo. La resting state f-MRI (rs-ff-MRI) permette inoltre di osservare le connettività tra attività neuronali che si svolgono in aree distinte del cervello; queste sono di fondamentale importanza per lo studio del funzionamento del cervello a riposo e sono un utile strumento per il riconoscimento di pattern di attività legati a una ben definita attività neurale [17].

Connettività statica

Al fine di estrarre informazioni rilevanti sul funzionamento del cervello, risulta utile introdurre il concetto di connettività funzionale. La connettività funzionale può essere definita come la correlazione tra segnali di due o più regioni anatomicamente distinte e spazialmente remote del cervello, ossia, non necessariamente connesse spazialmente da fibre assonali. Questa si può realizzare con diversi metodi, i quali si suddividono in statici e dinamici. Una rappresentazione grafica del processo che porta alla definizione della connettività funzionale è riportata in fig. 1.2.

La connettività statica si propone di misurare le correlazioni tra segnali provenienti da aree distinte del cervello, istante per istante. Generalmente si realizza con usando misure di correlazione come i coefficienti di correlazione di Pearson e, nel caso della rs-fMRI, permette di ottenere dati generalmente compatti e di facile utilizzo. Questo metodo si basa però su un’ipotesi piuttosto restrittiva. Si suppone, infatti, che l’attività neuronale di un’area possa essere correlata solo istantaneamente, ovvero si dice che due aree sono correlate o anticorrelate solo se lo sono in fase uguale o opposta. Così

(13)

Capanni Leonardo

11

facendo, non vengono rilevate quelle connettività tra aree che hanno attività neuronale correlata, ma con un certo ritardo l’una rispetto all’altra.

Figura 1.2: Da una sequenza di immagini di rs-fMRI vengono scelte 2 aree cerebrali distinte. Dallo studio della correlazione tra le serie temporali del segnale B0LD proveniente dalle due aree si ricava un valore di correlazione Ripetendo il procedimento per tutte le coppie di aree cerebrali disponibili si ottiene una mappa di connettività. Dalla mappa di connettività è possibile studiare le connessioni funzionali tra diverse aree cerebrali.

Connettività dinamica

Per risolvere la limitazione della connettività statica nel rilevare correlazioni tra segnali temporalmente distanti, viene introdotto il concetto di connettività dinamica. Questa prevede il calcolo della correlazione tra il valore del segnale a un dato istante con un altro, a un istante diverso. Questa procedura può essere sviluppata con diverse misure di correlazione, dove ognuna può mettere in risalto diverse informazioni. Il vantaggio di questo metodo è, ovviamente, quello di poter individuare correlazioni tra attività neurali di aree distinte anche a una certa distanza temporale, permettendo così di ottenere il massimo dell’informazione disponibile dai dati originali [2, 16, 19]. Purtroppo, a causa dell’elevato numero di accoppiamenti possibili tra i

(14)

Capanni Leonardo

12

valori dei segnali, vengono prodotte un gran numero di variabili che possono risultare oltre che di difficile interpretazione anche onerose dal punto di vista computazionale. La connettività dinamica permette inoltre uno studio multi-scala della connettività neurale.

(15)

Capanni Leonardo

13 Capitolo 2: Trasformata Wavelet e coerenza

Wavelet

Al fine di estrarre l’informazione frequenziale dai segnali ottenuti tramite rs-fMRI, è necessaria una trasformazione dei dati iniziali dal dominio temporale a quello frequenziale. La trasformata di Fourier permette di fare ciò, perdendo però la localizzazione temporale del segnale, riducendo così l’informazione disponibile per lo studio della connettività. Al fine di conservare l’informazione temporale è introdotta la trasformata Wavelet e in particolare la coerenza Wavelet per creare e definire una nuova misura di connettività.

Trasformata di Fourier

La Trasformata di Fourier di una serie temporale , è definita:

[ ] ∫

Consideriamo ora due segnali da trasformare: e un impulso di Dirac centrato all’istante .

(16)

Capanni Leonardo

14

Figura 2.1: Segnale sinusoidale e impulso di Dirac con le relative trasformate di Fourier.

La trasformata di Fourier permette dunque una perfetta localizzazione in frequenza di segnali caratterizzati da toni distinti e vicini fra loro come in fig. 2.1 (e quindi di segnali lentamente variabili), mentre la trasformata identità, ovvero

∫

presenta una localizzazione in tempo perfetta, poiché è capace di distinguere due impulsi vicini a piacere. Se il segnale è, come nel nostro caso di serie temporali acquisite con rs-fMRI, un segnale naturale, ovvero presenta andamenti lentamente variabili e brusche variazioni, è necessaria una trasformata che abbia sia una buona localizzazione frequenziale che temporale, in poche parole che abbia una risoluzione variabile.

(17)

Capanni Leonardo

15

Trasformata Wavelet

La richiesta di produrre una localizzazione del segnale a diverse scale è soddisfatta dalla trasformata Wavelet. Questa si realizza costruendo una serie di funzioni mediante traslazioni e cambiamenti di scala dalla seguente funzione, detta wavelet madre ;

√ (

)

A partire dalla wavelet madre si può definire la trasformata Wavelet (Wavelet Transform) WT di un segnale come:

[ ]

√ ∫

( )

Esistono diverse famiglie di wavelet: Haar, Morlet (fig. 2.2), Symmlet, Coiflet e molte altre.

(18)

Capanni Leonardo

16

Figura 2.2: Wavelet di Morlet.

Il nome della famiglia è dovuto alla forma della wavelet madre. Le funzioni ottenute dalla suddetta, infatti, devono oscillare (come un’onda, in inglese wave) e allo stesso tempo devono essere ben localizzate nel tempo (small wave), ossia devono avere un dominio limitato temporalmente.

Possiamo valutare la capacità di risoluzione della trasformata Wavelet nel dominio dei tempi e delle frequenze e . Per la wavelet madre si ha: ∫ ∫

(19)

Capanni Leonardo

17

Dove è la trasformata di Fourier di . D’ora in poi ogni wavelet della base, dove a e b sono fissati, verrà chiamata atomo della wavelet madre. Calcoliamo la risoluzione temporale considerando un atomo centrato in e con . Si ha così:

∫ ∫ ( ) ∫

Dove . In conclusione si ha:

Analogamente si ottiene:

La risoluzione sul piano tempo-frequenza sarà quindi variabile in base alla scelta di . La versione discreta della trasformata Wavelet dovrà tener conto della discretizzazione dei parametri a e b; in particolare la discretizzazione del parametro b deve essere legata a quella del parametro a perché funzioni compresse sull’asse temporale devono essere traslate con passo piccolo per coprire l’intero range temporale, mentre funzioni espanse sull’asse dei tempi devono essere traslate con

(20)

Capanni Leonardo

18

passo grande. La discretizzazione sarà allora la seguente:

{

Gli atomi ottenuti con questa sostituzione saranno, allora:

La copertura del piano tempo-frequenza risulterà come in fig. 2.3.

Figura 2.3: Copertura del piano tempo-frequenza per la trasformata wavelet

Infine la trasformata wavelet discreta di un segnale discreto con sarà:

[ ] [ ]

√ ∑

La wavelet più usata per applicazioni mediche è la wavelet di Morlet così definita:

(21)

Capanni Leonardo

19

( )

Correlazione di Pearson

I coefficienti di correlazione di Pearson sono così definiti:

∑ ̅ ̅ √ ∑ ̅ ∑ ̅

Dove X e Y sono le serie temporali e N è la loro dimensione. Il coefficiente di correlazione assume valori tra 1 e -1. I due estremi dei valori rappresentano rispettivamente due segnali totalmente correlati o anticorrelati.

Coerenza Wavelet

Per la definizione della coerenza Wavelet [22] tra due segnali x e y sarà introdotta la costruzione adottata da Torrence e Webster [23]. Si definisce allora la coerenza Wavelet (CW):

(22)

Capanni Leonardo

20

valore della scala e è così definito:

È evidente che l’operatore di CW somiglia molto a un coefficiente di correlazione. L’operatore di smoothing è così definito:

( ( ))

Se è stata usata la wavelet di Morlet nella trasformata Wavelet, un operatore di smoothing adatto ci viene fornito sempre da Webster e Torrence :

( ) ( )

( )

Dove e sono coefficienti di normalizzazione e rect è la funzione rettangolo. Il fattore 0.60 è stato determinato empiricamente da Torrence e Webster.

Una volta ottenuta la mappa dei coefficienti della CW possiamo integrare a questa anche l’informazione sullo sfasamento tra i 2 segnali attraverso la .

Se si prende l’argomento della si ottiene lo sfasamento dei 2 segnali nel piano tempo-frequenza.

(23)

Capanni Leonardo

21

mappa come quella in fig. 2.4.

Figura 2.4: Mappa di coerenza Wavelet. Le frecce indicano lo sfasamento tra i 2 segnali.

La zona indicata dalle linee tratteggiate della mappa è chiamata Cone of

influence (COI). Al di fuori del COI gli effetti di bordo dovuti alla non

perfetta localizzazione temporale della wavelet di Morlet non sono trascurabili. In questa zona, infatti, non è possibile ricostruire il segnale originale tramite la trasformata Wavelet inversa. Questo effetto ovviamente si ripercuote anche nella coerenza Wavelet.

Concludendo, la mappa della coerenza Wavelet permette di valutare la correlazione tra due segnali non solo in termini temporali, ma anche frequenziali.

(24)

Capanni Leonardo

(25)

Capanni Leonardo

23 Capitolo 3: Tecniche di Machine Learning

Il machine learning, ovvero l’apprendimento automatico, rappresenta una famiglia di differenti algoritmi che permettono di apprendere da un insieme di dati delle informazioni utili per fare delle predizioni su nuovi campioni. Le applicazioni di queste tecniche sono innumerevoli e ricoprono una posizione importante in ambiti dove la scelta di un’opzione piuttosto che un'altra, ossia la categorizzazione degli elementi di un campione, è di fondamentale importanza, come in diagnostica medica.

Principi

Il concetto di “apprendimento automatico” viene definito così: “Si dice che un programma apprende dall’esperienza E con riferimento a alcune classi di compiti T e con misurazione della performance P, se le sue performance nell’eseguire il compito T, come misurato da P, migliorano con l’esperienza E”.

Ciò vuol dire che fornendo un’esperienza E all’algoritmo, l’apprendimento della capacità T di quest’ultimo è andato a buon fine se migliora la performance P.

L’approccio all’apprendimento automatico può essere di due tipi a seconda delle modalità con cui le informazioni vengono fornite all’algoritmo: supervisionata e non supervisionata [3].

Apprendimento

(26)

Capanni Leonardo

24

apprendimento che differiscono tra di loro per il tipo di dati che vengono forniti all’algoritmo decisionale e per la modalità di addestramento dell’algoritmo.

Apprendimento supervisionato: quest’approccio permette di allenare il

modello su dataset d’input e su risposte note [4]. In questo modo si sviluppa un modello capace di prevedere risposte partendo da dati sconosciuti. Le tecniche per lo sviluppo di modelli di questo tipo si dividono in tecniche di classificazione e di regressione; la scelta dell’una o dell’altra viene fatta in base alla natura discreta o continua delle risposte.

Apprendimento non supervisionato: il metodo si propone di scovare

pattern o strutture nascoste tra i dati [5]. Viene usato esclusivamente su dataset con risposte sconosciute. Il clustering è la principale tecnica non supervisionata e consiste nella ricerca di raggruppamenti (cluster) ben definiti dei dati iniziali.

I sottoinsiemi dei due approcci contengono a loro volta una varietà di algoritmi di machine learning chiamati classificatori; nel successivo paragrafo ne verranno descritti alcuni sia del tipo supervisionato che

non supervisionato.

Classificatori

In questo paragrafo verranno descritti in maniera qualitativa alcuni dei classificatori più usati:

(27)

Capanni Leonardo

25

K-means (clustering non supervisionato): il dataset viene suddiviso in k

gruppi mutualmente esclusivi. La misura di appartenenza di un dato a un determinato gruppo è data dalla sua distanza dal centro del gruppo.

Hierarchical Clustering (clustering non supervisionato): produce dei

gruppi ramificati analizzando le similitudini tra coppie di punti e raggruppandoli in un albero genealogico binario.

Gaussian Mixture Model (clustering non supervisionato): è un

clustering organizzato in gruppi dove i dati appartengono a distribuzioni normali multivariate con una certa probabilità. La particolarità del metodo è che un punto può appartenere a più gruppi.

Logistic Regression (classificazione supervisionata): viene creato un

modello che possa predire con una certa probabilità una risposta binaria, ossia se un dato elemento appartiene a una classe o all’altra.

Support Vector Machine (classificazione supervisionata): classifica i dati

cercando un confine decisionale (iperpiano) nello spazio dei parametri, per separare i dati in due classi. Il miglior iperpiano, secondo quanto dimostrato da Vapnik [24] è quello più “distante” dalle due classi, nell’ipotesi in cui i dati siano linearmente separabili. Se l’ipotesi non è verificata, viene introdotta una funzione per “penalizzare” quei dati che sono nel lato sbagliato dell’iperpiano. Sarà descritto, con maggior dettaglio, nel prossimo paragrafo il caso particolare delle Support Vector Machine di tipo lineare.

(28)

Capanni Leonardo

26

Linear regression (regressione supervisionata): è una tecnica statistica

usata per descrivere una variabile-risposta continua come una funzione lineare nelle variabili-dati.

Non-Linear regression (regressione supervisionata): è la versione non

lineare della precedente tecnica. Possiamo scegliere il grado del polinomio usato nel modello per migliorare la previsione.

Support Vector Machine con kernel lineare (L-SVM)

Una SVM cerca l’iperpiano che separa i punti di una classe dagli altri. Il miglior iperpiano per una SVM è quello più “distante” dalle due classi. Con “distanza” s’intende la massima distanza dell’iperpiano dal punto più vicino delle due classi [24] . Fondamentalmente durante la fase di addestramento, viene risolto un problema di ottimizzazione che ha come soluzione il miglior iperpiano. I vettori di supporto (support vectors), che danno il nome a questo metodo, sono quei punti che sono più vicini all’iperpiano di separazione e definiscono la distanza di quest’ultimo dalle 2 classi. In fig. 3.1 viene portato un esempio bidimensionale di iperpiano.

(29)

Capanni Leonardo

27

Figura 3.1: (a) Esempio bidimensionale di miglior iperpiano (definito dalla linea continua). I punti quadrati rappresentano i vettori di supporto di ogni classe. (b) Esempio di dataset non separabile linearmente; un certo numero di punti non vengono classificati nella giusta classe.

Introduciamo il classificatore SVM con kernel lineare in N dimensioni. Si cercherà, allora, l’iperpiano che separa al meglio le due classi.

Supponiamo che il dataset sia separabile in due classi in modo netto, ovvero senza che ci siano punti all’interno della zona della classe opposta del punto. Siano [ ⃑ ⃑] con dove N è il numero di punti del dataset, ⃑ le coordinate dei punti appartenenti al dataset e può essere -1 o +1 a seconda della classe di appartenenza dell’i-esimo punto. Un qualsiasi iperpiano può essere scritto in questo modo:

⃑⃑⃑ ⃑

(30)

Capanni Leonardo

28

dell’iperpiano dall’origine lungo la direzione ⃑⃑⃑. Scegliamo allora i due iperpiani paralleli, che separano le due classi, per i quali la loro distanza è massima. La regione compresa tra i due iperpiani è chiamata margine e si indica con l’iperpiano che giace a metà fra i 2 precedenti.

Se i dati sono normalizzati, i due iperpiani di separazioni si possono definire così: ⃑⃑⃑ ⃑ ⃑⃑⃑ ⃑

La distanza geometrica tra questi iperpiani è M = _‖_⃑⃑⃑‖, quindi per massimizzare quest’ultima è necessario minimizzare ‖ ⃑⃑⃑‖; la distanza è calcolata usando la formula della distanza di un punto da un piano. Bisogna inoltre evitare che i punti cadano sul margine, perciò dobbiamo aggiungere un vincolo:

⃑⃑⃑ ⃑

Questi vincoli stabiliscono che ogni data-point debba stare dal lato corretto del margine. Tutto ciò può essere riscritto nella forma:

(31)

Capanni Leonardo

29

⃑ ⃑⃑⃑ ⃑

Per risolvere il problema della minimizzazione di ‖ ⃑⃑⃑‖ possiamo riassumere tutto nella formula:

‖ ⃑⃑⃑‖ ⃑ ⃑⃑⃑ ⃑

⃑⃑⃑ e che risolvono il problema, determineranno il classificatore L-SVM.

Se si rilassa l’ipotesi di completa separabilità del dataset, in altre parole che ci sia la possibilità che uno o più punti cadano nel lato della classe opposta a quella di appartenenza, si deve introdurre una funzione che penalizzi questi punti. La loss function in questo caso sarà questa:

( ⃑⃑⃑ ⃑ )

La funzione è zero se l è soddisfatta, altrimenti il valore della funzione è proporzionale alla distanza dal margine. In questo caso la funzione da minimizzare è:

[ ∑ ( ⃑ ⃑⃑⃑ ⃑ )

(32)

Capanni Leonardo

30

Dove rappresenta il parametro di compromesso tra l’aumento della larghezza del margine e la possibilità che ⃑ giaccia sul lato giusto del margine. Si noti che per bassi valori di , il secondo termine dell’eq. è trascurabile e si ritorna al caso “separabile” della L-SVM.

Figure di merito: Curva ROC e AUC

Al fine di misurare la performance di un classificatore allenato è necessario introdurre dei metodi di valutazione (o figure di merito) che producano un valore o una risposta tramite il quale confrontare i vari modelli. Per i classificatori binari sono di particolare interesse la curva ROC (Receiver Operating Characteristic) e la relativa AUC (Area Under the Curve) [25]. Introduciamo un classificatore generico binario che opera su due classi: positive e negative.

La ROC è una curva che rappresenta la performance del classificatore; sulle ordinate è rappresentata la frazione dei dati classificati correttamente come positivi (true positive rate), corrispondente alla sensibilità (sensitivity) del classificatore, mentre sulle ascisse la frazione dei dati classificati erroneamente come positivi (false positive rate), che rappresentano il complemento a 1 della specificità (specificity). In fig. 3.2 è riportato un esempio di ROC.

(33)

Capanni Leonardo

31

Figura 3.2: Esempio di curva ROC. Si indica con AUC l’area sottesa alla curva rossa in figura. La linea nera rappresenta la performance di un classificatore che non ha potere predittivo e la corrispondente AUC è pari a 0.50.

La curva è realizzata facendo variare un parametro di soglia (threshold) all’interno del range di valori degli output assegnati dal classificatore ai dati. Se il valore ottenuto dal classificatore per un dato è maggiore al

threshold questo sarà classificato come positivo altrimenti come negativo. Il classificatore potrà produrre allora quattro possibili

(34)

Capanni Leonardo

32

Figura 3.3: Tabella di contingenza. Si possono osservare le quattro combinazioni di risposte possibili.

Le quattro combinazioni non sono altro che la rappresentazione delle zone individuate attraverso il valore di threshold, come mostrato in fig. 3.4, delle distribuzioni dei valori del classificatore per ogni dato per le due classi. Per ogni valore di threshold verranno calcolati sensibilità e frazione di falsi positivi e determinati i singoli punti della curva ROC.

Figura 3.4: Distribuzione dei risultati del classificatore per le due classi di dati (verde e rossa). Con a si indicano i dati classificati come veri negativi, con d i veri positivi, con b i falsi negativi e con c i falsi positivi.

(35)

Capanni Leonardo

33

Le curve ROC passano tutte per i punti e , e hanno due casi limite: il segmento che passa per i punti e e il segmento che congiunge i punti e . Il primo rappresenta un classificatore casuale, mentre il secondo un classificatore perfetto.

L’AUC non è altro che l’area di sotto la ROC e può essere considerato un parametro riassuntivo della qualità di un classificatore. Nei casi limite appena citati, l’AUC vale 0.5 per i classificatori casuali e 1.0 per i classificatori perfetti.

Test delle permutazioni

Il test delle permutazioni (permutation test) è una tecnica non-parametrica in grado di attribuire una significatività statistica alla classificazione. Nel presente lavoro, è stata implementata per individuare quali caratteristiche descrittive dei dati sono le più significative al fine della classificazione. Questa tecnica prevede la creazione di un numero considerevole di classificatori addestrati su dataset ai quali vengono a ogni ripetizione permutate le etichette. Viene prima di tutto allenato un classificatore sul dataset originale, cioè con le etichette corrette, e viene memorizzato il vettore con i valori dei pesi relativi a ciascuna caratteristica. Poi, attraverso gli addestramenti sui campioni con etichette permutate in maniera random, viene generata la distribuzione nulla per pesi , con la quale confrontare in modo da assegnare a ciascuna caratteristica (corrispondente a ogni elemento del vettore ) una significatività statistica. Il valore assoluto dei pesi ottenuti per i classificatori addestrati sul dataset fittizio vengono confrontati con

(36)

Capanni Leonardo

34

quelli dei classificatori allenati sul dataset originale. Si va cioè a contare per ciascun peso , il numero di volte in cui, per caso, il valore di , e poi si divide questo numero per il numero totale di permutazioni. Questa operazione coincide col creare delle mappe di distribuzione di probabilità dei pesi di ogni caratteristica. A ogni elemento di viene quindi assegnato un p value, e infine,

definendo un valore p di soglia (tipicamente p< 0.05), si riescono a determinare le caratteristiche più discriminanti ai fini della classificazione. I pesi significativi (valutati in base al loro modulo) potranno infine essere positivi o negativi. A seconda del segno del peso si può dedurre se una data caratteristica ha valore maggiore nella classe 1 (label +1) o classe 2 (label -1), definite per il problema di classificazione. In particolare, a pesi positivi corrisponderanno caratteristiche che hanno valori maggiori nella classe 1 rispetto alla classe 2 e vice versa.

Definizione delle caratteristiche e delle classi di

appartenenza

Una volta ottenuti i dati relativi alla connettività tra aree del cervello (statica o dinamica che sia), questi devono essere posti una forma elaborabile dal classificatore. Innanzitutto è d’obbligo introdurre il concetto di caratteristica. Una caratteristica (o feature) non è altro che una caratteristica descrittiva del soggetto, espressa tramite un valore numerico. Il soggetto da classificare sarà caratterizzato da un ensamble più o meno ampio di caratteristiche, che definirà, attraverso la classificazione, l’appartenenza a una delle classi. In questo modo ogni

(37)

Capanni Leonardo

35

soggetto può essere rappresentato come un vettore multidimensionale nello spazio dei dati le cui coordinate sono i valori delle caratteristiche. Sia per le matrici di connettività basate sulla correlazione di Pearson che per le matrici di connettività basate sulla coerenza Wavelet, i valori delle caratteristiche sono compresi tra 1 e -1.

Nei metodi di classificazione supervisionati per procedere all’addestramento del classificatore è necessario disporre di un campione di training per il quale sia definita la classe di appartenenza dei soggetti. Per tanto ogni soggetto è affiancato da una label (etichetta), che in questo caso sarà “ASD” per i soggetti con autismo e “TC” per i casi di controllo.

Addestramento e Validazione dei classificatori L-SVM

Il classificatore scelto per questo studio è l’L-SVM, in quanto si adatta perfettamente al tipo di campione da classificare. Il dataset è costituito da elementi molto eterogenei tra di loro e il processo di apprendimento deve essere effettuato in maniera che il modello prodotto sia “protetto” dalla variabilità dei dati.

Si introduce così il concetto di cross validation. Nella validazione il dataset viene suddiviso ad ogni ciclo in 2 raggruppamenti: uno di

training e uno di test. I dati in training servono ad allenare il modello e

quelli in test a quantificare la performance del modello ottenuto. La ripartizione dei dati nei due gruppi cambia a ogni ciclo e si può valutare in questo modo una performance media del modello. I due principali metodi di cross validation sono il K-fold validation e il leave-one-out

(38)

Capanni Leonardo

36

Il primo prevede la suddivisione dei dati in gruppi contenenti lo stesso numero di campioni e si allena il modello escludendo a ogni iterazione uno dei gruppi; la performance viene determinata sul gruppo di dati escluso. Questo processo viene chiamato validazione. Viene così calcolata una performance media su tutti i gruppi in validazione.

La leave-one-out cross validation è una versione particolare del precedente metodo di validazione. In questo caso a ogni iterazione viene escluso un solo dato dal dataset con cui si allena il modello, mettendolo in validazione.

(39)

Capanni Leonardo

37 Capitolo 4: Dataset

In questo capitolo verrà descritto l’insieme di dati usati in questo lavoro di tesi. La scelta del dataset è di fondamentale importanza sia per la buona riuscita dell’analisi che per la rilevanza dei risultati ottenuti. In questo studio, i dati sono stati raccolti da un progetto di larga scala

chiamato ABIDE (Autism Brain Imaging Data Exchange)

(http://fcon_1000.projects.nitrc.org/indi/abide/) che colleziona dati MRI anatomici e funzionali da diversi centri clinici, e che è nato con lo scopo di sostenere lo studio dei meccanismi neurofisiologici alla base dell’autismo.

Il progetto Autism Brain Imaging Data Exchange (ABIDE)

I disturbi dello spettro autistico o ASD (Autism Spectrum Disorders) sono caratterizzati da forti difficoltà nella sfera delle relazioni sociali e da comportamenti e interessi stereotipati e ripetitivi. L’autismo, prima classificato come patologia rara, colpisce al momento, secondo recenti statistiche effettuate negli USA, circa 1 bambino su 59 (uno ogni 37 maschi e una ogni 151 femmine) [27]. Si tratta di un disturbo con una forte prevalenza maschile. La diagnosi viene effettuata in genere nel corso dei primi 5 anni di vita dei bambini. Nonostante le avanzate ricerche, non è stato ancora scoperto un biomarcatore del disturbo che permetta di fare una di diagnosi precoce al fine di programmare piani clinici efficienti. La diagnosi viene fatta mediante la rilevazione clinica di un insieme di sintomi, senza la possibilità di avere a disposizione

(40)

Capanni Leonardo

38

strumenti diagnostici oggettivi. Studi basati anche su dati di MRI, fMRI e rs-fMRI, hanno come obiettivo l’identificazione di un biomarcatore del disturbo basato su caratteristiche neuroanatomiche o funzionali. Questo obiettivo non è stato ancora raggiunto a causa della complessità ed eterogeneità del disturbo. Per supportare la ricerca sui biomarcatori di ASD attraverso neuroimmagini è stato creato il database ABIDE (Autism Brain Imaging Data Exchange). Si tratta di un archivio di immagini strutturali e funzionali del cervello raccolte da laboratori di oltre 20 centri negli USA. Questo campione di dati è stato

reso disponibile pubblicamente

(http://fcon_1000.projects.nitrc.org/indi/abide/) in due successive raccolte: ABIDE I [14] e ABIDE II [15]. ABIDE I coinvolge 17 laboratori internazionali e contiene 1112 dataset di soggetti, dei quali 539 con ASD e 573 di controllo tipico (TC). ABIDE II coinvolge invece 19 laboratori internazionali e 1114 dataset di soggetti ripartiti in 521 con ASD e 593 di controllo tipico. Può essere, quindi, usato da chiunque per fini di ricerca.

Dati rs-fMRI pre-processati in ABIDE

I dati rs-fMRI della raccolta ABIDE I sono stati messi a disposizione sia come serie temporali per ogni singolo voxel, sia come dati processati da diversi team internazionali (http://preprocessed-connectomes-project.org/abide/) secondo i seguenti quattro protocolli: Connectome Computation System (CCS), Configurable Pipeline for the Analysis of Connectomes (CPAC), Data Processing Assistant for Resting-State fMRI (DPARSF) e Neuroimaging Analysis Kit. Questi sistemi adottano ognuno

(41)

Capanni Leonardo

39

un diverso percorso di filtraggio e standardizzazione dei dati, al fine di rendere più ampia la fruibilità e versatilità dei dati di ABIDE.

Ogni sistema implementa un banco di filtri, per rimuovere le variazioni di segnale dovute ai movimenti fisiologici (respiro, battito cardiaco ecc…) e una forma particolare di preprocessing che prevede l’uso di filtri di smoothing e tecniche di regressione. In questo lavoro di tesi è stata scelta la pipeline CPAC.

Serie temporali

Una volta processati i dati secondo una delle pipeline introdotte nel paragrafo precedente, quello che si ottiene è una serie temporale per ogni area del cervello del soggetto. La serie temporale non è altro che il segnale BOLD di una determinata area del cervello in funzione del tempo di scansione. Un esempio di serie temporale è riportato in fig. 4.1.

(42)

Capanni Leonardo

40

Figura 4.1: Esempio di serie temporale.

Ogni laboratorio ha usato diversi parametri di acquisizione per produrre i dati funzionali dei soggetti, dunque la risoluzione temporale e quella frequenziale cambia a seconda del sito; in particolare i 2 parametri più importanti ai fini della risoluzione sono la durata di scansione e il tempo di campionamento.

Le serie temporali disponibili per ogni singolo voxel vengono poi mediate su regioni cerebrali più ampie, variabili in base alla scelta dell’atlante. Vengono infatti riportate in ABIDE-preprocessed le media dei segnali relativi a specifiche aree anatomiche o funzionali, secondo atlanti diversi.

(43)

Capanni Leonardo

41

Atlanti anatomici o funzionali , aree e reti neurali

Ai dati processati vengono applicate delle “maschere”, ovvero viene calcolato il segnale medio di una regione del cervello, o ROI (Region Of Interest), secondo la suddivisione prevista da diversi atlanti. Questa procedura viene chiamata parcellizzazione. Gli atlanti usati in ABIDE Preprocessed sono: Automated Anatomical Labeling (AAL), Eickhoff-Zilles (EZ), Harvard-Oxford (HO), Talaraich and Tournoux (TT), Dosenbach 160, Craddock 200 (CC200), Craddock 400 (CC200). Come esempio, viene riportata in fig. 4.2 la parcellizzazione relativa all’atlante HO.

Figura 4.2: Rappresentazione grafica della parcellizzazione anatomica delle aree cerebrali secondo l’atlante Harvard-Oxford.

La parcellizzazione può essere fatta secondo due criteri: secondo l’attività funzionale o secondo l’anatomia del cervello. In base alla scelta dell’atlante si possono estrarre informazioni differenti; si può studiare l’attività del cervello dal punto di vista anatomico, ad esempio

(44)

Capanni Leonardo

42

per localizzare eventuali anomalie funzionali, o dal punto di vista funzionale per comprendere meglio il modo di lavorare del cervello impegnato in un certo compito. In questo contesto può essere utile introdurre le reti neurali. Queste reti contengono diverse strutture cerebrali che concorrono ad assolvere determinate funzioni del corpo umano. Le reti neurali che verranno studiate sono state individuate tramite la suddivisione funzionale di Mesulam [20] e sono (si veda fig. 4.3): rete Unimodale, rete Primaria, rete Eteromodale, rete Limbica, rete Paralimbica e rete Subcorticale.

Figura 4.3: Rappresentazione grafica delle reti neurali individuate da Mesulam. Le sfere indicano la localizzazione media delle aree cerebrali anatomiche, secondo l’ atlante Harvard-Oxford, appartenenti a ciascuna rete di Mesulam.

(45)

Capanni Leonardo

43 Capitolo 5: Selezione del campione ed

elaborazione dei dati

In questo capitolo vengono descritti i criteri di selezione del dataset analizzato e la procedura di preprocessing utilizzata. Sono introdotte anche le misure di correlazione utilizzate per la classificazione, sia per la correlazione di Pearson sia per la correlazione basata su coerenza Wavelet.

Scelta del Dataset

Il campione scelto si compone dei dati di rs-fMRI di 56 soggetti provenienti dal sito dell’università di New York (NYU) contenuti in

ABIDE I preprocessed (

http://preprocessed-connectomes-project.org/abide/). Le immagini sono state acquisite con uno scanner MRI della Siemens modello Allegra 3T con i parametri di acquisizione e di ricostruzione dell’immagine riportati nella tab. 5.1.

Acquisition Parameters

Flip angle (°) 90

Echo Time (ms) 15

Repetition Time (ms) 2000

Bandwidth (Hz/pixel) 3906

Phase Encoding Right-Left

Fat Suppression Yes

Slice Orientation Trsansversal Oblique

(46)

Capanni Leonardo

44

Gap between slices (%) 0

Number of volumes

collected 180

Number of initial volumes

discarded by the scanner 2

Acquisition time (min:sec) 6:00

Reconstruction resolution parameters

Read out direction (mm) 3.00

Phase encoding direction

(mm) 3.00

Slice direction (mm) 4.00

Reconstruction image matrix parameters

Read out direction (px) 80

Phase encoding direction

(px) 64

Slice direction (px) 33

Tabella 5.1

I dati scelti sono relativi a soggetti di genere maschile di età compresa tra i 6.5 e i 13 anni, acquisiti con gli occhi aperti. Il campione si compone di 33 soggetti con autismo (ASD) e 23 soggetti di controllo (typical controls, TC). La lunghezza delle serie temporali per il sito NYU è 176 che corrisponde, se consideriamo il valore del Repetition Time, a 352 secondi.

La scelta del campione è stata fatta in modo tale da avere un campione il più possibile omogeneo dal punto di vista fenotipico al fine di ridurre

(47)

Capanni Leonardo

45

la variabilità dei risultati dovuti all’eterogeneità del campione. Per questo motivo è stato scelto il sito NYU, poiché contiene il maggior numero di soggetti con le caratteristiche già menzionate. L’atlante applicato è l’Harvard-Oxford (HO), che si compone di 110 aree strutturali. Queste aree possono essere suddivise, secondo un catalogo che ne definisce l’appartenenza, in sei gruppi che rappresentano le reti neurali citate nel capitolo precedente. Per ottenere la serie temporale di una rete neurale è stata effettuata la media delle serie temporali delle aree appartenenti alla suddetta rete [Errore. L'origine riferimento

on è stata trovata.]. Le reti neurali considerate, sono quelle della

suddivisione di Mesulam, ossia quelle riportate nella tab. 5.2, insieme ai relativi numeri identificativi, e in fig. 5.1, affiancate dalle relative serie temporale.

RETE NEURALE IDENTIFICATIVO DELLA RETE

NEURALE Paralimbica 1 Limbica 2 Eteromodale 3 Primaria 4 Subcorticale 5 Unimodale 6 Tabella 5.2

(48)

Capanni Leonardo

(49)

Capanni Leonardo

47

(50)

Capanni Leonardo

48

Unimodal) di Mesulam e relative serie temporali ottenute mediando le serie temporali delle singole aree anatomiche (rappresentate tramite sferette colorate centrate nel baricentro di ogni area dell’atlante HO) appartenenti a ciascuna rete neurale.

Matrici di connettività basate sulla correlazione di Pearson

Per valutare le possibili differenze nella capacità predittiva della connettività statica e quella dinamica nella classificazione ASD/TC, introduciamo le matrici di connettività basate su correlazione Pearson. Per ogni soggetto, calcolando la correlazione di Pearson tra le serie temporali di ciascuna delle coppie di reti neurali di Mesulam, si ottiene una matrice quadrata 15 x 15 simmetrica. Un esempio, relativo a uno dei soggetti del campione di NYU, è riportato in fig. 5.2.

Figura 5.2: Mappa di connettività basata sulla correlazione di Pearson relativa al soggetto 37.

(51)

Capanni Leonardo

49

Per com’è costruita la mappa di connettività, l’informazione rilevante sulla correlazione è contenuta nel triangolo superiore della matrice, poiché la formula dei coefficienti è invariante per inversione di indici delle serie temporali.

In questo modo si possono visualizzare le coppie di reti correlate o anticorrelate tra di loro istantaneamente, ovvero per singolo punto delle serie temporali. Si noti al esempio che la rete 4 e molto correlata con la rete 6, mentre 3 e 4 sono altamente anticorrelate.

Matrici di connettività basate su Coerenza Wavelet

Per valutare la connettività dinamica tra diverse reti neurali si ricorre alla coerenza Wavelet. L’equivalente della matrice di connettività basata sui coefficienti di correlazione di Pearson di un soggetto, per la coerenza Wavelet è un array tridimensionale, poiché per ogni coppia di reti la CW è matrice bidimensionale. Quando consideriamo tutte le possibili coppie di reti, otteniamo un array tridimensionale, le cui dimensioni sono dove:

F : rappresenta le bande di frequenza.

T : è il numero di punti delle time-series.

C : è il numero di coppie, senza tener conto della disposizione, tra le reti

neurali.

(52)

Capanni Leonardo

50

temporali:

Figura 5.3: Esempio di mappa di CW tra due serie temporali. Sulle ordinate viene riportata la scala in periodi di Fourier. Il reciproco fornisce il valore di frequenza in Hz. Le frecce indicano la fase dei valori di coerenza Wavelet.

Ogni pixel della matrice contiene il valore dato dalla eq. (1) e l’argomento della eq. (2).

Questa mappa di CW tra due segnali contiene molte più informazioni della correlazione di Pearson; è quindi necessaria una sottorappresentazione del dato attraverso la creazione di una misura di connettività che sia possibile confrontare direttamente con la matrice di connettività basata sulla correlazione di Pearson.

(53)

Capanni Leonardo

51 Percentuale di tempo in-fase, contro fase, ritardo e

anticipo

Per affermare che una coppia di reti è correlata viene introdotto il concetto di percentuale di tempo in-fase [21]. Questa viene calcolata in questo modo:

∑ { }

{

}

Dove N è il numero dei punti cono di influenza; { } è 1 o 0 a seconda che la condizione in parentesi sia verificata, è il valore di threshold oltre il quale i coefficienti della coerenza Wavelet sono considerati significativi e ) assume valori compresi tra e . Il valore viene determinato a partire dalla coerenza Wavelet di coppie di 1000 segnali di rumore rosso simulati usando il metodo Montecarlo.

Delle mappe CW viene fatta la distribuzione nulla dei coefficienti, che viene usata per stimare il livello di confidenza al 5%. I valori così determinati compongono la matrice in fig. 5.4.

(54)

Capanni Leonardo

52

Figura 5.4: Matrice a95.

Il conteggio espresso nell’ equazione è da considerarsi solo per quei punti all’interno del cono di influenza individuato dalle curve tratteggiate in fig. 5.5, poiché per i punti al di fuori non è garantita la completa ricostruzione del segnale.

Come si può notare dall’espressione della percentuale di tempo in fase, vengono esclusi i punti che denotano un’ anti correlazione tra i segnali. La fig. 5.5 rappresenta la matrice di un soggetto ottenuta attraverso la misura di significatività in eq. (5) per ogni coppia di rete neurale per un soggetto.

(55)

Capanni Leonardo

53

Figura 5.5: Matrice ottenuta attraverso il calcolo della percentuale di tempo in-fase per ogni coppia di rete neurale del soggetto 33.

L’applicazione di questo metodo si restringe allo studio delle sole correlazioni dirette tra coppie di reti. Per studiare le anti correlazioni si introduce la percentuale di tempo contro fase, così definita:

∑ { } { }

Allo stesso modo possiamo anche definire la percentuale di tempo in anticipo e in ritardo:

(56)

Capanni Leonardo

54

∑ { } { } ∑ { } { }

Ottave e sub-regioni

La funzione che implementa la coerenza Wavelet restituisce una matrice dove F viene indicato come “scale”. Effettivamente rappresenta la scala introdotta nella trattazione teorica della trasformata Wavelet. Il valore “scale” corrisponde a sua volta a un certo valore di frequenza, al quale possiamo risalire usando la curva di conversione in fig. 5.6 e calcolandone l’inverso.

(57)

Capanni Leonardo

55

Figura 5.6: Curva di conversione numero di riga-periodo di Fourier. Per ottenere il valore in frequenza basta calcolare l’inverso del periodo di Fourier corrispondente al numero della riga.

F è divisa in ottave e ogni ottava è divisa in subregioni. Il numero di ottave n è definito così:

{ }

Ogni ottava è divisa a sua volta in dodici subregioni. Risulta quindi che ogni subregione non rappresenta sempre lo stesso intervallo di frequenze Δ, ma varia in questo modo per l’n-esima ottava:

(58)

Capanni Leonardo

56

Il massimo della scala è definito dalla frequenza minima campionabile dalla trasformata Wavelet. L’ estensione della scala, per il dataset scelto, va da 0.238 Hz a 0.004 Hz.

(59)

Capanni Leonardo

57 Capitolo 6: Valutazione del potere predittivo

delle misure di connettività funzionale

In questo capitolo vengono presentate le prestazioni dei classificatori L-SVM addestrati su misure di connettività di soggetti del dataset NYU scelto per l’analisi. Ogni valore di AUC viene presentato con la relativa deviazione standard (STD).

Confronto tra correlazione di Pearson e coerenza Wavelet

Al fine di confrontare il contenuto informativo delle due misure di connettività (statica e dinamica), è stata effettuata una classificazione con le caratteristiche disponibili per ogni soggetto sia a partire dalle mappe di connettività basate sulla correlazione di Pearson che per quelle basate sulla percentuale di tempo in-fase e contro-fase. Le fig. 6.1 e 6.2 mostrano 2 coppie di serie temporali, rispettivamente correlate e anti correlate in termini di coefficienti di correlazione di Pearson, e le relative mappe di coerenza Wavelet.

(60)

Capanni Leonardo

58

Figura 6.1: A sinistra sono rappresenta le serie temporali delle reti Primaria (blu) e Unimodale (rosso) del soggetto 34 del sito NYU; a destra è riportata la mappa della coerenza Wavelet della stessa coppia di reti. Le due reti sono state scelte in quanto hanno un alto coefficiente di correlazione di Pearson (r=0.8). Le due reti mostrano ampie aree di coerenza in fase nella mappa di CW.

Figura 6.2: A sinistra sono rappresenta le serie temporali delle reti Etermodale (blu) e Primaria (rosso) del soggetto 34 del sito NYU; a destra è riportata la mappa della coerenza Wavelet della stessa coppia di reti. Le due reti sono state scelte in quanto hanno un basso coefficiente di correlazione di Pearson (r=-0.4). Nella mappa di CW sono visibili alcune aree in cui le due reti risultano anti correlate, e altre in cui c’è una relazione di anticipo o di ritardo nelle relative fasi.

I risultati ottenuti con il classificatore L-SVM, usando un metodo di cross validazione di tipo k-fold, sono riportati nelle tab. 6.1, 6.2 e 6.3 assieme a una rappresentazione grafica delle matrici che riportano per ogni soggetto le misure di connettività in termini di correlazione di Pearson e percentuale di tempo in fase e contro fase. Quest’ ultime sono mostrate nelle fig. 6.3, 6.4 e 6.5. In questo studio è stata adottata la sola K-fold validation con valori di k uguali a 2, 3, 5, 10; i valori di k

(61)

Capanni Leonardo

59

più piccoli sono stati usati per valutare l’onere computazionale dell’algoritmo, nel caso in cui ci siano molte caratteristiche da processare, mentre gli altri per valutare al meglio la performance del classificatore.

Figura 6.3: Rappresentazione grafica della matrice che riporta per ogni soggetto le misure di connettività in termini di correlazione di Pearson.

K AUC STD 2 0.55 0.07 3 0.58 0.05 5 0.59 0.07 10 0.60 0.05 Tabella 6.1

(62)

Capanni Leonardo

60

Figura 6.4: Rappresentazione grafica della matrice che riporta per ogni soggetto le misure di connettività in termini percentuale di tempo in fase.

K AUC STD 2 0.53 0.07 3 0.56 0.09 5 0.59 0.08 10 0.66 0.03 Tabella 6.2

(63)

Capanni Leonardo

61

Figura 6.5: Rappresentazione grafica della matrice che riporta per ogni soggetto le misure di connettività in termini di percentuale di tempo in contro fase.

K AUC STD 2 0.53 0.06 3 0.55 0.07 5 0.60 0.07 10 0.59 0.05 Tabella 6.3

I risultati evidenziano una maggiore performance del classificatore L-SVM allenato sulle misure di connettività ottenute attraverso la percentuale di tempo in fase rispetto a quello allenato con quelle basate sulla correlazione di Pearson. Inoltre, le performance di quest’

(64)

Capanni Leonardo

62

ultimo sono comparabili con quelle ottenute allenando il classificatore con la connettività valutata con la percentuale di tempo contro fase. Sono stati anche calcolati i valori di AUC ottenuti usando tutte le caratteristiche relative alla percentuale di tempo di coerenza in fase, contro fase, anticipo e ritardo, cioè 60 caratteristiche per ogni soggetto. Il risultato ottenuto tuttavia non è quello che ci si potrebbe aspettare, ossia le performance non sono migliorate. Questo è probabilmente dovuto al fatto che vengono introdotti troppi valori nulli nelle matrici delle caratteristiche, che rendono difficoltosa la classificazione.

La migliore prestazione in termini di AUC è stata quindi ottenuta sulle misure di connettività valutata come la percentuale di tempo di coerenza in fase. Si può ritenere che sia dunque vantaggioso, attraverso un’analisi tempo-frequenza, estrarre tale misura di connettività e mantenere solo quelle correlazioni realmente significative ottenute introducendo la soglia a95, ottenuta attraverso la coerenza Wavelet tra 1000 segnali simulati di rumore rosso, a diverse frequenze. E’ evidente che questa misura di connettività presenta un più elevato contenuto informativo rispetto alle altre misure considerate nella discriminazione tra soggetti ASD e TD.

Contributo delle reti alla classificazione

E’ stato effettuato un test delle permutazioni sulle misure di connettività ottenute attraverso i tre metodi utilizzati. Sono state effettuate 10000 ripetizioni con label permutati. Le coppie più significative dal punto di vista della classificazione, evidenziate nelle fig. 6.6 (a), (b) e (c) , sono etichettate da un numero da 1 a 15 e seguono la

(65)

Capanni Leonardo

63

corrispondenza riportata nella tab. 6.4.

COPPIA DI RETI

IDENTIFICATIVO DELLE

CONNESSIONI

Paralimbica-Limbica

1 Paralimbica-Eteromodale

2 Paralimbica-Primaria

3 Paralimbica-Subcorticale

4 Paralimbica-Unimodale

5 Limbica-Eteromodale

6 Limbica-Primaria

7 Limbica-Subcorticale

8 Limbica-Unimodale

9 Eteromodale-Primaria

10 Eteromodale-Subcorticale

11 Eteromodale-Unimodale

12 Primaria-Subcorticale

13 Primaria-Unimodale

14 Subcorticale-Unimodale

15

Tabella 6.4

(66)

Capanni Leonardo

64

(a)

Figura 6.6 (a): Matrice riassuntiva della connettività basata sulla correlazione di Pearson; le connessioni di più significative nel problema di classificazione sono Limbica-Primaria e Eteromodale-Subcorticale.

(b)

Figura 6.6 (b): Matrice riassuntiva della connettività basata sulla percentuale di tempo in fase della coerenza Wavelet; le coppie di più significative sono Paralimbica-Primaria e Paralimbica-Unimodale.

(67)

Capanni Leonardo

65

(c)

Figura 6.6 (c): Matrice riassuntiva della connettività basata sulla percentuale di tempo contro fase della coerenza Wavelet; la coppia di più significativa è Subcorticale-Unimodale.

Le caratteristiche evidenziate nelle fig. 6.6 (a), (b), e (c), per ogni matrice, a seconda del colore del box che le contiene, rappresentano una iperconnettività nei soggetti (blu) o una ipoconnettività nei soggetti con ASD (rosso) [1, 13].

(68)

Capanni Leonardo

(69)

Capanni Leonardo

67 Capitolo 7: Conclusioni e sviluppi futuri

In questo lavoro di tesi è stata implementata una nuova misura di connettività funzionale cerebrale basata sulla coerenza Wavelet tra i segnali temporali di coppie di regioni cerebrali acquisite attraverso la rs-fMRI. E’ stata messa a confronto la connettività misurata come correlazione di Pearson con analoghe misure derivate dalle matrici di coerenza Wavelet. Il confronto è stato basato sull’uso di tecniche di

machine learning. In particolare, è stata valutata la capacità delle

diverse misure di connettività (Pearson vs. Wavelet) nel discriminare, tramite l’implementazione di Linear Support Vector Machine (L-SVM), soggetti con disturbo dello spettro autistico da soggetti di controllo. I risultati evidenziano una migliore performance nel discriminare un campione di soggetti con autismo da un gruppo di controllo del classificatore L-SVM allenato con la connettività espressa come percentuale di tempo di coerenza in fase (AUC = 0.66 ± 0.03) rispetto a quello allenato con la correlazione di Pearson (AUC = 0.60 ± 0.05). Inoltre le performance di quest’ultimo sono comparabili con quelle ottenute allenando il classificatore con la connettività valutata con la percentuale di tempo di coerenza in contro fase.

L’introduzione della coerenza Wavelet nello studio della connettività funzionale permette un’indagine che sfrutta le informazioni sull’andamento tempo-frequenza dei segnali e quindi più ricca dal punto di vista informativo. A un alto contenuto d’informazioni corrisponde però anche una difficoltà maggiore nell’estrarre