• Non ci sono risultati.

Per scegliere l’algoritmo di ML migliore, si sono calcolati media e deviazione standard degli AUC1ottenuti con la normalizzazione nulla in cui si valutavano i parametri confondenti di Età, sesso e sito. Questi classificatori infatti erano stati ottenuti addestrando allo stesso modo e dunque possono essere confrontati. A seconda della categoria diagnostica in esame si trovano dunque i risultati illustrati nella Tab. 11.4.

Come si può osservare per tutte le definizioni del disturbo il classificatore migliore risulta essere il Support Vector Machine. Tuttavia dato che tale algoritmo si basa su un kernel non lineare, non è possibile estrarre le feature di interesse.

Quindi si è deciso di procedere nelle successive analisi utilizzando sia l’SVM sia il Logistic Re- gression, infatti anche quest’ultimo ha dato buoni risultati in tutte le categorie e inoltre risulta particolarmente semplice da utilizzare per l’estrazione finale dei biomarcatori utilizzando la statistica Wald come descritto nel capitolo 5.

76 11Analisi preliminari

Algoritmo DSA DA SA DSG-NAS

RF 0.56±0.04 0.65±0.03 0.60±0.04 0.79±0.05 SVM 0.63±0.02 0.72±0.04 0.67±0.03 0.82±0.04 LR 0.62±0.05 0.71±0.02 0.66±0.04 0.79±0.04 NN 0.54±0.06 0.62±0.03 0.61±0.02 0.76±0.06 NB 0.55±0.05 0.62±0.04 0.59±0.06 0.75±0.03

Tabella 11.4:Analisi effettuata per scegliere i migliori algoritmi di ML.

CAPITOLO

12

Confronto tra le prestazoni di classificazione secondo il DSM4 e il DSM5

12.1

Addestramento dei classificatori e calcolo dell’AUC

Per stabilire se, per l’identificazione di biomarcatori neuroanatomici, sia più adatto l’uti- lizzo delle categorie diagnostiche del DSM-IV o quella di DSA descritta nel DSM-V, è stata condotta un’analisi in cui sono stati costruiti diversi classificatori, sulla base di tutti gli ac- corgimenti determinati nelle analisi precedenti, addestrati a distinguere tra controlli e casi, utilizzando per quest’ultima classe le diverse definizione in esame.

Inoltre sono stati anche utilizzati degli indicatori di severità dell’Autismo per stratificare la definizione di DSA, cercando così di comprendere se la distinzione per severità dei sintomi rende superflua l’indicazione di tre diverse patologie. Gli indicatori presi in esame sono:

• Autism Diagnostic Observation Schedule (ADOS)[92]: una prova semi-strutturata basata sull’osservazione del comportamento del bambino in diverse situazioni opportunamen- te predisposte e codificate dall’esaminatore. La prova si articola in vari moduli, i quali vengono selezionati in base all’età e alle capacità del soggetto.

• Autism Diagnostic Interview (ADI)[93]: un’intervista strutturata condotta con i genitori degli individui di soggetti ritenuti potenzialmente autistici. L’intervista valuta le capaci- tà del soggetto nelle aree della interazione sociale, della comunicazione, del linguaggio e del comportamento.

• Vineland Global Score (VIN)[94]: le scale Vineland valutano l’autonomia personale e la responsabilità sociale degli individui dai 6 ai 60 anni, attraverso un’intervista semistrut- turata rivolta ai genitori e più in generale a coloro che si occupano del soggetto. Possono essere impiegate per la valutazione sia di normodotati sia di soggetti con disabilità cognitiva e permettono di individuare punti di forza e di debolezza del soggetto in specifiche aree del comportamento adattivo.

• Full-scale Intelligence Quotient (FIQ)[95]: fornisce una misura del livello generale delle abilità cognitive e del funzionamento intellettivo del soggetto.

Le analisi eseguite e gli AUC ottenuti sono riassunti in tabella 12.1. Tali valori sono il risultato di analisi in cross-validazione basati sull’addestramento di 80 classificatori con diversa composizione in addestramento e 10 pazienti in validazione per ogni classe. Come precedentemente sottolineato, l’analisi è stata effettuata seguendo le modalità corrette definite

78 12Confronto tra le prestazoni di classificazione secondo il DSM4 e il DSM5

nel corso di questa tesi, quindi i soggetti in addestramento sono stati selezionati in modo che per ogni paziente appartenente ad una classe ne esista il corrispettivo per età e modalità di acquisizione (per quanto riguarda il sesso invece l’analisi è stata limitata ai soli soggetti maschili). Gli algoritmi utilizzati sono LR e SVM e il dataset adottato contiene solo feature non normalizzate. La stratificazione in base agli indicatori è stata eseguita separando i soggetti DSA in tre categorie, dove H, M, e L indicano rispettivamente un punteggio alto, medio e basso dell’indicatore in esame. Le suddivisioni dei punteggi sono state effettuate in modo da massimizzare il numero di pazienti che appartenesse a tali categorie.

I risultati mostrano che:

• Utilizzando le definizioni del DSM-IV, si raggiungano AUC sensibilmente migliori rispetto a quelle del DSM-V, anche considerando la possibilità di stratificare il dataset utilizzando i criteri di severità descritti in precedenza, con l’unica eccezione dei soggetti aventi un FIQ elevato, i quali sono distinti dai controlli con un AUC di 0.66 nel caso del classificatore LR.

• I soggetti DGS-NAS risultano nettamente distinguibili rispetto a tutte le altre categorie, con performance sensibilmente superiori alla media (AUC di 0.77 e 0.82).

• Le prestazioni dei due metodi di classificazione sono simili tra loro, a conferma della stabilità del risultato.

• La deviazione standard vale generalmente circa 0.05, un valore alto, ma principalmente dovuto all’esiguo numero di soggetti disponibili e dunque alla possibilità che il risul- tato cambi notevolmente in base alla composizione del dataset di addestramento e validazione.

12.2

Calcolo del P-Value

Dei risultati più interessanti è stato calcolato il p-value, per testarne la significatività. Per ogni classificatore da valutare, sono stati calcolati 4000 AUC (ottenuti mediando 80 risultati differenti) attribuendo ai soggetti classi casuali. I risultati sono riportati in Tab. 12.2. Come descritto nelle capitolo 5, quando il p-value risultava troppo piccolo (inferiore a 1/4001) è stato stimato dalla gaussiana che meglio approssima la distribuzione degli AUC ottenuti durante gli addestramenti casuali (Fig. 12.1).

La presenza di alcuni valori di p-value uguali a 0 (o meglio indistinguibili da 0 con la precisione di macchina) dimostra la assoluta rilevanza dei risultati ottenuti, in particolare di quelli basati sulla categoria DGS-NAS.

§12.2 − Calcolo del P-Value 79

Figura 12.1:Esempio di un fit di una distribuzione di AUC (Autistici vs Controlli, DSM-IV) per il calcolo del p-value.

Figura 12.2:Valore dell’AUC del classificatore che distingue DGS-NAS e controlli, a confronto con quelli ottenuti durante il test del p-value.

80 12Confronto tra le prestazoni di classificazione secondo il DSM4 e il DSM5

12.3

Estrazione dei biomarcatori

Tra i classificatori che hanno ottenuto un buon AUC confermati da un p-value sufficiente- mente basso spiccano quelli che si sono basati sulle definizioni del DSM-IV e in particolare quelli che coinvolgono le categorie di DA e DGS-NAS.

Per tali classificatori sono state estratte le feature più importanti, utilizzando la statistica di Wald (cioè il calcolo della quantità β2j2βj, dove βj è il coefficiente della j-esima feature nel modello del classificatore LR e σβj è l’errore su tale coefficiente).

Si noti che negli algoritmi di Machine Learning le distribuzioni delle feature vengono prima trasformate in distribuzioni a media nulla e deviazione standard uguale a 1, pertanto i coeffi- cienti delle varie grandezze sono comparabili tra loro. Inoltre è importante osservare che una analisi di regressione propriamente condotta richiede almeno tanti punti (soggetti in questo caso) quanto è la dimensionalità dello spazio n (numero di feature).

Pertanto, dal momento che le feature sono 420 e spesso i pazienti in addestramento non sono altrettanti, il software Mathematica esegue prima un’operazione di riduzione della dimen- sionalità dello spazio delle feature, utilizzando una opportuna matrice di riduzione Mn×n0, dove n0 rappresenta la dimensionalità dello spazio ridotto. I coefficienti βj vengono quindi calcolati nel nuovo spazio, pertanto il vettore dei coefficienti delle feature è dato da: M~β.

Classe 1 Classe 2 LR AUC (media±std) SVM AUC (media±std)

DSM-V DSA Controlli 0.59±0.04 0.58±0.04 VinL Controlli 0.50±0.05 0.45±0.06 VinM Controlli 0.57±0.04 0.55±0.03 VinH Controlli 0.58±0.05 0.57±0.04 FIQL Controlli 0.58±0.04 0.54±0.06 FIQM Controlli 0.60±0.06 0.68±0.05 FIQH Controlli 0.66±0.04 0.64±0.04 ADIL Controlli — — ADIM Controlli — — ADIH Controlli 0.59±0.03 0.60±0.03 ADOSL Controlli — — ADOSM Controlli — — ADOSH Controlli 0.59±0.04 0.61±0.05 DSM-IV DA Controlli 0.63±0.02 0.64±0.03 DA SA 0.61±0.03 0.60±0.03 DA DGS-NAS 0.80±0.03 0.77±0.04 SA Controlli 0.51±0.06 0.55±0.05 SA DGS-NAS 0.82±0.04 0.79±0.04 DGS-NAS Controlli 0.82±0.03 0.77±0.05

Tabella 12.1:Analisi condotte; quelle segnate con ”—” sono risultate impossibili poiché non c’erano siti che avessero acquisito dati di entrambe le classi.

§12.3 − Estrazione dei biomarcatori 81

Classe 1 Classe 2 LR p-value SVM p-value

DSM-V FIQL Controlli 7×10−4 8×10−4 FIQM Controlli 2×10−5 1×10−5 FIQH Controlli 4×10−11 7×10−11 DSM-IV DA Controlli 1×10−7 2×10−6 DA SA 2×10−7 1×10−7 DA DGS-NAS 0 0 DA Controlli 0.3 0.5 SA DGS-NAS 0 0 DGS-NAS Controlli 0 0

Tabella 12.2:P-Value dei classificatori più importanti.

Le feature più rilevanti individuate in questo modo sono :

• Per il classificatore DA vs Controlli: grandezze di volume, area e curvatura delle regioni corticali "Pericalcarine", "Paracentral" e "Postcentral".

• Per il classificatore DGS-NAS vs Controlli: grandezze relative alla superficie di alcune regioni corticali come "Inferiorparietal", "Lateral-Orbitofrontal" e "Middle-Temoral" e grandezze volumetriche delle regioni sottocorticali "CC-posterior", "Right-Choroid- Plexus", "Left-Pallidum" e "Left-Caudate".

• Per il classificatore DGS-NAS vs DA sono presenti feature miste tra quelle trovate per i precedenti due classificatori

Come si può osservare le due categorie diagnostiche presentano feature caratterizzanti diverse e questi risultati erano già stati evidenziati in letteratura.[96]

Parte IV

Conclusioni

CAPITOLO

13

Conclusioni e prospettive

13.1

Conclusioni

In questa tesi, seguendo il modello di lavoro dello Knowledge Discovery in Databases (KDD), sono stati valutati gli aspetti procedurali più comuni delle analisi sull’estrazione di biomarcotori dell’Autismo.

Il lavoro di documentazione e di analisi svolto nei primi due passaggi del processo, che prevedono di comprendere l’ambito di applicazione del problema e di selezionare i dati da analizzare, ha dimostrato che molte grandezze estratte con le versioni precedenti del software di segmentazione Freesufer sono affette da numerosi errori.

Questo significa che è necessario approfondire l’indagine dei dati del database ABIDE (ben- ché largamente esplorati), in quanto gli strumenti di segmentazione hanno oggi prestazioni nettamente migliori. Nonostante i miglioramenti tuttavia è ancora importante fare un’attenta selezione delle feature da includere nell’analisi.

In particolare le grandezze che per essere misurate richiedono di individuare i confini del fluido cerebrospinale possono essere affette da significativi errori. Scegliere poi una grandez- za stimata e non misurata, come l’eTIV, per normalizzare i dati può avere effetti importanti sull’analisi statistica condotta, in quanto l’incertezza legata a tale grandezza viene diffusa su tutto il vettore delle feature che rappresenta il soggetto.

Inoltre l’analisi dei dati estratti da Freesufer ha mostrato che le misure di curvatura presenta- no forti variazioni nel campione, soprattutto nelle precedenti versioni dell’algoritmo, ma in misura minore anche nell’ultima. Questo non significa necessariamente che tali grandezze siano da rigettare, ma è bene tenere in considerazione questo fatto nell’interpretazione di biomarcatori trovati in letteratura che coinvolgono solo queste quantità.

L’analisi degli outlier ha invece dimostrato che il semplice criterio visivo di esclusione dei dati, su cui si basano molti studi, non è sufficiente e che è sempre necessario effettuare un’analisi matematica sul campione. Infatti è stato verificato che il 16% dei soggetti ritenuti da scartare avrebbero superato l’ispezione visiva.

86 13Conclusioni e prospettive

Le analisi preliminari, previste nello step 6 del KDD, volte alla determinazione delle miglior condizioni di utilizzo degli algoritmi di Machine Learning hanno portato a numerosi risultati:

• Per riuscire ad estrarre un pattern di riconoscimento tra la classe dei soggetti di controllo e quella dei soggetti con Autismo che rappresenti effettivamente un biomarcatore del disturbo è necessario che i soggetti utilizzati nella fase di addestramento risultino omogenei rispetto ad alcuni parametri confondenti. Essi sono, in ordine di importanza decrescente: i parametri di acquisizione dei dati, l’età e il sesso. In particolare, la dipendenza dei dati dalle modalità di acquisizione RMN è molto significativa e questo pone dei dubbi sulla validità della maggior parte degli studi multisito.

• Caratteristiche quali il QI o la mano di preferenza (destra o sinistra) dei soggetti in esame non costituiscono parametri confondenti per questo tipo di analisi.

• Le normalizzazioni dei dati effettuate in questa tesi (tra cui quella più comune in questo ambito di studi) non sono state in grado di eliminare le differenze dovute al sesso e all’età dei soggetti. Dato che tali procedure non permettono di ottenere il risultato per cui sono state implementate sono da evitare, infatti le operazioni matematiche svolte sul campione fra diverse grandezze affette da errore, in questo caso, aumentano solo il rumore nel dataset.

• Gli algoritmi Support Vector Machine e Logistic Regression sono particolarmente adatti allo studio del problema dell’Autismo e permettono di ottenere performance di classificazione migliori rispetto agli altri algoritmi di Machine Learning testati. Questo può significare che la natura del problema sia la stessa per tutte le diverse manifestazioni del disturbo anche se potrebbero coinvolgere regioni cerebrali differenti.

Infine i classificatori addestrati tenendo conto dei risultati ottenuti nei vari step del KDD, hanno permesso di stabilire che, ad eccezione della categoria SA, suddividere il campione secondo le definizioni del DSM-IV dà risultati migliori, per quanto riguarda la separabilità tra casi e controlli, rispetto all’utilizzo dell’unica categoria diagnostica del DSM-V (vedi Tabella 13.1). Anche stratificando i soggetti DSA per alcuni descrittori di severità gli AUC ottenuti restano modesti. Al contrario addestrando a distinguere tra le varie definizioni del DSM IV si ottengono buone performance.

Questi risultati supportano in modo quantitativo quanto finora sostenuto solo in linea teorica da alcuni psichiatri[29]e supposto da alcuni data analyst sulla base però di revisioni della letteratura[41], ossia che l’adozione del DSM-V nella ricerca sul neuroimaging possa rappresentare un ostacolo più che una risorsa, in quanto raggruppa manifestazioni che possono avere cause biologiche differenti.

La diversità neuroanatomica del disturbo è inoltre supportata dai risultati estratti in questa tesi dai classificatori addestrati secondo le categorie diagnostiche del DSM-IV. Infatti per le due classi di DA e DGS-NAS sono state trovate grandezze anatomiche caratteristiche differenti: risultati che sono stati oltretutto confermati da studi precedenti.

Il lavoro svolto in questa tesi ha dunque permesso di identificare numerose procedure non rigorose nelle analisi precedenti che possono essere alla base dell’enorme varietà di risultati trovati in letteratura sulla ricerca di biomarcatori dell’Autismo. L’analisi indiscriminata di soggetti acquisiti in siti diversi può aver portato a risultati di classificazione anche elevati, che però hanno scarso significato a livello clinico. Inoltre le analisi svolte hanno confermato che tra i vari aspetti che complicano questo tipo di studi vi è anche l’eterogeneità del disturbo, che va affrontato in ricerca stratificando il campione.

§13.2 − Prospettive 87

13.2

Prospettive

I risultati ottenuti in questa tesi hanno evidenziato nuove difficoltà nello studio neuroana- tomico dell’Autismo. Infatti per poter effettuare un’analisi corretta è necessario stratificare il database secondo diversi parametri e questo implica inevitabilmente ridurre la statistica dello studio.

Tuttavia questi risultati aprono la strada verso nuove linee di ricerca:

• Studiare da quali parametri di acquisizione dipendono i dati estratti con un algoritmo di segmentazione automatica. Questo potrebbe essere utile per stabile un protocollo di confrontabilità su cui basare la raccolta dati per la formazione di nuovi database di neuroimaging.

• Svolgere analisi longitudinali sulla dipendenza dei dati dall’età e dal sesso, in modo da trovare una funzione normalizzante che permetta di annullare tali differenze nei database.

• Applicare ai dati di neuroimaging nuovi metodi di apprendimento che permettano di estrarre informazione da poche registrazioni appartenenti a più classi e tante feature. Questi algoritmi sono chiamati Semi-supervised Multi-Label Learning e sono stati sviluppati nell’ambito della classificazione testuale che è caratterizzata proprio dalle stesse difficoltà.

Infine i risultati ottenuti in questa tesi evidenziano aspetti procedurali basati su falsi pre- supposti comuni nella maggior parte degli studi di neuroimaging (non solo nell’ambito dell’Autismo), che, se corretti, potrebbero portare giovamento su diversi fronti di ricerca.

Classe 1 Classe 2 LR AUC (media±std) SVM AUC (media±std)

DSM-V

DSA Controlli 0.59±0.04 0.58±0.04 DSA VinL Controlli 0.50±0.05 0.45±0.06 DSA VinM Controlli 0.57±0.04 0.54±0.03 DSA VinH Controlli 0.58±0.05 0.57±0.04 DSA FIQL Controlli 0.58±0.04 0.54±0.06 DSA FIQM Controlli 0.60±0.06 0.68±0.05 DSA FIQH Controlli 0.66±0.04 0.64±0.04

DSM-IV DA Controlli 0.63±0.02 0.64±0.03 DA SA 0.61±0.03 0.60±0.03 DA DGS-NAS 0.80±0.03 0.77±0.04 SA Controlli 0.51±0.06 0.55±0.05 SA DGS-NAS 0.82±0.04 0.79±0.04 DGS-NAS Controlli 0.82±0.03 0.77±0.05

Parte V

Appendici

APPENDICEA

Risonanza magnetica nucleare

A.1

Fondamenti teorici

Nella descrizione dei fenomeni di Risonanza Magnetica Nucleare (RMN) si dovrebbe usare il formalismo della meccanica quantistica, ma poiché nei sistemi macroscopici a spin 12 le predizioni del modello classico sono in accordo con quelle della teoria quantistica e dato che il segnale di RMN proviene principalmente dai nuclei di H (che hanno spin semintero), è possibile una trattazione più semplice.

Nel modello classico lo spin del nucleo atomico viene descritto come un momento ma- gnetico, rappresentato da un vettore #»µ.

Quando un nucleo atomico viene immerso in un campo magnetico uniforme e costanteB# »0, che per semplicità si suppone diretto lungo l’asse z, #»µ risente di una coppia di forze data

da #»τ = #»µ ×B# »0, che lo fa precedere attorno alla direzione delle linee di campo diB# »0 con frequenza angolareΩ0(nota come frequenza di Larmor).

Tale frequenza dipende solo dal tipo di nucleo e dall’intensità diB# »0:

Ω0= γB0 (A.1.1)

Dove γ è il fattore giromagnetico caratteristico del nucleo atomico.

Il verso di #»µdurante la precessione può essere concorde o opposto a quello diB# »0, tuttavia per la legge di distribuzione di Boltzmann, se si considera un volume di materia composto da tanti nuclei immersi in un campo uniforme, si osserva un eccesso di vettori allineati in modo concorde aB# »0.

Questo fa sì che la somma dei diversi #»µ dia una magnetizzazioneM con componente longitu-# »

dinale Mz = M0diversa da zero dunque misurabile, il cui modulo è proporzionale all’eccesso di spin paralleli e al campo applicato.

Mentre, dato che gli spin dei diversi nuclei non precedono in fase, la somma dei loro momenti trasversali è nulla, ossia Mx =My =0.

92 ARisonanza magnetica nucleare

Per rilevareM occorre perturbare il sistema dal suo stato di equilibrio.# »

Questo nella RMN viene effettuato applicando un secondo campo magnetico B# »1 perpen- dicolare aB# »0rotante attorno ad esso alla frequenzaΩ0 in modo da avere un fenomeno di risonanza.

In questo modo si ottengono due effetti:

• Il vettore di magnetizzazione M inizia a precedere attorno all’asse del campo# » B# »1 e questo si manifesta in una sincronizzazione della precessione lungo l’asse z.

Quindi dato che vengono portati in fase gli spin del mezzo, si forma una componente trasversa del vettore di magnetizzazione non nulla: Mxy = Mxy0.

• Si provoca la transizione di alcuni nuclei di H, mediante assorbimento di energia dal campo oscillante, dallo stato di spin parallelo a quello antiparallelo (che infatti è a energia maggiore), con conseguente diminuzione della magnetizzazione Mz.

Quando viene fatta terminare la perturbazione dovuta aB# »1, i nuclei si rilassano, tornando allo stato orginale, e questo avviene in due fasi, dette:

• Rilassamento trasversale, • Rilassamento longitudinale.

Il rilassamento trasversale è causato dalla perdita di coerenza tra gli spin. In pratica, non essendoci più il campo trasverso B# »1, gli spin che precedono attorno all’asse z iniziano a sfasarsi, causando una diminuzione del modulo di Mxy0 fino alla sua scoparsa.

Il recupero della componente trasversale segue una curva esponenziale, caratterizzata da una costante di tempo T2specifica del tessuto:

Mxy = Mxy0e

−t

T2 (A.1.2)

Nel caso in cui B0 non fosse perfettamente omogeneo a causa o di disomogeneità locali del campo stesso, o di differenze puntuali di suscettività magnetica dovute per esempio a specifiche interazioni molecolari nel sistema, la frequenza di precessione dei nuclei viene a dipendere anche dalla posizione che essi occupano rispetto a tali disomogeneità locali. Dunque, ogni pacchetto di spin precede ad una sua velocità nei diversi punti del campione, sfasandosi di fatto rispetto agli altri. In questo caso, si osserva un decadimento di Mxypiù rapido di quello che ci si aspetterebbe dal solo rilassamento spin-spin, dovuto al minore ordine del sistema. Questo fenomeno è considerato nella costante di tempo T2∗.

Il rilassamento longitudinale è dovuto allo scambio di energia tra gli spin e il reticolo che li circonda (rilassamento spin-reticolo), che diseccita alcuni stati antiparalleli del materiale, emettendo radiofrequenze nel reticolo circostante.

A seguito di questa diseccitazione si osserva un aumento del modulo di Mz.

Anche questo processo è descritto da una curva esponenziale, caratterizzata da una costante T1specifica del materiale e dipendente da M0(dunque anche dall’intensità del campo B0):

Mz = M0(1−e −t

T1) (A.1.3)

Il rilassamento trasversale è più veloce del rilassamento longitudinale, pertanto T2(o T2∗) è sempre più piccolo di T1.

Quindi la RMN si basa sulla rilevazione delle variazioni del modulo diM# »(t)quando viene spentoB# »1, da cui si possono trarre delle informazioni sulla composizione in Idrogeno del tessuto.

§A.2 − Principi di imaging 93

A.2

Principi di imaging

Documenti correlati