• Non ci sono risultati.

Analisi di immagini biomediche per la ricerca di biomarcatori del Disturbo dello Spettro Autistico

N/A
N/A
Protected

Academic year: 2021

Condividi "Analisi di immagini biomediche per la ricerca di biomarcatori del Disturbo dello Spettro Autistico"

Copied!
122
0
0

Testo completo

(1)

Dipartimento di Fisica "Enrico Fermi"

Corso di laurea magistrale in Fisica Medica

Tesi di laurea

Analisi di immagini biomediche per la

ricerca di biomarcatori del Disturbo

dello Spettro Autistico

Relatori: Candidato:

Dott.ssa Maria Evelina Fantacci Elisa Ferrari Dott.ssa Alessandra Retico

(2)
(3)

La scienza è fatta di dati, come una casa di pietre. Ma un ammasso di dati non è scienza più di quanto un mucchio di pietre sia una casa. Henri Poincaré

(4)
(5)
(6)

iv

Sommario

In questa tesi è stato studiato il controverso problema della ricerca di un biomarcatore neuroanato-mico dell’Autismo attraverso l’analisi di immagini cerebrali cliniche acquisite mediante Risonanza Magnetica Nucleare (RMN). Nonostante i numerosi sforzi e i diversi approcci esplorati, questo genere di studi non ha ancora portato ad un risultato significativo e condiviso.[1,2,3,4,5]

In questa tesi sono state dunque esaminate le metodologie di analisi dei dati di RMN basate su tecniche di Machine Learning, con riferimento sia alle assunzioni alla base, che al dettaglio implementativo. Generalmente tali analisi si articolano in tre passaggi: (i) raccolta e selezione delle immagini, (ii) segmentazione ed estrazione di grandezze neuroanatomiche e loro normalizzazione, (iii) utilizzo di algoritmi di Machine Learning per l’individuazione di un pattern di riconoscimento che permetta di distinguere i dati degli individui sani da quelli dei soggetti affetti da Autismo.

Tuttavia non vi è accordo sulle scelte procedurali di questi step, che sono stati implementati in modi diversi, spesso senza verificare l’efficacia dell’approccio scelto.

Le analisi svolte in questa tesi dimostrano che alcune delle più comuni pratiche, in questo settore, si basano su presupposti sbagliati e possono dunque condizionare il risultato dello studio; in particolare: • Il tipico criterio di selezione dei dati, che si basa su una ispezione visiva delle immagini di RMN[6]è insufficiente, in quanto non è in grado di valutare la bontà delle grandezze estratte dopo la segmentazione. Si è infatti verificato che il 16% dei soggetti, che a seguito del processo di segmentazione automatica presentava valori anomali, aveva originariamente immagini di buona qualità.

• Le grandezze estratte con lo strumento di analisi e segmentazione cerebrale più utilizzato in letteratura, Freesufer[7], presentano una forte dipendenza dallo scanner e dai parametri di acquisizione. Infatti gli algoritmi di Machine Learning riconoscono con maggiore precisione i soggetti acquisiti con modalità differenti rispetto ai soggetti di diverso sesso.

Questo mette in discussione la validità dei risultati ottenuti in studi multi-sito.

• Il metodo di normalizzazione più comune delle grandezze cerebrali[8], volto a eliminare la dipendenza dei dati dall’età e dalla dimensione del cranio, non è efficace e quindi aggiunge solo rumore nel campione.

Dopo aver identificato le procedure scorrette e definito una adeguata metodologia di indagine se-guendo i principi dello Knowledge Discovery in Databases (KDD)[9], sono state stimate le prestazioni di classificazione tra soggetti sani e affetti da Autismo.

Questa analisi è stata effettuata dapprima utilizzando la definizione corrente del disturbo, descritta nella quinta edizione del Manuale Diagnostico e Statistico dei Disturbi Mentali (DSM)[10], ossia quella di "Disturbi dello Spettro Autistico" (DSA). Poi è stata ripetuta dividendo i soggetti nelle categorie diagnostiche identificate nella precedente edizione del DSM, in cui i DSA erano suddivisi in tre classi più omogenee: "Disturbo Autistico" (DA), "Sindrome di Asperger" (SA) e "Disturbo Pervasivo (Generalizzato) dello Sviluppo Non Altrimenti Specificato" (DGS-NAS).

Il classificatore addestrato a distinguere i soggetti sani dai DSA raggiunge una modesta performance di riconoscimento del 59%, utilizzando come misura l’indicatore noto come AUC (che sta per Area Under the Receiver Operating Characteristic Curve). Quando invece vengono usate in addestramento le categorie diagnostiche di DA e DGS-NAS si ottengono rispettivamente AUC del 63% e del 82%. Gli individui affetti da SA, invece, non sono risultati statisticamente distinguibili dai soggetti sani. Riassumendo, in questa tesi è stata dimostrata la presenza di alcune fonti di errore nelle procedure comunemente utilizzate per l’analisi delle neuroimmagini che possono aver contribuito all’incon-sistenza tra i risultati presenti in letteratura. Inoltre, sulla base della nuova metodologia di ricerca, introdotta in questo elaborato, è stato dimostrato che anche l’eterogeneità del disturbo ha un effetto confondente sull’analisi. I risultati ottenuti forniscono un punto di partenza quantitativamente conso-lidato e fondamentale per indirizzare gli studi futuri, che dovranno essere orientati verso la ricerca di categorie diagnostiche meglio caratterizzabili dal punto di vista neuroanatomico.

Keyword: Disturbi dello Spettro Autistico, Machine Learning, Knowledge Discovery in Databases, Neuroimaging.

(7)

v

Abstract

In this thesis, the problem of the research of a neuroanatomical biomarker for Autism with Nuclear Magnetic Resonance (NMR) brain images has been studied. Despite the efforts put and the various approaches tried, this kind of studies still has not reported a meaningful and shared result[1,2,3,4,5]. In this thesis it has been therefore examined the methodologies of analysis of NMR data based on Machine Learning techniques, both in their basic assumptions and in their implementation.

Usually, these analyses are structured in three steps: (i) image gathering and selection, (ii) brain segmentation, extraction of neuroanatomical parameters and their normalization, (iii) use of Machine Learning algorithms to detect a recognizing pattern between data of healthy subjects and those with Autism. However there is not a shared agreement regarding how these steps are actually implemented. In fact often each study follows different rules, frequently without verifying the effectiveness and correctness of the approach chosen. The analyses conductedIt showed that the most common practices in this sector are based on wrong assumptions and can therefore influence the result of the study. In particular:

• The typical criterion of data selection, based on visual inspection of NMR data[6]is insufficient, since it is not able to assess the goodness of the anatomical quantities extracted after the brain segmentation. In fact it has been verified that 16% of subjects that after the segmentation process had anomalous values actually had good NMR images.

• The quantities extracted with the most used segmentation tool in literature, Freesurfer[7], are characterized by a strong dependence on the NMR scanner and its parameters set for the acquisition. In fact, Machine Learning algorithms recognize subjects acquired with different scanner parameters better than males and females.

This finding severily questions the validity of multi-site studies.

• The most common normalization method of brain quantities[8], usually done in order to eliminate the dependency of the data from age and skull dimensions, is not effective and therefore only adds noise to the data.

After having identified the incorrect procedures and defined an adequate analysis methodology following the principles of Knowledge Discovery in Databases (KDD)[9], the performances of the classifi-cation of healthy and Autistic subjects have been assessed.

This analysis has been done first using the current definition of the disease of Autism Spectrum Disorders (ASD), described in the fifth edition of the Diagnostic Statistical Manual of Mental Disorders (DSM)[10]. Then, the same analysis has been repeated dividing the subjects in the diagnostic categories identified in the earlier DSM version, in which ASD subjects were divided in three more homogeneous classes: Autism Disease (AD), Asperger Syndrome (AS) and Pervasive Developmental Disorder, Not Otherwise Specified (PDD-NOS).

The classifier trained to recognize healthy subjects from ASDs reaches a modest performance of 59% (measured with AUC: Area Under the Receiver Operating Characteristic Curve). If instead the diagnostic categories of AD and PDD-NOS are used, performances go up to 63% and 82% AUC respectively. The AS subjects have not been found to be statistically distinguishable from healthy individuals.

In conclusion, in this thesis the existence of numerous sources of errors has been shown in the most common procedures used for neuorimages analysis. These errors may have contributed the inconsis-tency between the results available in literature. Furthermore, based on the new research methodology described in this work, it has been shown that the etherogeneity of the disease have a detrimental effect on the analysis. The obtained results, are a quantitatively consolidated starting point to direct future studies, that must be oriented towards the investigation of new diagnostic categories, better characterizable from the neuroanatomical point of view.

Keywords: Autistic Spectrum Disorders, Machine Learning, Knowledge Discovery in Databases, Neuroimaging.

(8)
(9)

Indice

Indice vii

Elenco degli acronimi xi

Introduzione 1

I Contesto di ricerca 7

1 Autismo: dalla ricerca alla clinica 9

1.1 Informazioni introduttive sull’Autismo . . . 9

1.1.1 Diagnosi e prognosi . . . 9

1.1.2 Storia dell’Autismo . . . 10

1.1.3 Complicazioni nella ricerca . . . 10

1.1.4 Possibili cause e linee di ricerca . . . 11

1.2 Le neuroimmagini strutturali nella ricerca sull’Autismo . . . 12

1.2.1 Le tecniche di indagine . . . 12

1.2.2 I risultati in letteratura . . . 14

1.3 Studi di neuroimaging: quali categorie diagnostiche usare? . . . 15

2 Neuroimaging con Risonanza magnetica nucleare 17 3 Algoritmi di segmentazione 19 3.1 Stato dell’arte . . . 19

3.2 Principali software di segmentazione neuroanatomica . . . 20

3.2.1 SPM . . . 20

3.2.2 Freesurfer . . . 22

II Metodi e materiali per la ricerca 23 4 Kwoledge Discovery in Databases (KDD) 25 4.1 Introduzione al KDD . . . 25

4.2 Descrizione del processo KDD . . . 26 vii

(10)

viii INDICE

5 Algoritmi di Machine Learning 29

5.1 Introduzione . . . 29

5.2 Classificatori supervisionati . . . 30

5.3 Metodi di valutazione delle performance di un classificatore . . . 31

5.3.1 AUC . . . 31 5.3.2 P-Value . . . 32 5.4 Algoritmi di ML utilizzati . . . 34 5.4.1 Random Forest . . . 34 5.4.2 Naive Bayes . . . 35 5.4.3 Nearest Neighbors . . . 36 5.4.4 Logistic Regression . . . 37

5.4.5 Support Vector Machine . . . 39

6 Analisi degli Outlier 45 6.1 Riconoscimento degli outlier . . . 46

6.1.1 Outlier univariati . . . 46

6.1.2 Outlier multivariati . . . 46

6.1.3 Conclusioni . . . 48

7 Variabilità dei dati cerebrali e Normalizzazioni 49 7.1 Importanza della normalizzazione . . . 49

7.2 Normalizzazioni . . . 49

III Analisi dati 51 8 Struttura dell’analisi 53 9 Scelta del database 55 9.1 Considerazioni preliminari su ABIDE I . . . 55

9.1.1 Problemi nei dati 5.1 . . . 56

9.1.2 Confronto dati ottenuti con Freesufer 5.1 e 6.0 . . . 58

9.2 Selezione delle feature . . . 61

10 Analisi degli outlier e preprocessamento dei dati 63 10.1 Outlier univariati . . . 63

10.1.1 Esame delle singole feature . . . 64

10.1.2 Definizione dei criteri di esclusione . . . 64

10.2 Outliers multivariati . . . 65

10.3 Conclusioni . . . 66

10.4 Normalizzazioni . . . 68

11 Analisi preliminari 71 11.1 Analisi dei Parametri Confondenti . . . 71

11.1.1 Procedura di match . . . 72

11.1.2 Analisi effettuata dei parametri confondenti . . . 72

11.2 Scelta della normalizzazione . . . 75

(11)

INDICE ix

12 Confronto tra le prestazoni di classificazione secondo il DSM4 e il DSM5 77

12.1 Addestramento dei classificatori e calcolo dell’AUC . . . 77 12.2 Calcolo del P-Value . . . 78 12.3 Estrazione dei biomarcatori . . . 80

IV Conclusioni 83

13 Conclusioni e prospettive 85

13.1 Conclusioni . . . 85 13.2 Prospettive . . . 87

V Appendici 89

A Risonanza magnetica nucleare 91

A.1 Fondamenti teorici . . . 91 A.2 Principi di imaging . . . 93 A.2.1 Sequenze di RMN comuni . . . 93

B Software di calcolo: Mathematica 99

B.1 Introduzione al Software . . . 99 B.2 Motivi per utilizzare Mathematica . . . 100

(12)
(13)

Elenco dei simboli

ADI Autism Diagnostic Interview.

ADOS Autism Diagnostic Observation Schedule. AI Intelligenza Artificiale.

AUC Area Under the Receiver Operating Characteristic Curve. CSF Cerebrospinal Fluid.

DA Disturbo Autistico.

DGS−N AS Disturbo Generalizzato (Pervasivo) dello Sviluppo Non Altrimenti Specificato. DSA Disturbi dello Spettro Autistico.

DSM Diagnostic Statistical Manual of Mental Disorders. FID Free induction recovery.

FIQ Full-scale Intelligence Quotient. FSL FMRIB Software Library.

ICBM International Consortium for Brain Mapping. ICV Intracranial Volume.

IR Inversion Recovery.

KKD Knowledge Discovery in Databases. LR Logistic Regression.

MAP Maximum a Posteriori. MB Materia Bianca.

MG Materia Grigia. ML Machine Learning.

MMC Mixture Model Clustering.

(14)

xii Elenco dei simboli

MN I Montreal Neurological Institute.

MRF−MAP Markovian Random Fields-Maximum a Posteriori. NB Naive Bayes.

NN Nearest Neighbors. QI Quoziente Intellettivo. RF Random Forest.

RMN Risonanza Magnetica Nucleare. ROC Receiver Operating Characteristic. ROI Region of Interest.

SA Sindrome di Asperger.

SPM Statistic Parametric Mapping. SV M Support Vector Machine. V I N Vineland global score.

(15)

Introduzione

Contesto di ricerca

L’Autismo è un disturbo del neurosviluppo che coinvolge abilità comportamentali, sociali e comunicative, i cui sintomi sono estremamente eterogenei in termini di complessità e gravità e presentano una espressività variabile nel tempo[11,12]. A causa dell’articolata sintomatologia clinica l’Autismo fu scoperto e riconosciuto come disturbo solo negli anni ’40[13]e ad oggi non se ne conoscono ancora le cause[14]nè esistono terapie risolutive[12,15].

Si tratta dunque di un disturbo ancora oggetto di studio, la cui definizione e i cui criteri diagnostici sono in continuo aggiornamento.

Attualmente la definizione adottata da clinici e ricercatori è quella descritta nella quinta ed ultima edizione del Manuale Statistico e Diagnostico dei Disturbi Mentali (DSM)[10]del 2013, in cui l’Autismo viene circoscritto all’interno di un’unica categoria generale detta “Disturbi dello Spettro Autistico” (DSA) assieme ad altri due disturbi del neurosviluppo di simile sintomatologia: la Sindrome di Asperger (SA) e il Disturbo Generalizzato (Pervasivo) dello Sviluppo Non Altrimenti Specificato (DGS-NAS).

La ricerca spazia attualmente su più fronti: genetico, psichiatrico e neurologico[5,16].

In particolare molti studi si focalizzano sull’analisi delle neuroimmagini di Risonanza Magne-tica Nucleare (RMN), in quanto tale tecnica di imaging, non utilizzando radiazioni ionizzanti, rappresenta uno strumento di analisi non invasivo e sicuro anche per i bambini, con il quale è dunque possibile studiare il cervello già agli esordi del disturbo[17], cioè durante il primo anno di vita[18].

L’obiettivo principale della ricerca basata sulle bioimmagini è individuare, tramite diversi strumenti di indagine statistica, le caratteristiche anatomiche cerebrali che contraddistinguo-no il disturbo, più precisamente dette ’biomarcatori’.

Gli studi vengono solitamente eseguiti secondo una procedura che è diventata ormai stan-dard in questo ambito: partendo dalle immagini cerebrali di RMN, vengono utilizzati degli algorimi di correzione del rumore e segmentazione del cervello per ricavare grandezze quantitative relative alle regioni anatomiche di interesse; solitamente poi si effettuano delle normalizzazioni per correggere le differenze dovute al genere, all’età o semplicemente alla fisiologica variabilità delle dimensioni della testa. Infine i dati ottenuti vengono analizzati con algoritmi di Intelligenza Artificiale (AI) per individuare la grandezza (biomarcatore univariato) o la combinazione di grandezze anatomiche (biomarcatore multivariato) che caratterizza il disturbo.

(16)

2 Introduzione

I biomarcatori individuati nei numerosi studi di questo tipo risultano spesso non signi-ficativi in quanto permettono di distinguere i soggetti affetti da Autismo rispetto ai sani con una precisione inferiore al 60%, mentre i pochi risultati positivi non sono stati replicati su campioni più ampi[1,2,3,4,5].

La mancanza di un risultato condiviso e accreditato dall’intera comunità scientifica può essere attribuita all’eterogeneità del disturbo[19]e alla mancanza di sufficienti dati per una analisi statistica effettiva[20]. Infatti molti studi vengono tutt’ora condotti solo a livello locale: la struttura ospedaliera che acquisisce le immagini si occupa anche della loro segmentazione ed analisi. Questa metodologia ha senz’altro il vantaggio di garantire una certa completezza e coerenza nella qualità dei dati: le acquisizioni vengono svolte con la stessa macchina, con le stesse modalità e il team di ricerca può sfruttare il contatto diretto con il paziente per ottenere informazioni fenotipiche funzionali al tipo di studio che intende svolgere.

Tuttavia data l’eterogeneità del disturbo, la difficoltà nell’effettuare una diagnosi tempestiva e nel reperire soggetti disponibili al trattamento dei propri dati a fini di ricerca, i singoli centri hanno spesso presentato studi basati su pochi soggetti, a volte con età e/o sintomatologie differenti.

Per superare tale limite sono nati diversi database internazionali (tra cui il più ampio è ABIDE[21]) che mettono a disposizione le immagini di RMN acquisite in più siti in tutto il mondo. Tuttavia anche analizzando campioni più grandi la ricerca sui biomarcatori continua a dare risultati non significativi, non replicabili o addirittura discordanti[1,2,3,4,5].

È evidente dunque che non vi siano differenze neuroanatomiche macroscopiche che ca-ratterizzano il disturbo. Alcuni studi avanzano l’idea che possano comunque esistere dei biomarcatori anatomici, seppur di debole entità, e che la loro ricerca sia ostacolata dal rumore introdotto nel confronto di dati acquisiti con differenti modalità di scansione RMN[22,23]e/o dall’ancora non ottimale esecuzione degli algoritmi di segmentazione[24,25,26].

Nonostante quanto riportato in letteratura sia poco incoraggiante, la ricerca neuroanato-mica è ancora molto attiva in quanto, rispetto agli altri approcci di analisi, la RMN è l’unica che permette di studiare quantitavamente gli esordi del disturbo.

Inoltre trovare un biomarcatore anatomico farebbe della RMN uno strumento di diagno-si eccellente e non invadiagno-sivo e la sua scoperta potrebbe poi indirizzare studi genetici più mirati.

Obiettivo

Questa tesi si colloca nel paradigma di ricerca appena descritto e si pone i seguenti obiettivi:

• Prendere in esame più soggetti rispetto ai precedenti studi, incorporando i dati della collezione ABIDE I[27]con quelli di ABIDE II[28](questi ultimi pubblici solo a partire da Marzo del 2017).

• Stabilire la miglior metodologia di indagine, sulla base dei principi dello Knowledge Discovery in Databases (KDD)[9], in modo che l’informazione estratta dai dati sia corretta e non dipenda dalla particolare tecnica di analisi adottata.

• Comprendere se il problema dell’identificazione di un biomarcatore sia stato reso più complesso dalla nuova definizione di Autismo descritta nel DSM-V, che raggruppa in un’unica categoria tre disturbi precedentemente considerati distinti.

Il lavoro descritto in questo elaborato rappresenta uno dei primi studi in cui sono stati analiz-zati tutti i 2156 soggetti del database ABIDE. Studiare un campione così ampio permette di

(17)

3

approfondire alcuni quesiti da sempre oggetto di dibattito, come la dipendenza dei dati dalle modalità di acquisizione, l’influenza che ha nell’analisi mescolare dati di soggetti con età, sesso e sintomatologie differenti e infine studiare quale sia la miglior normalizzazione che permette di eliminare tali differenze.

Conformemente al modello di lavoro KDD, teorizzato per estrarre correttamente informazio-ni da grandi moli di dati, sono stati valutati tutti questi aspetti al fine di affrontare nel più rigoroso dei modi il quesito che caratterizza questa tesi, ossia se nella ricerca sulla neuroa-natomia del disturbo sia più corretto utilizzare la moderna definizione di DSA o se invece risulti più efficacie individuare un biomarcatore distinto per le tre sottocategorie: Disturbo Autistico (DA), Sindrome di Asperger e DGS-NAS.

L’oggetto di questa tesi nasce da un importante articolo[29]del 2013, redatto poco dopo la pubblicazione del DSM-V, in cui viene chiarito che la decisione di riunire sotto un’unica etichetta tre diversi disturbi è dovuta alla presenza di sovrapposizioni tra le sintomatologie di questi ultimi che rende quindi più adatto, in ambito clinico, l’utilizzo del termine ’spettro’. Tuttavia viene inoltre affermato che in ricerca le tre manifestazioni dovrebbero essere studiate separatamente.

Tale articolo ha avuto una notevole risonanza in ambito psichiatrico ma è rimasto quasi sco-nosciuto tra gli informatici, matematici e fisici che si occupano effettivamente della analisi dei dati e perciò la maggior parte degli studi successivi al 2013 ha adottato la nuova definizione di DSA senza valutare l’impatto che tale cambiamento ha nella ricerca dei biomarcatori. La tesi dunque presenta notevoli elementi di novità: l’analisi di un database più ampio, un approccio al problema strutturato e basato sul KDD ed infine un nuovo quesito a cui rispondere.

Metodologia

La ricerca sui biomarcatori consiste fondamentalmente nell’identificazione di una re-golarità all’interno di una grande quantità di dati. Questo genere di studi, che interessa ormai numerose discipline, è nato solo di recente, dopo l’affermarsi degli algoritmi di AI e lo sviluppo tecnico ed informatico che ha reso possibile la nascita di grandi database open source. Si tratta dunque di un campo ancora poco regolamentato in cui le scelte metodologiche di ricerca si rifanno principalmente alla letteratura del medesimo ambito, più che ad una teoria generale. Tuttavia analizzare grosse moli di dati, indipendentemente dal dominio di applicazione, è un compito complesso in cui si rischia di estrarre informazioni che dipendono dall’approccio matematico scelto o che mettono in risalto risultati statisticamente irrilevanti[9]. Perciò si è sentita l’esigenza di stabilire un protocollo, abbastanza generale da adattarsi alle diverse discipline e alla diversa natura dei dati e allo stesso tempo abbastanza rigoroso da impedire di incappare in errori statistici e interpretativi. Tale protocollo ha il nome di Knowledge and Discovery in Databases[9]e si tratta sostanzialmente di un elenco di passaggi progettuali e metodologici che mettono in evidenza i punti necessari per una corretta analisi. In questo elaborato, seguendo la guida suggerita dal KKD, vengono analizzati e confrontati diversi approcci al problema della ricerca dei biomarcatori in modo da stabilire quali proce-dure possono alterare i risultati. Tra gli aspetti più studiati spiccano: la selezione dei dati, la scelta del tipo di normalizzazione, dell’algoritmo di AI e dei parametri ad esso connessi. La maggior parte degli studi adotta come criterio di esclusione dei dati una valutazione visiva del grado di rumore presente nell’immagine originale di RMN, dovuta per esempio al movimento del paziente durante la scansione[6]. Tale criterio tuttavia, dato che viene applicato prima della segmentazione dell’immagine, non è in grado di esculdere i soggetti in

(18)

4 Introduzione

cui l’algoritmo fallisce il riconoscimento delle varie strutture nonostante la qualità delle im-magini di partenza fosse buona. Per far fronte a tale problema viene qui proposta una tecnica automatica di identificazione dei soggetti con grandezze anomale post-segmentazione. In questo tipo di analisi, definita ’Analisi degli outlier’, è fondamentale valutare correttamente i criteri che definiscono una grandezza come anomala e in tale elaborato vengono documen-tate e motivate tutte le scelte adotdocumen-tate.

Un’altra procedura esaminata in questa tesi è la normalizzazione delle grandezze cere-brali. Negli studi sull’Autismo, infatti, la modesta quantità di soggetti disponibili per l’analisi rende necessario il confronto tra dati di persone con età anche molto differenti, questione che viene spesso affrontata con una normalizzazione lineare, che consiste nel dividere i volumi delle strutture cerebrali con il valore del volume totale del cervello[8].

Questa operazione, tuttavia, introduce necessariamente rumore nel database in quanto si tratta di una divisione tra due grandezze affette da errore: per non risultare dannosa deve quindi riuscire ad annullare davvero tutte le differenze dovute all’età. Tuttavia nessuno studio ha mai dimostrato l’efficacia di tale normalizzazione.

In questa tesi vengono studiati gli effetti di questa pratica e viene proposto un nuovo metodo di normalizzazione. Di entrambi poi viene discussa l’efficacia e l’impatto complessivo nell’a-nalisi.

Infine sono stati studiati diversi algoritmi di AI, per capire quale fosse il più adatto a questa analisi. In letteratura l’approccio privilegiato è quello dei classificatori supervisionati[30]. In pratica si utilizzano degli algoritmi chiamati Machine Learning (in italiano ’algoritmi ad apprendimento automatico’) che vengono addestrati a distinguere due classi di oggetti sulla base di alcune grandezze, dette feature, che li rappresentano.

Per esempio, nel caso in questione, a tali algoritmi vengono fornite diverse grandezze ce-rebrali dei soggetti in esame: per ogni sequenza di feature viene insegnato all’algoritmo se tale pacchetto di dati rappresenta un soggetto sano o uno affetto da Autismo. Al termine di questa fase, detta ’addestramento’, l’algoritmo individua una logica per riconoscere le due categorie di soggetti.

Per testare l’efficacia del pattern di riconoscimento stimato si fornisce in input al classificatore una nuova sequenza di feature senza indicarne la classe di appartenenza e, se l’algoritmo ha imparato con successo a distinguere le due classi, esso attribuirà tale pacchetto di dati alla giusta categoria.

I metodi supervisionati sono generalmente preferiti per affrontare gli studi, come quelli sui biomarcatori, in cui non si conosce esattamente la natura del problema ed è difficile scegliere correttamente le feature da analizzare; quindi anche in questo elaborato si è optato per tale scelta.

Tuttavia uno dei più grossi limiti di questo approccio è l’impossibilità di capire se la logica in-dividuata dall’algoritmo rispecchia effettivamente il tipo di differenza che si intende studiare. Per esempio, se nel campione in analisi i soggetti sani sono tutti più anziani di quelli affetti da Autismo, non è possibile stabilire se il classificatore ha imparato a distinguere l’età o lo stato di salute. Al di là di questo esempio banale, possono esserci situazioni più complesse in cui non entra in gioco la totalità di una classe ma solo una certa percentuale oppure in cui le caratteristiche ’confondenti’ possono essere più di una.

In questa tesi, dunque, vengono effettuate diverse analisi per decidere: quale tipo di al-goritmo è il più adatto a trovare un biomarcatore dell’Autismo e quali sono le caratteristiche del campione che bisogna controllare affinché il classificatore impari effettivamente a distin-guere tra diverse condizioni mediche. In particolare grande attenzione è posta alla questione

(19)

5

della dipendenza dei dati dalla metodica di acquisizione RMN e a quali sono i risvolti di tale dipendenza in una analisi supervisionata.

Gli studi metodologici sono in realtà il vero elemento di novità e interesse di questo elaborato, infatti solo questa sequenza di analisi assicura l’affidabilità dei risultati ottenuti nell’indagine finale, volta a stabilire se il problema dell’identificazione di un biomarcatore sia stato reso più complesso dall’attuale definizione di DSA.

Organizzazione dei contenuti

La tesi si articola in 4 macrosezioni e 2 appendici.

Nella parte I viene descritto il contesto di ricerca dei biomarcatori dell’Autismo.

Si tratta di una introduzione necessaria a chi non è del settore ad inquadrare le problematiche e a comprendere le fasi di acquisizione e di preprocessamento dei dati che precedono l’analisi svolta in questa tesi. Dopo un primo capitolo riassuntivo sul caso clinico, sugli approcci di ricerca più comuni e sui risultati presenti in letteratura, seguono due brevi capitoli sulla RMN e sugli algoritmi di segmentazione delle neuroimmagini.

Nella parte II viene invece spiegata la teoria necessaria alla comprensione dell’analisi dei dati descritta nella parte III. In questa sezione vengono quindi chiariti i punti salienti del KDD e descritti gli algoritmi di Machine learning utilizzati in questa tesi. Infine negli ultimi due capitoli della sezione vengono spiegate alcune tecniche di normalizzazione dei dati e di riconoscimento degli outlier.

Nella parte III della tesi viene descritta l’analisi dei dati.

La struttura di questa sezione segue lo schema del KDD, in cui ogni capitolo rappresenta uno dei passaggi del protocollo. I capitoli sono dunque autoconclusivi: partono dagli accorgimenti tecnici di implementazione e terminano con il risultato parziale ottenuto; in modo che come suggerito dalla teoria, l’analisi dei dati sia dinamica, non vincolata, e dopo ogni passaggio si decida come procedere oltre. Dunque dopo un primo capitolo di introduzione e definizione dei contenuti, dal capitolo 9 all’11 si susseguono tutte le analisi preliminari che portano alla definizione della corretta metodologia da utilizzare nello studio finale descritto nel capitolo 12. Quest’ultimo dedicato a stabilire l’impatto della definizione di DSA sulla ricerca dei biomarcatori e a valutare la robustezza dei risultati ottenuti.

La parte IV è dedicata alle conclusioni, che includono sia una sintesi dei risultati ottenuti nelle varie fasi del KDD e nella analisi finale, sia la proposta di nuovi temi e tecniche da esplorare nei prossimi studi.

Infine, nelle appendici ci sono due approfondimenti sulla Risonanza Magnetica Nucleare e sul software di calcolo utilizzato per le analisi: Mathematica.

(20)
(21)

Parte I

Contesto di ricerca

(22)
(23)

CAPITOLO

1

Autismo: dalla ricerca alla clinica

1.1

Informazioni introduttive sull’Autismo

1.1.1 Diagnosi e prognosi

L’Autismo è un disturbo cronico del neurosviluppo estremamente eterogeneo che coin-volge sostanzialmente abilità sociali, verbali e comunicative, caratterizzato da ristrettezza di interessi e comportamenti ripetitivi. Può manifestarsi con diversi livelli di severità, con la presenza di varie comorbidità e mostra spesso una espressività variabile nel tempo[11,12]. I sintomi possono presentarsi già a 6 mesi di vita[31], ma diventano espliciti intorno ai 2 o 3 anni[32], quando il comportamento dei bambini affetti da Autismo appare diverso da quello dei loro coetanei, che solitamente hanno già sviluppato buone capacità comunicative e relazionali. Vi sono pochi studi che affrontano la prognosi a lungo termine in modo esaustivo: alcuni adulti mostrano un modesto miglioramento nelle capacità di comunicazione, ma altri anche un declino. Nessuno studio invece si è concentrato sull’Autismo dopo la mezza età[33]. L’acquisizione di capacità linguistiche prima dei 6 anni, con un Quoziente Intellettivo (QI) superiore a 50, può far prevedere dei miglioramenti, nei casi gravi invece una vita indipen-dente è improbabile[34].

Al 2017 non si conoscono ancora terapie risolutive[12,15], ma esistono diversi programmi che permettono di migliorare notevolmente la qualità della vita dei soggetti affetti da Autismo. Tali trattamenti risultano più efficaci se cominciati in tenera età ed è dunque di fondamentale importanza riuscire ad effettuare una diagnosi precoce[35,36,37].

Tuttavia non essendo ancora note le cause di tale manifestazione, non esistono criteri quanti-tavi per la diagnosi, la quale è quindi ancora piuttosto complessa e ad appannaggio degli psichiatri specialisti del disturbo[38].

I motivi che rendono lo studio e la diagnosi dell’Autismo così difficili sono molteplici: dato che i sintomi sono piuttosto eterogenei e che compaiono in età preverbale possono essere malinterpretati o addirittura ignorati se di debole entità; inoltre esistono diversi disordini del neurosviluppo che nei primi anni di vita si manifestano in modo simile e che quindi possono confondere la diagnosi.

Infine bisogna ricordare che si tratta di un disturbo riconosciuto a livello internazionale, e dunque studiato, solo a partire dagli anni ’80, i cui criteri diagnostici e le cui teorie eziologiche continuano a subire forti cambiamenti.

(24)

10 1Autismo: dalla ricerca alla clinica

1.1.2 Storia dell’Autismo

Il termine Autismo (dal greco αυτóς che significa ’sè stesso’) fu utilizzato per la prima volta in senso moderno nel 1938 dal pediatra Hans Asperger per descrivere il comportamento asociale, introverso e poco comunicativo di alcuni bambini da lui visitati[39]. Successivamen-te, nel 1943 lo psichiatra Leo Kanner introdusse il concetto di Disturbo Autistico (DA)[40] e sottolineò la necessità di distinguere tale manifestazione dalla Schizofrenia e dal Ritardo Mentale; tuttavia passarono diversi anni prima che queste teorie fossero conosciute e accredi-tate dall’intera comunità scientifica.

Infatti nel primo documento di portata e autorevolezza internazionale, il "Manuale Diagno-stico e StatiDiagno-stico dei Disturbi Mentali” (DSM) del 1952, i sintomi riconducibili all’Autismo venivano ancora attribuiti alla Schizofrenia Infantile. Nel corso degli anni sono state pubbli-cate nuove versioni e revisioni del DSM in cui venivano ridefiniti i criteri diagnostici o le categorie stesse dei disturbi sulla base delle nuove ricerche.

Il respiro internazionale, la cura nella pubblicazione e il continuo aggiornamento hanno fatto di tale manuale il punto di riferimento mondiale per diagnosi, pratica clinica e ricerca nell’ambito delle malattie psichiatriche.

Tuttavia per il riconoscimento dell’Autismo come disturbo a sè stante bisogna attendere fino alla terza edizione del DSM pubblicata nel 1980, in cui viene introdotta e descritta la categoria diagnostica di Autismo Infantile. Quindi solo a partire dagli anni ’80 iniziarono gli studi sulla psichiatria d’infanzia, le indagini mediche epidemiologiche, genetiche e di neuroimaging che ancora oggi svolgono un importante ruolo nella ricerca[39].

Nelle successive due revisioni del manuale, furono chiariti i criteri diagnostici dell’Autismo Infantile e furono introdotte le definizioni di altri disturbi del neurosviluppo anch’essi fino ad allora ricondotti a manifestazioni della Schizofrnia o del Ritardo Mentale[39].

Nel 2000 viene poi pubblicato il DSM-IV-TR (dove la sigla TR sta per Technical Revision), in cui vengono descritti cinque distinti disturbi pervasivi dell’infanzia con sintomatologie simili, ma ben caratterizzati dal punto di vista diagnostico: il Disturbo Autistico, la Sindrome di Asperger, la Sindrome di Rett, il Disturbo Disintegrativo dell’Infanzia e il Disturbo Pervasivo dello Sviluppo Non Altrimenti Specificato.

Quindi si può riassumere che dopo il riconoscimento a livello internazionale dell’Autismo come disturbo a sè stante, è nata la psichiatria d’infanzia le cui indagini hanno portato alla definizione di sempre più categorie diagnostiche specifiche, un tempo banalmente ricondotte alla Schizofrenia o al Ritardo Mentale.

Invece nella quinta ed ultima edizione, pubblicata nel 2013, si osserva una inversione di tendenza: vengono raggruppati sotto l’unica etichetta di "Disturbi dello Spettro Autistico" (DSA) tre disturbi prima appartenenti a categorie diagnostiche disgiunte il DA, la SA e il DGS-NAS.

Benchè tale decisione sia stata argomento di numerosi dibattiti, la maggior parte degli psi-chiatri concorda con la necessità di riunire in un’unica definizione questi disturbi, almeno da un punto di vista diagnostico, in quanto la loro eterogeneità e la mancanza di biomarcatori oggettivi, che permetta di distinguerli, rendono difficile la corretta attribuzione di un soggetto ad una ben specifica categoria del DSM-IV-TR.[29]

1.1.3 Complicazioni nella ricerca

Come si può evincere dai precedenti paragrafi, l’eterogeneità del disturbo, la sua recente scoperta e l’età di comparsa dei sintomi sono tutti fattori che rendono complicate diagnosi e ricerca. A questi va aggiunto anche il continuo cambio di registro e di definizione dell’Auti-smo che, per quanto necessario, ha inevitabilmente creato delle difficoltà.

(25)

§1.1 − Informazioni introduttive sull’Autismo 11

Figura 1.1:Aumento dell’incidenza del disturbo[41]

Infatti è praticamente impossibile confrontare i risultati di studi condotti in periodi diversi senza tenere conto della specifica categoria diagnostica e della precisa edizione del DSM di riferimento.

Inoltre i numerosi cambiamenti nei criteri diagnostici hanno impedito di tracciare una chiara epidemiologia del disturbo e questo ha portato a registrare un apparente incremento del 600% nell’incidenza dell’Autismo nelle ultime due decadi[41](Fig. 1.1).

Questo fenomeno fu per alcuni la prova che l’Autismo fosse causato da fattori socio-ambientali[42], caratteristici della moderna società.

Per altri, data l’età di comparsa dei sintomi e la mancanza di dati sui paesi meno sviluppati, l’incremento del disturbo fu una dimostrazione di una possibile connessione tra i vaccini e l’isorgere l’Autismo[43]. Tuttavia dopo numerosi studi[44], la comunità scientifica ha all’u-nanimità concluso che l’aumento dell’incidenza fosse legato principalmente alla crescente consapevolezza del disturbo in ambito medico[45]e al cambiamento dei criteri diagnostici[46], screditando quindi le precedenti teorie epidemiche.

Ad oggi studi condotti in popolazioni in varie parti del mondo, anche laddove la medicina è meno sviluppata, affermano un’incidenza mondiale attorno all’1% in tutte le fasce d’età[47], colpendo quasi quattro volte di più i soggetti di sesso maschile[48].

1.1.4 Possibili cause e linee di ricerca

Fin dai primi studi sull’Autismo, sia Asperger sia Kanner supponevano che si trattasse di una sindrome dovuta a una condizione organica ma, a differenza di Asperger, Kanner ha successivamente ipotizzato che il disturbo fosse provocato da cause psicodinamiche.

Vi è tuttora, seppur in termini molto diversi rispetto alle teorie di Kanner, una linea di rifles-sione sulle ipotetiche ed eventuali concause psicologiche dell’Autismo, intese nel senso che, sulla base comunque di predisposizioni genetiche e col concorso di altri fattori ambientali o neurologici, eventuali fattori psicologici o relazionali potrebbero avere un ruolo

(26)

complemen-12 1Autismo: dalla ricerca alla clinica

tare nell’attivazione dei Disturbi dello Spettro Autistico[49].

È quindi molto importante fare ricerca su più campi di indagine per comprendere me-glio questo disturbo, che incide profondamente sulla vita di pazienti e parenti.

Gli studi sono ancora molto lontani dal trovare una cura. Per ora gli sforzi sono concentrati sulla ricerca di biomarcatori caratteristici del disturbo che permettano di comprendere la natura del problema e di trovare criteri quantitativi oggettivi che permettano di facilitare e anticipare la diagnosi, in modo da poter intervenire prontamente con programmi di tratta-mento mirati al miglioratratta-mento della vita del paziente e dei suoi parenti.

Attualmente i fronti di ricerca più esplorati sono: la genomica, la neuroatonomia e recente-mente anche il neurofunzionamento.

L’Autismo ha senza dubbio una forte componente ereditaria, lo dimostrano principalmente due osservazioni: i gemelli monozigoti (che condividono completamente il patrimonio ge-netico) hanno una probabilità del 92% di essere entrambi affetti da DSA, mentre i gemelli dizigoti solo del 10%. Inoltre, fratelli e sorelle di una persona affetta da DSA hanno un rischio superiore di sviluppare il disturbo (circa il 7% per i maschi e 1-2% per le femmine) o di presentare forme lievi di problemi dello sviluppo che coinvolgono il linguaggio, la socialità o altri sintomi comportamentali (circa il 4-6%)[50].

Tuttavia, benché lo studio del genoma abbia evidenziato alcuni possibili fattori che aumenta-no le probabilità dell’insorgere del disturbo, essi aumenta-non soaumenta-no presenti in tutti i soggetti affetti da DSA, nè sono in grado di spiegare l’eterogeneità delle manifestazioni[51].

Vi è consenso nell’indicare un’origine genetica complessa, caratterizzata dal coinvolgimento di molti geni[50], per cui sarà necessario prendere in esame molti più soggetti e utilizzare tecniche di analisi più avanzate.

Perciò grandi aspettative sono state poste nell’analisi delle neuroimmagini: si spera infatti di trovare, o a livello strutturale o funzionale, una o più anomalie comuni ai soggetti affetti da Autismo, la cui entità rispecchi i diversi gradi di severità del disturbo.

Tuttavia anche gli studi sulle neuroimmagini sono estremamente ostacolati dalla scarsità di materiale e cercano di destreggiarsi nell’analisi del maggior numero di dati reperibili, mettendo insieme le informazioni di soggetti di diverso sesso ed età.

Dal punto di vista anatomico, sono state individuate numerose differenze, ma di lieve entità e difficilmente replicate da altri studi[1,2,3,4,5].

Le ricerche sul neuroimaging funzionale soffrono delle stesse difficoltà a cui va incontro la neuroanatomia inoltre trovano ancora molti ostacoli nell’analisi dei soggetti sani.

Alcuni studiosi obiettano che questo ambito di ricerca sia per ora abbastanza sterile, in quanto, anche se si trovassero differenze significative dal punto di vista funzionale, non si saprebbe interpretare correttamente il significato di tali risultati[52].

1.2

Le neuroimmagini strutturali nella ricerca sull’Autismo

1.2.1 Le tecniche di indagine

Lo studio di immagini biomediche a fini diagnostici è senza dubbio una delle applicazioni della Fisica Medica che più si è sviluppata negli ultimi anni[53].

I dati da analizzare in ambito psichiatrico consistono in immagini 3D del cervello solitamente ottenute tramite RMN. I dati strutturali di una scansione cerebrale possono arrivare a occupa-re 20-50 MB, a seconda del numero di voxel e di slice acquisiti e del formato dell’immagine. Risulta quindi evidente che è impossibile effettuare un’analisi basata sul confronto delle immagini di tanti pazienti senza prima ridurre la quantità di dati.

(27)

§1.2 − Le neuroimmagini strutturali nella ricerca sull’Autismo 13

Per fare ciò, si utilizzano dei software di segmentazione automatica in grado di estrarre da ciascuna immagine grandezze fisiche facilmente analizzabili, che riassumono le informazioni salienti sull’anatomia del cervello in esame.

Esistono sostanzialmente tre tecniche di segmentazione:

• ROI-based morphometry (dove ROI sta per Region of Interest), in cui le grandezze di interesse vengono stimate tracciando manualmente delle ROI sull’immagine e calco-lando il volume residuo. Tale metodo necessita di molto tempo e fornisce misure poco riproducibili, specialmente se le regioni in esame hanno una forma irregolare.

• Voxel-based morphometry, in cui i vari tessuti cerebrali vengono riconosciuti in base all’intensità e distribuzione dei livelli di grigio dei voxel nell’immagine.

Su questa tecnica si basano due famosi algoritmi di segmentazione automatica: FSL e SPM (meglio descritto nella sezione 3.2.1).

• Surface-based morphometry, in cui i tessuti vengono riconosciuti individuando le superfici di separazione fra di essi. Queste ultime vengono stimate coniugando le nozioni a priori sulla loro probabile distribuzione all’interno del cervello con il calcolo del gradiente di intensità dei voxel. Su questa tecnica si basa il più utilizzato software di segmentazione, ossia Freesufer (meglio descritto nella sezione 3.2.2).

Una volta estratte le feature ritenute rilevanti, con uno dei tre metodi prima descritti, solita-mente i dati vengono normalizzati per correggere la dipendenza dall’età, dal sesso o dalla dimensione della testa del soggetto. Poi si procede con una analisi volta a trovare le differenze tra i dati di due classi di soggetti: quelli affetti da Autismo (che in questo contesto vengono definiti i ’casi’) e quelli che non manifestano tale disturbo (più propriamente detti i ’controlli’). Questa analisi statistica può essere di due tipi:

• Univariata: studia separatamente la distribuzione di ciascuna feature all’interno delle due classi.

• Multivariata: cerca una combinazione di feature che caratterizza il disturbo.

Le analisi univariate, nell’ambito dell’Autismo, non hanno mai portato a risultati significativi, quindi sono sempre stati privilegiati gli approcci multivariati[54].

Quest’ultima tipologia di indagine, inoltre, sembra più adatta a studiare un disturbo così eterogeneo, che difficilmente potrebbe essere spiegato con una singola alterazione cerebrale. La dinamica di individuazione del pattern di riconoscimento in una tecnica multivariata viene chiamata ’apprendimento’ e può essere di due tipologie:

• Supervisionata: l’algoritmo viene addestrato a trovare una relazione tra le grandezze che rappresentano le due classi, conoscendo gli esempi appartenenti a ciascuna di esse. Fanno parte di tale categoria gli algoritmi di Machine Learning (meglio descritti nel capitolo 5).

• Non supervisionata: l’algoritmo non conosce le classi presenti nel campione, si limita dunque a identificare i gruppi di dati che distano maggiormente l’uno dall’altro e a trovarne le differenze. Esempi di tale tecnica sono gli algoritmi di Clustering.

Gli approcci non supervisionati sono considerati più rigorosi e forniscono risultati più facili da interpretare. Tuttavia dato che nella ricerca sull’Autismo i campioni a disposizione hanno quasi sempre una composizione fenotipica estremamente eterogenea (sono infatti presenti soggetti di età e sesso differenti) e che in letteratura non sono mai state trovate differenze anatomiche sostanziali fra casi e controlli, è necessario un approccio che sfrutti al meglio tutte le informazioni note sul campione, tra cui anche la classe di appartenenza dei vari soggetti. I metodi supervisionati d’altro canto, dato che sono "forzati" a trovare delle differenze fra le

(28)

14 1Autismo: dalla ricerca alla clinica

due classi, rischiano di individuare un pattern di riconoscimento che in realtà non dipende dal disturbo e che, ad esempio, potrebbe essere dovuto alla naturale variabilità delle grandezze cerebrali.

Si può quindi riassumere che esiste una grande varietà di approcci per l’analisi dei dati strutturali di RMN e che nessuno di essi è privo di svantaggi, in quanto è sempre necessaria una riduzione dei dati, che comporta una semplificazione delle informazioni sulle strutture cerebrali.

In letteratura l’approccio più comune, modello di riferimento per questa tesi, si basa sull’uti-lizzo di tecniche di apprendimento supervisionato, ossia algoritmi di Machine Learning, per la ricerca di biomarcatori multivariati a partire da dati estratti con Freesufer (ossia tramite segmentazione surface-based)[55].

1.2.2 I risultati in letteratura

La neuroanatomia dell’Autismo è stata largamente esplorata negli ultimi 20 anni su più scale, tramite l’utilizzo di diverse tecniche di analisi e su campioni di diverse dimensioni[2]. Tuttavia nessun biomarcatore significativo, che mettesse d’accordo tutti i ricercatori, è mai stato trovato.

A livello macroscopico è stata osservata un’anomala crescita del cervello nei primi anni di vita[56,57], ma non è stata confermata per tutti i bambini[58]. Inoltre non è chiaro se questa crescita coinvolga tutte le regioni cerebrali: alcuni la riportano solo nella materia bianca[59], altri solo in quella grigia[60,61].

Vari studi condotti su piccoli database hanno riportato che i soggetti affetti da Autismo mostrano una ridotta dimensione ed una ipoconnettività strutturale del corpo calloso[62,63]. Se da una lato questi risultati sono stati replicati da uno studio condotto sul database ABI-DE[27], dall’altro ci sono ricerche che mettono in discussione la rilevanza statistica di tali risultati[64].

In uno studio sulla densità corticale condotto su 21 soggetti è stata evidenziata una ridotta densità sul solco temporale superiore[65], mentre nella stessa regione un’analisi condotta su tutti i pazienti di ABIDE ha riportato una maggiore densità[3].

Infine a livello neuronale alcuni ricercatori suggeriscono che l’Autismo possa essere causato da un’alterazione nel processo di mielinizzazione degli assoni, causata da un’anomala crescita cerebrale[66]. Mentre altri sostengono che le cause del disturbo siano dovute a perturbazioni nella struttura colonnare della neocorteccia[67].

I risultati qui presentati sono solo alcune delle numerose contraddizioni trovate in letteratura sull’Autismo. Tuttavia, sebbene non ci sia accordo sui risultati, nè sulla tecnica di indagine migliore per studiare il problema, molti ricercatori concordano sulle possibili motivazioni che hanno portato a risultati così contradditori, che sono:

• L’eterogeneità del disturbo[19], che può ostacolare notevolmente la ricerca di un bio-marcatore univoco per tutte le manifestazioni (o può addirittura essere impossibile da trovare).

• La scarsità di conoscenze a priori sull’Autismo, che impedisce di ridurre il numero di feature da analizzare. Infatti inserire tante grandezze nell’analisi non solo aumenta le probabilità di ottenere falsi positivi, ma obbliga spesso all’utilizzo di algoritmi di riduzione delle feature che, se mal costruiti, possono influire sul risultato stesso dell’analisi.

(29)

§1.3 − Studi di neuroimaging: quali categorie diagnostiche usare? 15

• Lo scarso numero di soggetti[20]di cui, per motivi tecnici o legali, si dispone di abbastan-za informazioni per condurre un’analisi statistica adeguata. La ridotta dimensione del campione può far individuare delle differenze che in realtà sono dovute alla semplice variabilità naturale delle strutture cerebrali. Inoltre, dato che i soggetti sono pochi e non si possono scartare, ci si trova spesso a confrontare i dati di pazienti con età e sessi differenti.

Quest’ultimo punto in particolare è sempre stato considerato molto critico, infatti la maggior parte degli studi fa riferimento al massimo a poche decine di soggetti, a fronte di un centinaio di feature da analizzare.

Per risolvere tale problema sono dunque nati diversi database internazionali open source. Tra essi il più famoso è ABIDE, che grazie alle sue due collezioni di dati ABIDE I e ABIDE II raccoglie le immagini di RMN strutturale di 2156 soggetti, tra casi e controlli, acquisiti in 24 centri di ricerca differenti.

Vi sono ancora pochi studi che hanno potuto analizzare i dati di tutti i pazienti, infatti la seconda collezione è stata pubblicata solo di recente, ma sulla base della prima collezione (che contava comunque più di 1000 soggetti) sono stati scritti almeno un centinaio di studi. Tuttavia anche analizzando campioni più ampi, i biomarcatori individuati continuano ad essere contradditori e non replicabili. Inoltre confrontando i risultati ottenuti in letteratura sui piccoli database e quelli ottenuti su campioni più grandi si può osservare che, in generale, i classificatori addestrati sui primi sembrano dare risultati migliori[1,2,3,4,5].

Questo potrebbe indicare che, data l’alta variabilità delle strutture anatomiche cerebrali, utilizzando una tecnica supervisionata su un piccolo campione è sempre possibile individuare delle caratteristiche che differenziano due gruppi di soggetti, anche se in realtà tali differenze non costituiscono un biomarcatore del disturbo.

Oppure, come alcuni sostengono, mettere in un unico campione i dati di soggetti acquisiti con macchine e impostazioni di scansione differenti, come viene fatto nelle analisi multi-site, introduce nel dataset un rumore[22,23]che tende a nascondere le differenze tra le classi . In conclusione la ricerca di biomarcatori nell’Autismo è ancora un problema aperto, ostacolato da molti fattori e di cui bisogna ancora trovare il giusto approccio.

1.3

Studi di neuroimaging: quali categorie diagnostiche usare?

Come è stato più volte sottolineato in questo capitolo, gli aspetti che ostacolano la ricerca di un biomarcatore negli studi di neuroimaging sono molteplici.

Il principale obiettivo di questa tesi è determinare se l’adozione della nuova categoria dia-gnostica di DSA abbia costituito un ulteriore ostacolo alla ricerca.

Infatti, secondo un articolo[29]redatto poco dopo la pubblicazione del DSM-V, il cambiamento dei criteri diagnostici è stato pensato appositamente per semplificare la diagnosi, mentre in ricerca sarebbe bene continuare a mantenere separati i tre disturbi, in quanto potrebbero esse-re dovuti a cause diverse (dunque potesse-rebbero esseesse-re caratterizzati da biomarcatori diffeesse-renti). Le considerazioni che hanno spinto a riunire sotto un’unica categoria diagnostica il DA, la SA e il DGS-NAS sarebbero infatti:

• La difficoltà nello stabilire i confini diagnostici tra i tre diversi disturbi. Era ormai pratica comune assegnare i pazienti con i sintomi più gravi al Disturbo Autistico, i casi più lievi alla Sindrome di Asperger e quelli incerti al DGS-NAS, perdendo quindi di vista le differenze delineate nel DSM-IV-TR, che spesso risultavano difficili da riconoscere. • La presa di coscienza del grado di continuità tra la popolazione sana e la popolazione

sintomatica. Infatti lievi manifestazioni dei sintomi caratteristici dell’Autismo possono presentarsi anche negli individui non affetti da disturbi comportamentali[41].

(30)

16 1Autismo: dalla ricerca alla clinica

• I casi di diagnosi multipla. Numerosi soggetti difficilmente inquadrabili in una delle tre ben precise categorie diagnostiche cambiando clinica o semplicemente ripetendo il test a distanza di tempo hanno ricevuto diagnosi differenti.

• La mancanza di oggettività nella diagnosi. Infatti mentre per alcuni disturbi del neu-rosviluppo sono già stati isolati specifici geni (come per la Sindrome di Rett), per i tre disturbi riuniti sotto la categoria di DSA non sono state ancora individuate cause biologiche quantitative e dunque dato che anche le terapie predisposte per tali patologie sono sostanzialmente molto simili, dal punto di vista diagnostico e clinico non ha oggi alcuna importanza distinguere con precisione tra l’uno o l’altro disturbo[29].

Come si può osservare, quindi, le motivazioni alla base del cambio di registro riguardano semplicemente la diagnosi e non la ricerca.

Inoltre secondo una recente revisione della letteratura[41], in cui vengono esaminati i biomar-catori ottenuti con le categorie diagnostiche del DSM-IV-TR e quelli ottenuti invece con la moderna definizione di DSA, i secondi sembrano più contrastanti e meno caratterizzanti del disturbo.

Tale studio conclude dunque che dal punto di vista delle analisi neuroanatomiche non ci sono prove che supportano la scelta del cambiamento di definizione.

In questa tesi si vogliono confrontare le prestazioni di classificazione ottenibili utilizzano le definizioni del DSM-IV-TR con quelle basate sulla definizione di DSA.

In particolare, dato che tra i motivi che hanno portato alla ridefinizione dei criteri diagnostici c’è la maggior semplicità nel suddividere il campione in base alla severità del disturbo invece che in base alla sintomatologia, ci si propone anche di verificare se stratificando il campione definito secondo il DSM-V sulla base di criteri di severità si ottengono prestazioni migliori o simili a quelle ottenibili con la suddivisione basata sul DSM-IV-TR.

(31)

CAPITOLO

2

Neuroimaging con Risonanza magnetica nucleare

La storia della Risonanza Magnetica Nucleare (RMN) è piuttosto recente: le prime imma-gini ottenute tramite RMN furono pubblicate nel 1973[68], quando Paul Lauterbur ebbe l’idea di codificare spazialmente il segnale RMN per creare immagini.

I primi studi fatti su esseri umani furono pubblicati nel 1977[69,70]e fin da subito fu chiaro l’enorme impatto che tale tecnica avrebbe avuto nella diagnosi e nella ricerca medica. I motivi che fanno della RMN uno strumento di imaging così importante sono fondamental-mente cinque:

• Si tratta di una tecnica non invasiva e non dannosa per il paziente, che non viene sottoposto a radiazioni ionizzanti (al contrario di altri strumenti che utilizzano raggi X o isotopi radioattivi).

• Produce immagini tridimensionali ad altissima risoluzione (anche dell’ordine del mil-limetro), mostrando un contrasto tra i tessuti molli decisamente superiore a quanto ottenibile con la tomografia computerizzata.

Per questo è largamente utilizzata nelle analisi neurologiche. • Permette di ricavare informazioni morfologiche e funzionali.

• A differenza di altre tecniche di imaging che consentono di ottenere dei dati sulla base di una sola grandezza fisica (attenuazione ai raggi X nelle radiografie, o concentrazione di tracciante nelle tecniche di medicina nucleare, etc.), l’imaging a RMN produce immagini che possono mostrare differenti proprietà fisiche a seconda delle modalità di acquisizione adottate.

• Conoscendo la composizione biochimica dei tessuti in esame (come conseguenza del punto precedente) è possibile scegliere la modalità più adatta per una visualizzazione ottimale dei tessuti di interesse.

La generazione del segnale di RMN si basa essenzialmente sul fenomeno della precessione di Larmor: il moto giroscopico che il momento magnetico di un nucleo compie in presenza di un campo magnetico esterno.

In particolare la ricostruzione delle immagini avviene misurando la risposta dei nuclei atomi-ci di un tessuto quando essi sono immersi in un campo magnetico costante e sono perturbati da un campo variabile.

(32)

18 2Neuroimaging con Risonanza magnetica nucleare

In RMN il segnale rilevato proviene principalmente dai nuclei di H, infatti essi sono dotati di un significativo momento magnetico e sono presenti in maniera consistente in gran parte dell’organismo, pricipalmente come componente dell’acqua, che da sola costituisce circa il 70% del peso corporeo.

Dunque la differenziazione dei tessuti avviene principalmente per la densità di H che li caratterizza e per le diverse proprietà magnetiche che tali nuclei assumono quando fanno parte di determinate strutture molecolari.

Nel campo specifico delle neuroimmagini , i tessuti coinvolti sono essenzialmente tre: • Materia Grigia (MG);

• Materia Bianca (MB);

• Liquido cerebrospinale (Cerebrospinal Fluid CSF), quest’ultimo particolarmente ricco di acqua.

Per approfondimenti sulla teoria alla base del fenomeno di RMN e sulle principali tecniche di acquisizione del segnale si rimanda all’Appendice A.

(33)

CAPITOLO

3

Algoritmi di segmentazione

3.1

Stato dell’arte

Analizzare visivamente delle immagini di RMN è un compito estremamente complesso. Infatti, si tratta di immagini tridimensionali in scala di livelli di grigio con una risoluzione che dipende dalla tecnica di acquisizione, dal tessuto in esame e dalla presenza di artefatti, la cui entità non è spesso quantificabile a priori, come nel caso del rumore dovuto al movimento del paziente. In particolare, nel caso di immagini cerebrali l’analisi si complica ulteriormente a causa dell’articolata morfologia del cervello, caratterizzata dalla presenza di solchi e giri, i cui tracciati possono variare significativamente da individuo a individuo.

É quindi necessario semplificare il problema estraendo dalle immagini grandezze fisiche facilmente analizzabili come, ad esempio, il volume dei tessuti cerebrali (MB, MG e CSF). Questa operazione viene chiamata ’segmentazione’ e consiste nel definire i contorni di speci-fiche regioni di interesse per poi stimarne descrittori quantitativi.

La segmentazione può essere svolta manualmente o in modo automatico da software ap-positamente creati. Benché la segmentazione manuale, effettuata da esperti dell’anatomia cerebrale, risulti molto più accurata, negli ultimi decenni la segmentazione automatica delle neuroimmagini ha acquisito un ruolo sempre più importante nell’imaging medico.

Questo perché essa permette di slegare le quantità estratte dalla inevitabile soggettività dell’operatore che valuta l’immagine; fornisce dunque misure ripetibili ed estraibili in modo molto veloce. Entrambe queste caratteristiche fanno della segmentazione automatica uno strumento ideale per un confronto statistico tra la morfologia cerebrale di diversi soggetti. Si tratta, dunque, della metodologia privilegiata nell’ambito della ricerca di biomarcatori delle malattie psichiatriche, in cui è necessario confrontare statisticamente i dati neuroanatomici di due popolazione di soggetti: i casi e i controlli.

Tuttavia il continuo miglioramento di questi algoritmi li ha resi molto utili anche per altre ap-plicazioni, per esempio, per la pianificazione di trattamenti radioterapici[71]e per la chirurgia video-assistita[72,73].

Fino ad ora, molti degli algoritmi realizzati per la segmentazione cerebrale sono stati svi-luppati per operare su immagini pesate in T1e sono indicati solo per specifici parametri e sequenze di acquisizione RMN[74].

Tuttavia dato che la maggior parte degli studi sui biomarcatori è di tipo retrospettivo, per adattarsi ai dati disponibili, molti di questi algoritmi vengono usati indiscriminatamente per tutti i protocolli di acquisizione. Questa operazione è però giustificata per i software più

(34)

20 3Algoritmi di segmentazione

utilizzati in letteratura, la cui accuratezza sembra non dipendere significativamente dalle modalità di scansione[75,76].

3.2

Principali software di segmentazione neuroanatomica

Gli algoritmi più utilizzati e considerati più precisi nell’ambito del neurimaging sono: • SPM (Statistical Parametric Mapping), sviluppato da Wellcome Depart-ment of Imaging

Neuroscience at University College London, UK[77];

• FSL (FMRIB Software Library), sviluppato dal gruppo FMRIB, Oxford, UK[78].

• Freesurfer, sviluppato in collaborazione tra il Massachussets Institute of Technology e l’Università di Harvard, USA[79].

Esistono diversi studi che valutano l’accuratezza di tali algoritmi, ma è piuttosto difficile effettuare un confronto oggettivo e valido in assoluto, infatti questi software si basano su metodi matematici differenti dunque estraggono informazioni di natura diversa e soprattutto vengono continuamente aggiornati.

All’inizio di questa tesi, il più recente studio di confronto tra questi software affermava che SPM fosse l’algoritmo che meglio stimava le grandezze volumetriche di MB, MG e CSF[80], tuttavia le versioni valutate in questa analisi non erano le più aggiornate.

Nella letteratura sull’Autismo, l’algoritmo più utilizzato è invece Freesufer.

Esso, a differenza di SPM, non si limita alla segmentazione dei tre tessuti cerebrali, ma individua in essi anche regioni corticali e sottocorticali a cui si attribuiscono precise funzioni cognitive. Si tratta quindi di un software con una complessità computazionale nettamente superiore per cui il processamento di una scansione può necessitare anche 3 o 4 volte il tempo richiesto da SPM.

In questo capitolo si descrivono solo questi due algoritmi in quanto considerati attualmente i più importanti e utilizzati per lo studio dell’Autismo.

3.2.1 SPM

SPM è un pacchetto software implementato in MatLab con cui è possibile segmentare in modo automatico le neuroimmagini di RMN separando MB, MG e CSF.

La segmentazione è resa possibile grazie ad un approccio che coniuga l’informazione contenu-ta in mappe spaziali di probabilità della distribuzione dei vari tessuti nel cervello umano[81], l’utilizzo di filtri per identificare le disuniformità di intensità dovute alle alterazioni del cam-po magnetico nelle scansioni RMN ed infine un algoritmo di clustering che raggruppa i voxel che si suppongono appartenere allo stesso tessuto[82]. In particolare l’algoritmo adottato è il Mixture Model Clustering (MMC) che si basa sulle seguenti assunzioni:

• Nell’immagine di RMN ciascun voxel appartiene univocamente ad un cluster, cioè ad un tessuto.

• I voxel che appartengono allo stesso tessuto seguono una distribuzione dei livelli di grigio normale.

• Il numero di tessuti è fissato a priori.

Ovviamente l’identificazione dei cluster richiede che l’immagine sia stata corretta dagli arte-fatti di disuniformità, ma allo stesso tempo per trovare tali errori è necessario conoscere la distribuzione dei tessuti. Infatti non è sempre facile distinguere se un repentino cambiamento di livello di grigio sia dovuto alla disomogeneità del campo magnetico in quel punto o all’interfaccia tra due tessuti diversi.

(35)

§3.2 − Principali software di segmentazione neuroanatomica 21

Figura 3.1:Mappe di probabilità dei differenti tessuti cerebrali (materia grigia, bianca, fluido cerebrospinale, "altro".

Per risolvere questa contraddizione SPM utilizza un algoritmo iterativo, che si può riassumere schematicamente nei seguenti passaggi:

1. L’immagine viene registrata, tramite una trasformazione affine, allo spazio stereotassico delle mappe di probabilità tissutale, fornite dal Montreal Neurological Institute (MNI). Esse attribuiscono a ciascun voxel la probabilità di appartenere a uno dei tessuti: MG, MB, CSF e ’altro’ (dove con ’altro’ si intende il complementare dei tre tessuti precedenti, vedi Fig. 3.1). Queste mappe non si basano sull’intensità del livello di grigio, ma solo sulla posizione dei voxel all’interno dello spazio stereotassico.

2. Vengono stimati i valori di probabilità di ciascun voxel di appartenere ad un tessuto e la distribuzione delle disuniformità del campo da correggere.

Alla prima iterazione la distribuzione viene considerata uniformemente nulla e le probabilità coincidono con le mappe del MNI.

3. Si effettua un MMC che tiene conto delle stime definite al punto 2.

Di ogni cluster di voxel individuato si calcolano media e deviazione standard dei livelli di grigio.

4. Si ricalcolano le probabilità di appartenenza dei voxel ai cluster appena definiti, in base alla media e alla deviazione standard che caratterizza ciascun tessuto.

5. Se le probabilità individuate al punto 2 e quelle al punto 4 coincidono il ciclo termi-na, altrimenti si ritorna al punto 2, ma questa volta si fissano i valori di probabilità determinati al punto 4.

Come si può evincere dal punto 1, per la corretta esecuzione di questo algoritmo è di fon-damentale importanza il giusto allineamento delle immagini di RMN. Per accertarsene è spesso necessario riposizionarle manualmente in modo tale che il centro e l’orientazione del-l’immagine coincidano con quelli della mappa. Tuttavia questo implica l’intervento umano, operazione che spesso risulta scomoda, specialmente quando si gestiscono grossi moli di dati.

(36)

22 3Algoritmi di segmentazione

3.2.2 Freesurfer

Freesurfer è un pacchetto software sviluppato per lo studio dell’anatomia cerebrale dal punto di vista dei tessuti che lo compongono (MG, MB e CSF) e delle regioni corticali e sottocorticali ritenute rilevanti per le funzioni cognitive che li caratterizzano.

Per individuare tali regioni le immagini vengono confrontate con degli atlanti cerebrali, ossia rappresentazioni di un generico cervello in cui ogni zona di interesse viene identificata con un set di coordinate spaziali. Esistono diversi tipi di atlanti cerebrali e ciascuno di essi individua regioni che assumono significati biologici e cognitivi differenti.

Nella segmentazione automatica di Freesufer ne vengono valutati più di uno, l’operatore può dunque decidere quali output utilizzare per la propria analisi sulla base dell’atlante ritenuto più appropriato per lo studio che intende svolgere. In accordo con quanto descritto nella Pipeline del software[83], la segmentazione avviene in due fasi definite: Surface-based process e Volume-based process.

Surface-based process

Il processo Surface-based serve a identificare e segmentare i tessuti principali e le zone corticali. Esso può essere riassunto nei seguenti passaggi:

• L’immagine viene registrata, tramite una trasformazione affine, allo spazio stereotassico del MNI. Questo permette di fissare l’orientazione del cervello e di individuarne grossolanamente le distribuzioni dei diversi tessuti.

• Si identificano le regioni di voxel che più probabilmente appartengono alla materia bianca. In tali zone si stima la distribuzione di disuniformità dell’intensità dovuta alle variazioni di campo magnetico. Questa stima viene estesa a tutto il cervello.

• L’intensità di ciascun voxel viene opportunamente divisa per un campo di modulazione calcolato per correggere le disuniformità prima stimate.

• Il cranio viene rimosso con un modello di segmentazione deformabile[84] e viene individuato il piano che separa i due emisferi.

• I voxel vengono classificati grossolanamente come appartenenti o non appartenenti alla materia bianca in base alla loro intensità e a quella dei voxel vicini.

• Tale classificazione viene poi raffinata per seguire i gradienti di intensità tra materia grigia e materia bianca, in modo da riuscire a definire solchi e crespature.

• Questa operazione viene ripetuta anche all’interfaccia tra materia grigia e CSF.

• Una volta definite le superfici principali, sulla base dell’atlante di riferimento, vengono identificate le regioni corticali e di esse vengono calcolate diverse grandezze fisiche come volume, area, spessore e curvatura.

Volume-based process

Il processo Volume-based serve invece a identificare le regioni sottocorticali. La sua implementazione si articola nei seguenti passaggi:

• Registrazione affine nello spazio del MNI.

• Etichettatura grossolana dei volumi, sulla base dell’atlante di riferimento. • Correzione per la disuniformità del campo.

• Registrazione multidimensionale e non lineare allo spazio MNI, per migliorare la stima dei volumi.

(37)

Parte II

Metodi e materiali per la ricerca

(38)

Riferimenti

Documenti correlati

Nel caso di Coe l’espediente utilizzato da Tassinari viene spinto verso le sue possibilità estreme: The Rotters’ Club, infatti, è un romanzo corale e dialogico,

Le tecnologie DLT si prestano bene in ambiti in cui sicurezza e affidabilità delle informazioni rappresentano un problema centrale mentre le prestazioni sono più trascurabili.

Insufficienza epatica acuta su cronica CONCLUSIONI  i pazienti con ACLF vanno gestiti in ambiente intensivistico ed in modalita modalita’ collegiale multispecialistica 

Per tener fede alle responsabilità nei confronti della propria comunità di riferi- mento («Given libraries’ mission to help all their users access and apply the infor- mation they

In fact, each of the three regression lines calculated from the echocardiographic data of the individual observers for each ventricle was statistically equal to the

EUGL exhibits an electrical conductivity more than 4 orders of magnitude greater than that of the parent eumelanin compound. It may be speculated that this conductivity increment

is a negligible difference observed between the two levels of density functional theory.. Comparison of the theoretical spectra obtained at the B3LYP and B3LYP-D levels of theory