• Non ci sono risultati.

3.2 Principali software di segmentazione neuroanatomica

3.2.2 Freesurfer

Freesurfer è un pacchetto software sviluppato per lo studio dell’anatomia cerebrale dal punto di vista dei tessuti che lo compongono (MG, MB e CSF) e delle regioni corticali e sottocorticali ritenute rilevanti per le funzioni cognitive che li caratterizzano.

Per individuare tali regioni le immagini vengono confrontate con degli atlanti cerebrali, ossia rappresentazioni di un generico cervello in cui ogni zona di interesse viene identificata con un set di coordinate spaziali. Esistono diversi tipi di atlanti cerebrali e ciascuno di essi individua regioni che assumono significati biologici e cognitivi differenti.

Nella segmentazione automatica di Freesufer ne vengono valutati più di uno, l’operatore può dunque decidere quali output utilizzare per la propria analisi sulla base dell’atlante ritenuto più appropriato per lo studio che intende svolgere. In accordo con quanto descritto nella Pipeline del software[83], la segmentazione avviene in due fasi definite: Surface-based process e Volume-based process.

Surface-based process

Il processo Surface-based serve a identificare e segmentare i tessuti principali e le zone corticali. Esso può essere riassunto nei seguenti passaggi:

• L’immagine viene registrata, tramite una trasformazione affine, allo spazio stereotassico del MNI. Questo permette di fissare l’orientazione del cervello e di individuarne grossolanamente le distribuzioni dei diversi tessuti.

• Si identificano le regioni di voxel che più probabilmente appartengono alla materia bianca. In tali zone si stima la distribuzione di disuniformità dell’intensità dovuta alle variazioni di campo magnetico. Questa stima viene estesa a tutto il cervello.

• L’intensità di ciascun voxel viene opportunamente divisa per un campo di modulazione calcolato per correggere le disuniformità prima stimate.

• Il cranio viene rimosso con un modello di segmentazione deformabile[84] e viene individuato il piano che separa i due emisferi.

• I voxel vengono classificati grossolanamente come appartenenti o non appartenenti alla materia bianca in base alla loro intensità e a quella dei voxel vicini.

• Tale classificazione viene poi raffinata per seguire i gradienti di intensità tra materia grigia e materia bianca, in modo da riuscire a definire solchi e crespature.

• Questa operazione viene ripetuta anche all’interfaccia tra materia grigia e CSF.

• Una volta definite le superfici principali, sulla base dell’atlante di riferimento, vengono identificate le regioni corticali e di esse vengono calcolate diverse grandezze fisiche come volume, area, spessore e curvatura.

Volume-based process

Il processo Volume-based serve invece a identificare le regioni sottocorticali. La sua implementazione si articola nei seguenti passaggi:

• Registrazione affine nello spazio del MNI.

• Etichettatura grossolana dei volumi, sulla base dell’atlante di riferimento. • Correzione per la disuniformità del campo.

• Registrazione multidimensionale e non lineare allo spazio MNI, per migliorare la stima dei volumi.

Parte II

Metodi e materiali per la ricerca

CAPITOLO4

Kwoledge Discovery in Databases (KDD)

4.1

Introduzione al KDD

Gli studi sui biomarcatori consistono nella ricerca di un pattern di riconoscimento di un determinato disturbo, tramite l’analisi delle caratteristiche dei soggetti che ne sono affetti. Si tratta quindi di un problema di estrazione di informazione da un database di dati.

Storicamente questo genere di analisi veniva condotto manualmente utilizzando strumenti statistici descrittivi e interpretando i risultati. Questo era possibile per via della modesta quantità di dati da analizzare e, di conseguenza, della semplicità dei problemi da affrontare; ci si limitava infatti a individuare semplici relazioni fra poche variabili.

Tuttavia a seguito della rapida crescita nelle capacità di generare e collezionare i dati, che ha coinvolto ormai tutte le discipline, è nata l’esigenza di nuove teorie e strumenti computazio- nali in grado di analizzare grosse moli di dati e di individuare le numerose connessioni che li caratterizzano.

A partire dagli anni ’50 dunque iniziarono ad essere sviluppati i primi algoritmi di In- telligenza Artificiale (AI), le cui abilità promettevano un futuro in cui il computer avrebbe definitivamente sostituito l’uomo nella ormai sempre più impegnativa attività di analisi dei dati.

L’enorme successo e la flessibilità di utilizzo di tali algoritmi, fece nascere innumerevoli discipline minori, tra cui il data mining ossia l’insieme di tecniche, basate su AI, di estrazione di informazione da grandi database di dati.

Tuttavia il termine data mining assunse presto connotazioni negative. Infatti già negli anni ’60 fu dimostrato che applicando tali tecniche, ripetutamente e senza alcuna supervisione, su dati generati casualmente si possono trovare dei pattern che sembrano statisticamente rilevanti, anche se in realtà non lo sono[9].

Si sentì, dunque, l’esigenza di istituire una guida a cui attenersi nell’utilizzo delle tecni- che di data mining per evitare di estrarre informazioni false o irrilevanti.

26 4Kwoledge Discovery in Databases (KDD)

Nacque, così, nel 1989 il Knowledge Discovery in Databases (KDD): una sorta di protocollo che descrive i punti salienti per una corretta interpretazione dei dati.

Nel primo documento di presentazione del KKD, esso viene definito come ’il processo non banale di identificazione di pattern nei dati che siano validi, nuovi, potenzialmente utili e comprensibili’[9]. Dove con l’espressione ’processo non banale’ si vuole evidenziare che l’estrazione di informazione è composta da vari passaggi, di cui il data mining costituisce solo uno step. Inoltre per evitare di ottenere e accreditare risultati statisticamente irrilevanti, viene sottolineato che i pattern individuati devono essere ’validi’, ossia devono essere validati su nuovi dati con un certo grado di certezza.

Quindi, il KDD nasce proprio con l’intento di riformulare la procedura di analisi di grosse quantità di dati, in cui gli algoritmi di AI sono stati spesso usati in modo improprio.

In particolare esso è stato pensato per affrontare alcune situazioni in cui è facile fraintendere la statistica, tra cui:

• L’analisi di database di grandi dimensioni, ossia con milioni di registrazioni.

• L’estrazione di informazione da database ad alta dimensionalità, ossia con un elevato numero di feature (dell’ordine delle centinaia) associate a ciascuna registrazione. In questo caso, dato che lo spazio delle feature è molto ampio, aumentano notevolmente le possibilità di trovare pattern spuri, non validi in generale.

• L’estrazione di informazione da database con un set limitato di dati.

In questo caso il problema principale è dato dal fenomeno di overfitting, per cui l’algo- ritmo, avendo pochi dati a disposizione, interpreta come informazione rilevante anche il rumore da cui sono affetti.

• L’analisi di dati in continuo cambiamento.

• La gestione di database estremamente rumorosi o in cui alcune feature di certe registra- zioni risultano mancanti.

Molte di queste problematiche, sono proprio quelle che caratterizzano la ricerca sui biomar- catori dell’Autismo, in cui infatti si ha a che fare con un numero ridotto di soggetti, un alto numero di feature da analizzare e un’elevata rumorisità dei dati.

Perciò, per affrontare tali situazioni, in questa tesi si è deciso di seguire il modello del KDD.

Documenti correlati