• Non ci sono risultati.

Figura 9.8:Istogramma della grandezza globale BrainSegVolNotVent stimata con Freesufer 6.0 (blu) e della somma dei volumi di MB e MG stimati con SPM (verde)

9.2

Selezione delle feature

Infine non resta che selezionare le feature da utilizzare nell’analisi. Per fare ciò, sono stati considerati i dati sia di ABIDE I sia di ABIDE II. A partire dalle 592 feature prima citate, innanzitutto, è stato aggiunto il BrainSegVolNotVent ed è stato scartato l’eTIV in quanto poco affidabile, poi sono state scartate altre 102 feature secondo i seguenti criteri:

• Sono state scartate le feature ridondanti, ossia se tra gli output di Freesufer erano presenti misure analoghe effettuate secondo modelli differenti, ne è stata tenuta solo una. Nei casi in cui non era chiaro quelle delle feature ridondanti fosse più significativa ci si è basati sulla dispersione della feature.

• Sono state scartate le feature ottenute come somme, sottrazioni, prodotti o divisioni di altre grandezze presenti nel database.

• Sono state scartate alcune grandezze che si ritenevano inopportune per l’analisi sta- tistica. Per esempio il volume del quinto ventricolo è stato eliminato, in quanto tale struttura ha normalmente un volume di pochi mm3e dunque la sua misura è estrema- mente rumorosa: nella maggior parte dei pazienti tale grandezza assume un valore zero e, i pochi pazienti in cui non è nullo sono equamente distribuiti tra casi, controlli, sani, maschi e femmine. Probabilmente in questo caso la possibilità di stimare questa grandezza è limitata dalla risoluzione spaziale legata alla dimensione dei voxel di acquisizione.

CAPITOLO

10

Analisi degli outlier e preprocessamento dei dati

In questo capitolo verrà affrontato il problema della individuazione dei pazienti che presentano feature con valori anomali. La questione, come già descritto, è molto complessa perché il campione di soggetti è incredibilmente vario (per età, genere e situazione clinica), pertanto c’è il rischio di identificare come outlier individui che in realtà si discostano dalla distribuzione media a causa di caratteristiche fenotipiche rare nel database e appiattire quindi artificialmente la varietà del campione.

Dunque l’analisi deve procedere con criteri piuttosto larghi per la definizione di un outlier, in modo da individuare solamente i casi in cui c’è stato un chiaro errore nella segmentazione. D’altra parte, alla luce dei risultati ottenuti nel capitolo 9, è ragionevole supporre che nel data- base siano presenti numerosi casi di errata segmentazione che possono costituire degli outlier.

A questo proposito sono stati esaminati sia i valori delle singole feature (outlier univariati), anche alla ricerca di possibili feature che fossero costantemente stimate in modo errato da Freesurfer, sia l’insieme di valori delle feature di un singolo paziente (outlier multivariati).

10.1

Outlier univariati

In primo luogo si è cercato di comprendere se i valori delle feature seguissero distribuzioni gaussiane. Questo è stato fatto con un test di gaussianità basato sul calcolo del coefficiente di curtosi[91], che per campioni estratti da distribuzioni normali ha media 0 e segue una distribuzione di tipo chi-quadro.

Assumendo di rigettare l’ipotesi di gaussianità con una confidenza del 95%, solamente 63 feature su 420 totali non rifiutano l’ipotesi, mentre con una confidenza del 99.9% questo valore sale a 103. Se si considerano separatamente maschi e femmine, questi numeri migliorano leggermente, ma comunque non giustificano l’assunzione di normalità delle distribuzioni delle feature (risultati riassunti in tabella 10.1).

Anche la ricerca di altre distribuzioni (non gaussiane) che potessero corrispondere a quelle delle feature si è rivelata infruttuosa, pertanto si è scelto di procedere senza assunzioni a priori sulla distribuzione di queste grandezze.

64 10Analisi degli outlier e preprocessamento dei dati

10.1.1 Esame delle singole feature

L’analisi volta alla ricerca di particolari feature che fossero sistematicamente anomale in un significativo numero di pazienti si è svolta come segue:

• E’ stato calcolato un dataset contenente, per ogni soggetto, gli z-score di ciascuna sua feature;

• Si è posta particolare attenzione alle feature che risultavano sopra a una soglia di z=4.5 in numerosi soggetti.

• Si è cercato di capire se i pazienti che presentavano una feature anomala avevano anche altre grandezze anomale, per stabilire se il problema interessava la segmentazione generale di quello specifico soggetto o la stima di quella feature.

In particolare, si è trovato che la maggior parte delle grandezze che Freesurfer identifi- ca con "CurvInd" e "MeanCurv", che rappresentano rispettivamente l’indice e il valore di curvatura media di specifiche regioni corticali, risultano avere alti valori di z-score (>4.5). Più precisamente, dei 342 pazienti che risultano avere almeno una feature con uno z-score maggiore di 4.5, 209 hanno fra le feature anaomale almeno una di queste due grandezze. Escludendo completamente queste grandezze dal database, i soggetti con almeno una feature sopra la soglia considerata risultano 179. Questa analisi è stata ripetuta con risultati simili separando maschi e femmine.

Dal momento che queste grandezze sono calcolate per ogni regione corticale in esame, ogni paziente, nel suo vettore da 420 feature ne presenta 124. Nel dataset ci sono 2161 pazienti, se si calcola dunque il numero totale di volte in cui una grandezza "CurvInd" o "MeanCurv" risulta avere uno z-score maggiore di 4.5 si ottiene che ciò è vero nello 0.3% dei casi. Si può dunque concludere che, anche se queste grandezze presentano valori anomali più frequentemente delle altre, non è opportuno ritenere che Freesurfer le calcoli in modo errato, pertanto non sono state eliminate dal dataset.

10.1.2 Definizione dei criteri di esclusione

Stabilito che non ci sono feature da eliminare completamente dal dataset, si può procedere alla ricerca degli outlier univariati. Per farlo si definisce un valore di z-score di cut-off zc: i soggetti che hanno almeno una feature con un valore superiore a zcsaranno ritenuti outlier. Dato che le feature non hanno una distribuzione gaussiana, non è possibile rifarsi ai canonici valori di z utilizzati in questi casi, pertanto si è proceduto graficando il numero di soggetti ritenuti outlier al variare di zce cercando di selezionare un valore che rappresentasse un valido compromesso tra eliminare meno pazienti possibili e comunque avere un campione privo di artefatti dovuti alla segmentazione. La stessa operazione è stata ripetuta considerando i sottoinsiemi dei soli maschi e delle sole femmine (e calcolando lo z-score solo su di essi).

Sono stati quindi individuati outlier nell’intero dataset con un criterio di zc =5, mentre nei due sottoinsiemi divisi per genere zcè stato fissato a 4.5. La metodologia utilizzata per

Confidenza Tutti i soggetti Maschi Femmine

95% 63 70 189

99.9% 103 111 237

Documenti correlati