• Non ci sono risultati.

Scelta della lista di picchi

La comparazione degli spettri è stata eseguita mediante il software ClinProToolsTM 2.2. Prima del calcolo statistico dell’area dei picchi, sono state effettuate sugli spettri alcune operazioni per ottimizzare il numero e l’accuratezza dei segnali: una normalizzazione sulla corrente ionica totale (TIC) di tutti gli spettri in elaborazione e un nuovo allineamento in base ai picchi di maggiore intensità.

La selezione dei dati è stata ottenuta applicando i seguenti filtri: Risoluzione = 800;

Convex Hull = 0,8;

Esclusione degli spettri privi di segnali o non ricalibrabili.

Lo spettro medio di ciascun campione, dunque solo uno spettro sui quattro acquisiti per ogni soggetto mediante analisi MALDI-TOF, è stato poi usato per l’elaborazione statistica. L’individuazione dei picchi negli spettri è stata eseguita impostando un valore di rapporto S/N di 3 e le aree dei picchi sono state calcolate utilizzando un’integrazione di tipo end-point level.

In tal modo il software ha generato una lista di picchi (m/z) con ciascuno il proprio valore di area, che è stata utilizzata per la successiva analisi statistica.

Individuazione delle differenze di abbondanza relativa tra profili spettrali

L’analisi statistica dei profili proteici ottenuti dopo purificazione dei campioni con biglie a fase inversa (C8) è stata eseguita con l’aiuto del Dipartimento di Informatica Sistemistica e Comunicazione dell’Università Milano-Bicocca.

Uno schema dei processi che sono stati effettuati è riportato in Figura 36.

Figura 36. Schema generale delle analisi statistiche effettuate usando il software statistico RapidMiner.

Al fine di operare una corretta analisi statistica, in primo luogo è stata valutata l’ipotesi di una distribuzione normale dei dati e l’omogeneità della varianza; ad esempio è stato verificato per ciascun segnale presente negli spettri di pazienti/controlli se avesse una distribuzione normale e per ciascun segnale è stato verificato che sia i dati relativi ai controlli che quelli relativi ai pazienti avessero la stessa varianza (Figura 36, riquadro 3).

Quindi appropriati test parametrici e non parametrici sono stati utilizzati per il confronto e la correlazione tra i pazienti e i controlli. Per la verifica della normalità è stato applicato il test di Shapiro-Wilk (livello di significatività fissato a 0.05), mentre per verificare l’omogeneità delle varianze sono stati applicati il test di

Bartlett se la distribuzione dei dati era normale e il test di Levene per distribuzioni dei dati non normali (livello

di significatività fissato a 0.05).

Lo scarto (o differenza) interquartile IQR è stato utilizzato per rilevare gli outliers; le successive analisi statistiche sono state effettuate sia considerando gli outliers che rimuovendoli dai dati (Figura 36, riquadro 2).

Dal momento che la maggior parte dei dati deviava significativamente dalle assunzioni parametriche è stato effettuato il test di Spearman per valutare la relazione tra le variabili in esame (Figura 36, riquadro 4). In questo caso, per ciascun segnale è stata considerata sia la forza di correlazione tra l’età del soggetto controllo e il valore dell’area associata al picco (coefficiente di correlazione di Spearman) sia il significato statistico di questo coefficiente, ovvero valori di p-value inferiori a 0.05 indicano una rilevanza statistica.

Per eseguire un’indagine statistica al fine di rilevare le differenze di espressione tra le classi in esame sono stati eseguiti i seguenti test: t-test/Welch test per insieme di dati parametrici con varianza uguale/disuguale rispettivamente, Wilcoxon/Kolmogorov-Smirnov test per dati non parametrici, con varianza uguale/diseguale rispettivamente (Figura 36, riquadro 5). Sulla base di questi test viene calcolato per ogni picco il valore di

p-value indicativo della probabilità che la differenza di espressione trovata nelle popolazioni in esame non sia

fondata su un evento casuale. Dunque questo indice rappresenta il livello di significatività effettiva ed è indipendente dall’altezza e dall’area del picco. Se il p-value è ≤ 0.05 il segnale è statisticamente significativo ai fini di una buona separazione, mentre se il p-value è > 0.05 il segnale non permette una discriminazione delle classi.

Costruzione di clusters diagnostici

Successivamente la selezione dei clusters di segnali in grado di separare le popolazioni in studio è stata eseguita con il software RapidMiner (RaM). RaM è un software sviluppato per eseguire rapidamente i processi di machine learning e knowledge discovery (KD) [276, 277]. RaM è attualmente utilizzato per risolvere problemi di classificazione, clusterizzazione e anche di integrazione di grandi quantità di dati. L’utente viene supportato con semplici interfacce grafiche dove si possono combinare i diversi operatori messi a disposizione per effettuare le analisi di Data Mining e il flusso di lavoro viene costruito collegando gli operatori tra di loro.

Al fine di indagare le capacità diagnostiche dei picchi presenti nei profili spettrali delle popolazioni in esame e di individuare un sottogruppo di segnali capaci di discriminare pazienti affetti da diverse patologie è stato ottimizzato uno specifico workflow (Figura 37); fondamentalmente sono stati eseguiti i processi di features

selection, di cross-validation con una k-fold = 10, e di performance evaluation basata sull’algoritmo SVM (Support Vector Machine), evitando l’overfitting.

Figura 37. RapidMiner workflow. A) Il processo di feature selection e K-fold cross-validation con K = 10 viene eseguito sull’intera

popolazione. In seguito l’operatore Spit data suddivide la popolazione in due parti: la prima parte viene usata per la creazione del modello, la seconda per la sua validazione. Le performance che si otterranno saranno relative al processo di validazione. B) Validazione delle feature selection scelte tra le tante a disposizione. C) Performance del processo di feature selection e cross-validation.

L’indagine di possibili pattern proteici in grado di discriminare le popolazioni in esame è stata condotta tramite utilizzo di algoritmi matematici utili per la creazione di un modello diagnostico. Il software RM ha usato un algoritmo Support Vector Machine (SVM) per valutare la capacità di classificazione di un insieme di segnali.

Il SVM seleziona una combinazione di picchi che permettono di separare le popolazioni in esame attraverso l’utilizzo di un vettore. Si basa sul principio di “minimizzazione del rischio strutturale (SRM)”, ovvero ha lo scopo di identificare la combinazione migliore di features e con il minor rischio di fallimento [278-280]. Esso utilizza le intensità delle features come coordinate in uno spazio N-dimensionale (nel nostro caso N = 12).

La selezione delle features è stata condotta utilizzando un approccio di tipo wrapper che utilizza il classificatore come una “scatola nera” al fine di identificare un sottoinsieme di features in base al loro potere predittivo. Dal momento che il numero di tutte le possibili combinazioni di features aumenta esponenzialmente con il numero di features considerate, la ricerca di un sottoinsieme di features che fornisca la più accurata precisione di classificazione è spesso una fase critica da realizzare. Per superare questo problema molti algoritmi matematici sono stati sviluppati per indirizzare la ricerca di un sottogruppo ottimale di features. Nel nostro caso, è stato applicato uno schema forward selection.

In particolare, tre sono gli algoritmi di SVM considerati in questo studio: Dot, Radial e ANOVA allo scopo di trovare il modello avente la migliore efficienza discriminativa. Inoltre sono state condotte una serie di analisi statistiche in cui sono stati impiegati diversi Data Input e diversi valori di suddivisione dei dati da destinare alla fase di costruzione del modello e a quella di validazione (9:1, 8:2 e 6:4).

I valori di sensibilità e specificità sono stati calcolati per ogni modello selezionato e la performance diagnostica dei segnali è stata valutata all’interno dell’intera casistica mediante un processo di k-fold

cross-validation. Il processo di cross-validation è stato condotto mediante una validazione di tipo k-fold (K = 10).

L’insieme di dati iniziale S viene diviso in sottoinsiemi (S1, S2, …, Sk). Prima, il modello di classificazione viene addestrato su K-1 sottoinsiemi e poi viene utilizzato per classificare i campioni dei rimanenti sottoinsiemi. Una stima dell’accuratezza (e delle altre misure di performance) del classificatore viene ottenuta attraverso l’operatore performance. Le performance ottenute sia nel processo di feature selection che di

cross-validation sono state definite da indici standard normalmente impiegati nella valutazione della precisione

e accuratezza di un’indagine inferenziale: sensibilità, specificità, valori predittivi negativi e positivi (VPN e VPP) [281]. L’analisi della curva ROC (Receiver Operating Characteristic curve) consente di valutare l’accuratezza di un particolare test diagnostico, ossia la sua capacità di distinguere i casi malati dai soggetti sani. La curva ROC offre una visione grafica circa la specificità e sensibilità di un test e fornisce una stima della abilità discriminante di un determinato modello. L’asse x riporta la specificità in termini di falsi positivi, mentre l’asse y la sensibilità. Il valore AUC (Area Under Curve), che rappresenta l’area sottesa alla curva ROC, indica la capacità del cluster di classificare correttamente i dati. L’analisi della curva ROC e dei rispettivi valori AUC è stata eseguita come descritto in un lavoro precedente [282].

Individuazione di peptidi endogeni correlati con la progressione tumorale

L’analisi statistica per l’individuazione di alterazioni di peptidi endogeni correlate con la progressione tumorale è stata effettuata come sopra-descritto. Inizialmente sono state valutate la normalità e l’omogeneità della varianza mediante i test di Shapiro–Wilk, Barlett e Leven, seguiti dai relativi test parametrici o non parametrici per il confronto tra gruppi. Le variazioni di espressione dei peptidi urinari in base ai dati clinici sono state esaminate utilizzando la correlazione per ranghi di Spearman (Spearman’s rho). Tutti i test sono stati applicati utilizzando un p-value di 0.05 come soglia di significatività statistica.

IDENTIFICAZIONE DEI PEPTIDI ENDOGENI