POLITECNICO DI TORINO
Corso di Laurea in Ingegneria Matematica
Tesi di Laurea Magistrale
Metodi statistici per la ricerca di biomarcatori in metabolomica Il caso del tumore alla prostata
Relatore
prof. Mauro Gasparini
Laureando
Andrea Capra
Anno accademico 2017 – 2018
Ringraziamenti
Ringrazio la mia famiglia per avermi incoraggiato e aiutato nei momenti difficili.
Ringrazio gli amici con i quali in questi anni di universitá ho condiviso momenti bellissimi.
Desidero inoltre ringraziare il professor Mauro Gasparini e la Dottoressa Lidia Sac- chetto, per la grande disponibilitá e cortesia dimostratemi e per tutto l’aiuto fornito durante il periodo di tesi.
Ringrazio il laboratorio di Farmacogenomica dei Tumori, Fondazione Edo e Elvo Tempia di Biella per avermi gentilmente concesso i dati utilizzati nelle analisi.
Infine ringrazio Marco e Federica per essermi stati vicino in questo periodo parti- colarmente impegnativo.
Sommario
L’obiettivo del seguente elaborato é l’esplorazione di nuovi possibili biomarcatori non invasivi che permettano di individuare la presenza del carcinoma alla prostata.
Attualmente, per tale malattia, i metodi di screening per la diagnosi precoce pre- vedo l’utilizzo del PSA, un enzima prodotto dalla prostata, il quale peró porta a risultati insoddisfacenti con alte percentuali di falsi positivi e falsi negativi. La ricerca di nuovi possibili biomarcatori é stata effettuata nel campo della metabo- lomica, una scienza recente e ancora abbastanza inesplorata che studia i processi cellulari dell’organismo umano, misurando la concentrazione di molecole molto pic- cole (i metaboliti) per valutare le condizioni di salute di una persona. In particolare, sono state condotte indagini statistiche su un dataset reale gentilmente fornito dal laboratorio di Farmacogenomica dei Tumori, Fondazione Edo e Elvo Tempia di Biella.
L’elaborato é cosí strutturato:
• Nel capitolo 1 sono stati introdotti alcuni concetti di biologia, con particolare enfasi sullo strumento che ha portato allo sviluppo della metabolomica, per- mettendo l’analisi su larga scala dei derivati del metabolismo cellulare. É stata data una definizione di biomarcatore e sono state discusse le diverse tipologie e possibili utilizzi in biomedicina. Infine sono state presentate alcune nozioni generali sul tumore alla prostata.
• Nel capitolo 2 sono stati analizzati i principali metodi statistici utilizzati nella ricerca di biomarcatori. Sono stati proposti metodi di analisi univariata utili a individuare variabili che, prese singolarmente, sono associate con un certo stato fisiologico; metodi di analisi multivariata che permetto di selezionare piú variabili insieme. Si é discusso dei principali indici statistici utilizzati per valutare la qualitá di un biomarcatore, con particolare riferimento alla curva ROC. Infine sono state presentate le principali problematiche specifiche legate ai dataset di metabolomica: i valori mancati e le eterogeneitá presenti tra i diversi campioni dovute a fattori non biologici.
• Nel capitolo 3 si é analizzato un dataset reale; in particolare sono stati applicati i metodi statistici descritti nel capitolo 2, con lo scopo di discriminare due
L’analisi ha consentito di individuare alcuni metaboliti che, in combinazione tra loro e con l’etá sembrano avere un potere discriminante superiore al PSA. Tutta- via le prestazioni dei modelli analizzati risultano ancora troppo limitate per poter includere questi metaboliti come nuovi biomarcatori diagnostici del tumore alla prostata.
Indice
1 Introduzione 7
1.1 La metabolomica e il metabolismo . . . 7
1.2 I biomarcatori . . . 8
1.3 Lo strumento per le analisi di laboratorio . . . 9
1.3.1 Alcune definizioni utili . . . 9
1.3.2 La spettrometria di massa . . . 9
1.3.3 La spettrometria di massa accoppiata con la cromatografia liquida . . . 10
1.4 Il carcinoma della prostata . . . 12
1.5 Propositi della tesi . . . 13
2 Tecniche di analisi statistica 15 2.1 Analisi univariata . . . 15
2.1.1 Il t-test per dati normali . . . 15
2.1.2 Il test dei ranghi di Mann-Whitney . . . 17
2.1.3 Il problema dei test multipli . . . 18
2.1.4 Strumenti per l’analisi grafica . . . 20
2.2 Analisi multivariata . . . 20
2.2.1 Il modello logistico . . . 20
2.2.2 La selezione delle variabili tramite la regressione logistica penalizzata . . . 22
2.3 Le prestazioni del modello . . . 26
2.3.1 La matrice di confusione: accuratezza, sensibilitá e specificitá 26 2.3.2 La curva ROC. . . 28
2.3.3 La cross validation . . . 30
2.4 Problemi tipici in metabolomica . . . 31
2.4.1 Metodi di normalizzazione e rimozione degli effetti batch . . 31
2.4.2 Metodi di pre-elaborazione dei dati . . . 34
2.4.3 La gestione dei valori mancanti . . . 36
3.1 Descrizione del dataset . . . 41
3.2 Analisi preliminare del dataset . . . 42
3.3 Pre-elaborazione del dataset . . . 48
3.4 Analisi univariata . . . 53
3.5 Analisi multivariata . . . 59
3.6 Identificazione del modello e valutazione . . . 60
4 Conclusioni 67
A Codice R utilizzato 69
Bibliografia 83
Introduzione
1.1 La metabolomica e il metabolismo
Il metabolismo é l’insieme delle reazione chimiche che avvengono in un organismo vivente e che gli consentono di crescere e riprodursi. I composti chimici che interven- gono nel metabolismo sono chiamati metaboliti. Il metaboloma umano é l’insieme completo di tutti i metaboliti presenti in un biofluido (plasma, siero, urina...) in un certo istante di tempo e ne costituisce, dunque, la componente chimica, escluse le macro-molecole (le proteine e gli acidi nucleici).
Il termine metaboloma é stato coniato in analogia con il termine genoma, ma a differenza di quest’ultimo, é un’entitá estremamente dinamica, in grado di cambia- re da secondo a secondo e molto variabile da persona a persona; questo perché il metaboloma é il risultato dell’interazione dell’espressione genica con l’ambiente in cui viviamo.
Le "piccole" molecole che costituiscono il metaboloma includono: peptidi, lipidi, amminoacidi, carboidrati, acidi organici, vitamine, minerali, additivi dei cibi, me- dicine, droghe, tossine, inquinanti, e ogni altro composto chimico (con peso mole- colare < 2000 Da) con cui l’essere umano entra in contatto.
Gli esperimenti di metabolomica si suddividono in due approcci complementari:
l’approccio targeted in cui, essendo noti a priori i metaboliti da analizzare, i cam- pioni vengono preparati in modo tale che l’esperimento metta in evidenza tali me- taboliti; l’approccio untargeted il cui scopo é misurare, almeno idealmente, tutti i metaboliti presenti nel campione. Inoltre, la metabolomica ha un duplice utilizzo:
puó essere utilizzata per la comprensione dei processi biologici e per identificare nuovi biomarcatori.
1.2 I biomarcatori
In generale, i biomarcatori sono un indicatore dello stato di salute di un organismo.
A seconda del loro utilizzo distinguiamo tra biomarcatori prognostici e biomarca- tori predittivi.
Un biomarcatore prognostico permette di discriminare i pazienti in base al grado di rischio di insorgenza della malattia e fornisce informazioni sul decorso naturale della patologia, in assenza di un intervento terapeutico. Fanno parte di questa ca- tegoria i biomarcatori diagnostici, che consentono di individuare in un soggetto un particolare stato fisiologico o una malattia.
Ad esempio, l’antigene carboidrato 19-9 (Ca19-9) é un marker tumorale che viene ricercato nel sangue ed é associato alla presenza del carcinoma al pancreas. Questo test non ha un alto valore diagnostico a causa della scarsa specificitá e della presenza di falsi negativi. Tuttavia, una volta diagnosticato il cancro, la concentrazione dei livelli di Ca 19-9 ha un elevato valore prognostico, in quanto una rapida riduzione dei livelli in seguito alla terapia chirurgica correla con un buon grado di resezione di neoplasia attiva. Analogamente, l’aumento del Ca 19-9 in corso di follow-up post operatorio correla con recidiva di neoplasia pancreatica o con la presenza di metastasi.
I marcatori predittivi permettono invece di predire se un paziente risponderá o meno ad una determinata terapia e consentono dunque di definire il miglior tratta- mento medico da somministrare. Permettono inoltre di stabilire il dosaggio di una terapia e di valutarne l’efficacia.
Un classico esempio di marcatore predittivo é il gene ERBB2 per il carcinoma della mammella: le pazienti che presentano un’amplificazione di tale gene beneficiano del trattamento con un determinato farmaco (il trastuzumab), mentre le pazienti in cui il recettore per gli estrogeni é espresso dal tumore rispondono al trattamento con un altro farmaco (il tamoxifen).
Chiaramente non é detto che un biomarcatore appartenga ad un unica classe; ne esistono alcuni che hanno un duplice utilizzo (prognostico e predittivo).
A seconda della loro natura, possiamo distinguere tra biomarcatori genetici, bio- chimici e biologici.
In generale un buon biomarcatore é caratterizzato dalla non-invasivitá, dalla sem- plicitá di analisi, da elevati valori di sensitivitá e specificitá (nel caso di marcatori prognostici la predizione del biomarcatore deve infatti rispecchiare il vero stato del paziente), da un alto grado di interazione con la terapia (nel caso di biomarcatori predittivi). Un altro requisito fondamentale é la riproducibilitá: la misurazione di un biomarcatore, se ripetuta piú volte, deve mantenere i propri valori inalterati, fornendo lo stesso risultato.
1.3 Lo strumento per le analisi di laboratorio
Il recente sviluppo della metabolomica é stato favorito dalla nascita di tecniche strumentali, quali la risonanza magnetica nucleare (NMR) e la spettrometria di massa (MS), in grado di misurare, attraverso un unico esperimento, migliaia di metaboliti contemporaneamente (approccio omico).
In particolare la MS, preferita nelle analisi untargeted per la sua maggiore sensibili- tá, si basa sul principio che per una molecola ionizzata si puó facilmente misurare la sua massa: é sufficiente immergerla in un campo magnetico e osservare il suo moto;
il processo di ionizzazione risulta dunque cruciale. Ionizzare molecole biologiche non é peró un processo semplice e viene prodotto molto rumore. L’identificazione della molecola, ovvero risalire al composto chimico nota la massa, é un procedimento complicato, poiché esistono composti diversi con stessa massa (gli isomeri).
1.3.1 Alcune definizioni utili
Nel contesto della spettrometria di massa bisogna fare attenzione al concetto di massa di un composto/metabolita. É necessario distinguere tra il numero di massa e la massa monoisotopica.
Il numero di massa é pari alla somma di protoni e neutroni presenti in un atomo.
É un numero intero.
La massa molecolare é la massa di un certo composto chimico espressa in senso relativo, rispetto alla dodicesima parte della massa del piú importante e abbondan- te isotopo naturale del carbonio, il12C. L’ unitá di misura della massa molecolare é il Dalton (Da), che si riferisce dunque alla dodicesima parte della massa del 12C La massa monoisotopica di una molecola é la somma delle masse degli atomi che la compongono, considerando, per ogni atomo, la massa non approssimata del- l’isotopo piú presente in natura.
Nella MS si usa il termine massa riferendosi alla massa monoisotopica.
Infine, un altro concetto importante é il rapporto massa-carica (mass-to-charge ratio). Si tratta di una quantitá fisica utilizzata in elettrodinamica, in quanto due molecole aventi lo stesso rapporto massa-carica seguono la stessa traiettoria nel vuoto, se immerse nelle stesso campo elettromagnetico.
In presenza di ioni con lo stesso stato di carica, si ha una corrispondenza uno-a-uno tra massa monoisotopica e rapporto massa-carica.
1.3.2 La spettrometria di massa
Esistono diverse tipologie di MS. Tutte sono, peró, costituite da tre parti: lo ionizzatore, l’analizzatore e il rilevatore.
Lo ionizzatore converte composti chimici elettricamente neutri in ioni carichi.
Esistono diversi tipi di ionizzatori: il piú usato in metabolomica é l’elettrospray
(ESI), poiché é in grado di ionizzare un’ampia gamma di molecole con diversa massa molecolare e polaritá, lasciando le molecole intatte quindi piú facilmente identificabili.
L’analizzatore separa gli ioni, elettricamente carichi, secondo il loro rapporto massa-carica utilizzando un campo elettromagnetico.
Il principio di funzionamento delle varie tipologie di analizzatore é lo stes- so, nonostante la loro risoluzione (ovvero la precisione della misura) possa variare significativamente. In particolare l’accelerazione di uno ione risulta determinata proprio dal suo rapporto massa-carica (m/z).
Il rilevatore ha lo scopo di quantificare una determinata specie ionica. Esso con- verte l’abbondanza di uno ione in un segnale elettrico, registrandone la corrente prodotta quando questo passa attraverso il rilevatore.
Sebbene le moderne spettrometrie di massa abbiano una risoluzione elevatissima, non é semplice ricondurre un certo m/z al metabolita corrispondente. Ció é dovuto al fatto che metaboliti con formula chimica diversa possono presentare masse simili;
inoltre esistono metaboliti aventi uguale formula chimica, ma diversa struttura.
Questi metaboliti vengono definiti isomeri e possono essere di due tipi:
Gli isomeri strutturali: in cui gli atomi e i gruppi funzionali sono gli stessi, ma legati in maniera differente (differenti legami chimici).
Gli stereoisomeri: in cui gli atomi e i legami chimici coincidono, ma cambia la posizione geometrica.
Gli isomeri strutturali hanno masse esatte differenti, ma osservabile solo con stru- menti ad altissima risoluzione; gli stereoisomeri hanno masse perfettamente coin- cidenti. Un esempio di isomeri strutturali sono la cotinina e la serotonina, aventi massa coincidente arrotondata alla quinta cifra decimale, ma differente formula di struttura e ruolo biologico.
1.3.3 La spettrometria di massa accoppiata con la croma- tografia liquida
Quando si analizza un miscuglio complesso come il sangue, la MS é spesso prece- duta dalla cromatografia liquida (LC).
Il campione da analizzare é sciolto in un liquido/solvente chiamato "fase mobile".
Tale liquido viene spinto lungo una colonna di vetro da forti pressioni. All’interno della colonna é presente un materiale poroso ("fase stazionaria"), che "ostacola" il passaggio dei vari composti chimici presenti nel solvente. Ogni composto, dun- que, eluisce (ovvero viene espulso dalla colonna) in un tempo diverso, indicato con retention time (RT). Il RT é soggetto a variazioni significative dipendenti dalle con- dizioni dell’esperimento; solo pochi metaboliti hanno un RT uguale o simile in un
esperimento (fenomeno chiamato coeluzione). Dunque la LC riduce la complessitá del campione e diminuisce il rumore di sottofondo nel processo di rilevamento del- l’MS.
Poiché i composti presenti nel campione sono separati sia attraverso la LC sia attraverso la MS, i dati ottenuti attraverso la tecnica LC-MS generano un segnale tridimensionale (come mostrato in Figura1.1). Una dimensione del segnale é il RT, la seconda é l’m/z e la terza fornisce un quantitativo del metabolita, la concentra- zione o intensitá (a seconda se si pone maggiore attenzione al significato biologico o al significato fisico, intensitá di corrente).
Figura 1.1: Dati grezzi generati dalla LC-MS.
Per predisporre i dati a successive analisi statistiche, i dati grezzi devono essere pro- cessati. Il pre-processamento include varie fasi. Nella peak detection i dati grezzi continui sono convertiti in dati discreti, in modo tale che ogni ione sia rappresentato da un picco. Tale trasformazione offre due vantaggi:
• viene rimosso parte del rumore presente nei dati grezzi;
• la dimensione dei dati viene ridotta senza perdita di informazioni.
Ogni picco rappresenta quindi un metabolita identificato da una terna di valori:
m/z, RT, concentrazione.
Successivamente, il peak aligment rende possibile confrontare i dati tra i vari cam- pioni, assegnando lo stesso RT ai medesimi metaboliti nei diversi campioni (il RT dei vari metaboliti puó infatti variare da campione a campione). La Tabella 1.1 é un esempio di sintesi delle fasi di peak detection e peak aligment per un set di campioni: ogni riga rappresenta un metabolita (ma lo stesso metabolita puó essere
Tabella 1.1: Dati in forma tabulare, pronti per le analisi statistiche.
m/z RT Campione 1 Campione 1 . . . Campione N 167 1870 2997876 4066690 . . . 2336552 170 1439 10299087 2950550 . . . 4275303 184 1850 3098962 2145263 . . . 1173226 186 1842 3638807 1482374 . . . 1614796
... ... ... ... ... ...
202 1849 2392494 1346477 . . . 1220198
rappresentato in piú righe), identificato tramite le prime due colonne (m/z, RT), mentre le colonne successive rappresentano il valore di concentrazione per i vari campioni.
1.4 Il carcinoma della prostata
Il carcinoma prostatico (PCa) é un tumore maligno che colpisce le cellule epiteliali della prostata, una ghiandola dell’apparato genitale maschile. In Italia, nel 2012, il PCa é stato il tumore maligno piú frequentemente diagnosticato, seguito dal tu- more ai polmoni e al colon retto. Inoltre costituisce la terza causa di morte tra i morti di tumore (Figura 1.2).
I sintomi dell’insorgenza del PCa sono difficoltá a iniziare la minzione e a mantene-
Figura 1.2: Mortalitá e incidenza dei principali tumori maligni (2012).
re un getto costante, presenza di sangue nelle urine, minzioni frequenti in cui viene espulsa piccola quantitá di urina. Tali sintomi sono simili a quelli che insorgono in
caso di iperplasia prostatica benigna (BPH), che é una condizione caratterizzata dall’aumento di volume della ghiandola prostatica, ma non é una neoplasia mali- gna.
Attualmente, solo la biopsia, ovvero l’asportazione di un frammento di tessuto, puó confermare pienamente la presenza di un PCa. Le scelte diagnostiche di screening, utili per individuare tumori in fase precoce, nel caso del tumore della prostata comprendono l’esame rettale (digital rectal examination, DRE) e il dosaggio del- l’antigene prostatico specifico (PSA).
Il DRE permette di valutare le dimensioni, la forma e la consistenza della prostata:
zone irregolari, dure o bozzolute devono essere sottoposte a ulteriori valutazioni, perché potrebbero indicare la presenza di tumore. Tale esame risulta efficace poi- ché in genere le irregolaritá nella prostata dovute al PCa si differenziano da quelle generate da BPH.
L’alterazione del dosaggio ematico del PSA é un altro segnale della possibile insor- genza del tumore prostatico. Il PSA é infatti un enzima prodotto dalla prostata;
livelli di PSA sotto 4 ng/mL sono generalmente considerati normali, mentre livelli sopra i 4 ng/mL indicano un maggiore rischio di tumore. In ogni caso circa 1/3 dei pazienti affetti da PCa non presenta valori alterati del dosaggio di PSA e, d’altra parte, ci sono soggetti con valori di PSA molto elevati che non presentano PCa. Il PSA non risulta quindi essere un buon indicatore diagnostico per il carcinoma alla prostata, poiché produce un elevato numero di falsi positivi (soggetti sani indicati come malati dal test del PSA e quindi costretti a biopsie invasive) e falsi negativi (soggetti malati indicati come sani dal test).
1.5 Propositi della tesi
Vista la scarsa utilitá del PSA, si é alla ricerca di biomarcatori alternativi che abbiano prestazioni migliori a livello prognostico e diagnostico per il tumore alla prostata.
Il recente sviluppo di strumenti di analisi che consentono di misurare contempora- neamente migliaia di variabili biologiche (high-throughput experiments) ha ampliato e velocizzato le possibilitá di individuare nuovi biomarcatori.
Lo scopo di questa tesi é l’esplorazione di possibili nuovi biomarcatori nel campo della metabolomica. L’analisi dei metaboliti é infatti promettente in tal senso: nu- merosi studi scientifici hanno individuato alcune di queste variabili biologiche come biomarcatori per il tumore al pancreas e al colon.
La nostra indagine é stata condotta su un dataset reale con soggetti affetti da tumore prostatico e iperplasia benigna.
Tecniche di analisi statistica
Le analisi statistiche che faremo hanno lo scopo di individuare variabili che, pre- se singolarmente o in combinazione, permettano di discriminare tra due gruppi, il gruppo dei "sani" e il gruppo dei "malati". Tratteremo, cioé, metodi per la classifi- cazione binaria.
L’estensione di tali metodi a casistiche in cui sono presenti piú di due gruppi puó non essere immediata.
Presenteremo le tecniche piú utilizzate per valutare la qualitá di un classificatore.
Infine tratteremo le principali tematiche legate al pre-processamento di dati acqui- siti tramite LC-MS.
2.1 Analisi univariata
L’analisi univariata consiste nell’analizzare le singole variabili separatamente, al fine di individuare quelle differenzialmente espresse tra i vari gruppi.
Quando la distribuzione di una certa variabile per i diversi gruppi ha un andamento normale, si utilizza un test parametrico (t-test).
In caso di non normalitá dei dati, se tale condizione continua a valere anche dopo aver applicato la trasformazione di Box-Cox, si utilizza il test dei ranghi di Mann- Whitney, basato su un approccio non parametrico. Per valutare la normalitá dei dati si puó utilizzare, ad esempio, il test di Shapiro-Wilk.
2.1.1 Il t-test per dati normali
Verificare se le variabili sono differenzialmente espresse nei due gruppi, in un’ ottica parametrica, dove le distribuzioni delle variabili nei due gruppi si assumo normali, vuol dire andare a valutare se le medie di tali distribuzioni posso essere assunte identiche. A seconda che la varianza sia nota, incognita ma si possa assumere identica nei due gruppi, oppure incognita e diversa nei gruppi, esistono diversi test.
Siano dunque X = (x1, . . . , xn) ∼ N (µx, σx2) e Y = (y1, . . . , ym) ∼ N (µy, σ2y), realizzazioni indipendenti e identicamente distribuite (iid) provenienti dalle due variabili aleatorie; si vuole verificare:
H0 : µx = µy contro H1 : µx = µ/ y. (2.1) Nel caso di varianze incognite e identiche, si definisce la statistica T :
T =
X − ¯¯ Y Sq1/n + 1/m
(2.2)
con S2 = (n − 1)Sx2+ (m − 1)Sy2
n + m − 2 (2.3)
dove ¯X, Sx e n sono la media campionaria, la deviazione standard campionaria e la dimensione del campione del gruppo 1, analogamente per il gruppo 2.
Sotto l’ipotesi di normalitá T segue una distribuzione t di Student con ν = m+n−2 gradi di libertá:
T ∼ tn+m−2.
Si fissa, quindi, un livello di significativitá α (ovvero la probabilitá di rifiutare l’ipotesi nulla (H0) quando questa invece é vera) e si costruisce una regione di rifiuto del test. Valori tipici per α sono 0.05, 0.01.
In particolare, possiamo verificare l’ipotesi µx = µy come segue:
si rifiuta H0 se |T | > tα
2,n+m−2
si accetta H0 se |T | ≤ tα
2,n+m−2
Per decidere se accettare o meno un test si utilizza il p-value. Il p-value é cosí definito:
p-value = P(|T | > toss|H0 é vera) (2.4) dove toss é il valore osservato per la statistica T ed é una misura di quanto i dati supportano l’ipotesi nulla H0. p-value maggiori del livello di significativitá α sug- geriscono di accettare l’ipotesi nulla, diversamente si rifiuta l’ipotesi nulla e il test viene detto significativo.
In biologia spesso si utilizza una variante del t-test chiamata moderate t-test, la cui differenza principale sta nel calcolo della varianza campionaria. Avendo a di- sposizione piú metaboliti, nel moderate t-test, la varianza di ogni metabolita viene stimata con una sorta di media ponderata tra la varianza del metabolita in que- stione e la varianza complessiva dei vari metaboliti. Si assume che la varianza per
il metabolita g, Sg2 segua una distribuzione distribuzione chi-quadro con dg gradi di libertá:
Sg2|σ2g ∼ σg2
dgχ2dg, (2.5)
dove σg2 é la varianza del metabolita. Si assume che σ2g abbia come distribuzione a priori una chi-quadro inversa con d0 gradi di libertá:
1
σg2 ∼ 1 d0s20χ2d
0.
Sotto tali ipotesi, la media a posteriori di σ2g, dato Sg2 é cosí determinata:
S˜g2 = dos20 + dgSg2 d0+ dg . I termini d0 e s20 vengono stimate dai dati.
S˜g é sostituita a Sp, definita in (2.3), per il calcolo della statistica T :
T =˜ ( ¯X − ¯Y ) S˜g
q2/n (2.6)
dove n é il numero di soggetti appartenenti a ciascun gruppo e dg = 2n − 2 (stiamo considerando il caso di esperimenti bilanciati).
Sotto l’ipotesi nulla (H0 : µx = µy) la statistica ˜T segue una distribuzione t con dg+ d0 gradi di libertá. Utilizzare la varianza "moderata", ha un duplice effetto sul t-test: viene modificato il termine S2 e cambia il numero dei gradi di libertá della distribuzione t associata alla statistica ˜T . Quindi, per metaboliti con varianza cam- pionaria elevata la potenza statistica risulta incrementata (la varianza campionaria
"moderata" é minore rispetto alla varianza campionaria propria di quel metabolita e il numero di gradi di libertá é maggiore), per i metaboliti con piccola varianza campionaria, la potenza statistica é ridotta dall’utilizzo della varianza moderata e incrementata dall’utilizzo di una statistica T a maggior numero di gradi di libertá.
2.1.2 Il test dei ranghi di Mann-Whitney
Il test dei ranghi é un test non parametrico che verifica se due gruppi di campioni statistici provengono dalla stessa popolazione. Viene utilizzato per dati quantita- tivi quando non sussiste l’ipotesi di normalitá. Siano x1, x2, . . . , xn e y1, y2, . . . , ym
i campioni provenienti dalle due popolazioni e FX, FY le rispettive funzioni di ri- partizione. Si vuole verificare l’ipotesi nulla H0 : FX = FY .
Il test dei ranghi é cosí costruito: si ordinano dal minore al maggiore le n + m os- servazioni, si assegna a ciascuna osservazione la propria posizione nell’ordinamento
appena ottenuto, si denota con Ri la posizione (il rango) dell’osservazione xi. La statistica utilizzata nel test é la somma dei ranghi delle osservazioni di FX:
T =
n
X
i=1
Ri.
Se la statistica T assume valori troppo estremali, tali da escludere una deviazio- ne casuale, si rifiuta l’ipotesi nulla. In particolare, sia α livello di significativitá stabilito e t il valore di T ; si rifiuta l’ipotesi nulla se:
P(T ≤ t) <
α
2 o P(T ≥ t) <
α 2 . Siccome T assume valori interi,
P(T ≥ t) = 1 − P(T ≤ t − 1) ; ció ci consente di affermare che H0 va rifiutata se:
P(T ≤ t) <
α
2 o P(T ≤ t − 1) > 1 − α 2 .
É necessario dunque definire la funzione di ripartizione di T sotto l’ipotesi che H0 sia vera.
Sia P(n, m, K) la probabilitá, condizionata ad H0, dell’evento {T ≤ K}, quando i campioni hanno numerositá n ed m. P(n, m, K) puó essere definita ricorsivamente dalla seguente formula:
P(n, m, K) = n
m + mP(n − 1, m, K − n − m) + m
n + mP(n, m − 1, K) con condizioni al contorno:
P(1,0, K) =
0 K ≤ 0
1 K > 0 P(0,1, K) =
0 K < 0 1 K ≥ 0 Tale formula permette di ricavare le probabilitá necessarie al test:
P(T ≤ t) = P(n, m, t) e P(T ≤ t − 1) = P(n, m, t − 1)
2.1.3 Il problema dei test multipli
Quando un test di ipotesi viene effettuato simultaneamente per piú variabili i livelli di significativitá normalmente usati non sono piú adatti e sono necessarie ulteriori considerazioni.
Ricordiamo che, se la statistica T , per una singola variabile, é maggiore di un certo valore soglia tα (che dipende dal livello di significativitá α scelto), la variabile in
questione é differenzialmente espressa. Tale conclusione potrebbe peró derivare solo da effetti casuali (e questo capita con una probabilitá α). Se la variabile é invece effettivamente differenzialmente espressa, si giunge alla conclusione corretta. Ció avviene con una probabilitá:
P("conclusione corretta") = 1 − α.
Ora, nel caso in cui k variabili debbano essere testate, la probabilitá di arrivare alla conclusione corretta per tutte le variabili é data da:
P("tutte le conclusioni sono corrette") = (1 − α) . . . (1 − α) = (1 − α)k, mentre la probabilitá di trarre almeno una conclusione errata é:
P("almeno una conclusione é errata") = 1 − (1 − α)k.
Tale valore puó essere visto come il livello di significativitá dell’intero esperimento (per l’intera famiglia di test). Ad esempio, un esprimento in cui vengono testate 20 variabili, ha una probabilitá di avere almeno un falso positivo (rifiuto di almeno un’ipotesi H0 corretta) dell’87%, se il livello di significativitá per il singolo test é fissato a 0.1. In presenza di test multipli, il classico approccio ai test di ipotesi risulta quindi inadeguato.
Esistono dei metodi per controllare il livello di significativitá globale dell’esperi- mento. Il metodo Bonferroni consiste nel ridurre il livello di significativitá di ogni singolo test, dividendolo per il numero di test eseguiti.
Siano H1, . . . , Hk una famiglia di test di ipotesi e p1. . . pk i corrispettivi p-value.
Supponiamo che per k0 di questi k test l’ipotesi nulla sia corretta. Il familywise error rate (FWER) é la probabilitá di rifiutare, errando, almeno un’ipotesi nulla Hi, cioé la probabilitá di commettere almeno un errore di 1o tipo. Rifiutare ogni singola ipotesi nulla Hi avente pi ≤ mα permette di controllare il F W ER a un livello α.
F W ER = P{∪ki=10 (pi ≤ α k)} ≤
k0
X
i=1
P{(pi ≤ α
k)} = k0α k ≤ α
kk = α . (2.7) La correzione di Bonferroni é molto restrittiva e comporta un aumento della pro- babilitá di commettere errore di 2o tipo riducendo la potenza del test.
In alternativa si puó adottare la procedura di Benjamini-Hochberg. Mentre il meto- do Bonferroni permette di controllare il F W ER, l’approccio di Benjamini-Hochberg si basa sul concetto di false discovery rate (F DR). Il FDR é cosí definito:
F DR = E
"
numero di errori di 1o tipo numero di rifiuti dell’ipotesi nulla
#
L’idea é quella di mantenere il FDR sotto una certa soglia α. A tal fine, si ordinano i p-value in ordine crescente(p(1), . . . , p(m)). Si trova il piú grande k t.c p(k) ≤ mkα.
Si rifiutano tutte le ipotesi nulle Hi con i = 1 : k. Tale approccio risulta meno stringente del metodo Bonferroni sul controllo dell’errore di 1o tipo.
2.1.4 Strumenti per l’analisi grafica
Un primo strumento per visualizzare l’espressione di una certa variabile nei diversi gruppi é il box-plot. Il box-plot permette di visualizzare la mediana, il 3o e il 1o quartile per una certa distribuzione. L’analisi visiva deve poi essere avvalorata da test di ipotesi.
Per visualizzare invece, il risultato di molteplici test si puó usare il volcano plot, un tipo di scatter-plot, in cui ogni punto rappresenta una variabile. Questo grafico permette di valutare, per ogni variabile, il livello di significativitá e il grado di dif- ferenziazione nei due gruppi. Nello specifico, il volcano plot si costruisce plottando il logaritmo (di solito in base 10) del p-value cambiato di segno sull’asse y. Piú una variabile si allontana dall’origine lungo l’asse y, maggiore é il suo livello di signifi- cativitá. Sull’asse x si rappresenta invece il logaritmo (in base 2) del fold change per una determinata variabile (il fold change é il rapporto tra le medie campionarie dei due gruppi).
2.2 Analisi multivariata
2.2.1 Il modello logistico
Il modello logistico é un caso particolare di modello lineare generalizzato (Genera- lized Linear Model GLM).
Prima di descrivere il modello logistico, presentiamo brevemente i modelli lineari.
In un modello lineare, si vuole stabilire se una variabile y, detta variabile risposta, é esprimibile come combinazione lineare delle variabili x1, . . . , xp−1, dette predittori, piú un residuo. In termini di ciascuna unitá sperimentale N , ció vuol dire:
yi = β0+ β1xi,1+ . . . βp−1xi,p−1+ i per i = 1, . . . , N esprimibile anche in forma matriciale come:
y = µ + = Xβ + (2.8)
con X ∈ RN ×p avente come colonne i vettori 1 = diag(IN), x1, . . . , xp−1 , β = (β0, . . . , βp−1)T e ∼ N (0, σIN).
L’equazione (2.8) mette in evidenza come i valori attesi µ della variabile risposta siano espressi come combinazione lineare dei predittori:
µ = E(y) = Xβ.
Si vuole trovare quel valore ˆβ t.c ||y − Xβ||2 assuma il valore minimo.
In un modello lineare generalizzato, la relazione tra µ e Xβ non é lineare, ma é espressa da una funzione g invertibile, detta link function:
g(E(y)) = Xβ.
In particolare, nel modello logistico le variabili risposta y1, . . . , yN, assunte indi- pendenti, sono originate da una distribuzione Bernoulli appartenente alla famiglia esponenziale
yi ∼ Bernoulli(πi) in cui πi é il valore atteso delle variabili risposta
πi = E(yi) = P(yi = 1)
e dipende da un set di predittori secondo la seguente relazione:
g(E(yi)) = log
πi 1 − πi
= xiβ (2.9)
dove xi ∈ Rp é una generica riga della matrice X e il log-odds (log 1−ππi
i) risulta una funzione lineare dei predittori.
Dall’equazione (2.9) otteniamo:
πi = πi(xi) = exiβ
1 + exiβ . (2.10)
Osserviamo che 0 < πi < 1.
Nel modello logistico i coefficienti β sono stimati con il metodo di massima vero- simiglianza; diversamente nella regressione lineare si utilizza il metodo dei minimi quadrati.
L’adeguatezza di un modello lineare si verifica tramite la somma dei quadrati dei residui (RSS), mentre nel modello logistico si usa invece la devianza, definita come:
Devianza = −2 log L(β)
L(βmax) = 2(l(βmax) − l(β))
dove con l(β) si indica il logaritmo della verosimiglianza L(β). La devianza é dun- que il doppio della differenza tra la log-verosimigliaza del modello massimale e la log-verosimiglianza del modello utilizzato con p predittori.
Il modello massimale ha un numero di parametri uguale al numero di righe linear- mente indipendenti della matrice X; se non ci sono repliche tale numero é uguale al numero di unitá sperimentali N . Se la matrice X ha m righe linearmente in- dipendenti, con p < m ≤ N , é possibile costruire un modello con m parametri stimabili, cioé costruire una matrice Xmax con m colonne linearmente indipenden- ti aggiungendo alla matrice X m − p colonne ottenute come funzioni non lineari delle p colonne originali.
L’adattamento dei dati al modello logistico é tanto migliore, quanto minore é il valore assunto dalla devianza.
2.2.2 La selezione delle variabili tramite la regressione lo- gistica penalizzata
Quando il numero di variabili p é elevato, é necessario selezionarne un sottoinsieme da utilizzare per la costruzione del modello, andando a rimuovere le variabili irrile- vanti nella predizione, per evitare modelli sovradeterminati.
Tale selezione ha un duplice vantaggio:
• migliora l’accuratezza del modello, riducendo la varianza;
• rende il modello piú facilmente interpretabile.
Esistono diversi metodi di selezione delle variabili; i principali sono:
Subset Selection: si costruisce il modello identificando un sottoinsieme di pre- dittori. Tale selezione puó essere effettuata impiegando i seguenti algoritmi:
– Best subset selection: prevede di testare tutte le possibili combinazioni di predittori; fra tutte le possibili combinazione viene scelta quella con accuratezza piú alta.
– Forward stepwise selection: algoritmo greedy che costruisce un modello iniziale contenente solo l’intercetta e aggiunge ad ogni passo la variabile che produce il maggior miglioramento nel modello, finché tutte le variabili non vengono incluse.
– Backward stepwise selection: algoritmo greedy che costruisce un modello iniziale contenente tutte le variabili e rimuove ad ogni passo quella meno significativa.
Shrinkage: il modello viene costruito utilizzando tutti i predittori, ma rispetto ai modelli classici, i coefficienti vengono vincolati ad assumere valori attorno allo zero; appartengono a tale categoria gli algoritmi Ridge Regression e Lasso.
Dimension Reduction: i p predittori originali vengono proiettati in un sotto- spazio M dimensionale con M < p; tali proiezioni vengono poi usate come nuovi predittori per costruire il modello. Appartengono a tale gruppo i metodi Principal Component Regression (PCR) e Partial Least Square (PLS).
Presentiamo ora, nel dettaglio la Ridge Regression e il Lasso, nel caso della re- gressione lineare. Analoghe considerazioni possono essere applicate al modello logistico.
La Ridge Regression
La Ridge Regression riduce in valore assoluto i coefficienti di regressione imponendo una penalitá sulla loro dimensione.
I coefficienti minimizzano una versione modificata della somma dei quadrati dei residui (RSS):
βˆridge = arg min
β
N
X
i=1
(yi− β0−
p
X
j=1
xijβj)2+ λ
p
X
j=1
βj2
(2.11) dove λ ≥ 0 é il parametro che permette di scegliere il livello di penalitá. Maggiore é λ, maggiore é la penalitá sui coefficienti.
L’equazione (2.11) puó essere vista anche come un problema di ottimizzazione vincolata:
βˆridge = arg min
β N
X
i=1
(yi− β0−
p
X
j=1
xijβj)2
soggetta al vincolo
p
X
j=1
βj2 ≤ t . C’é una corrispondenza uno-a-uno tra t e λ.
É necessario standardizzare le variabili prima di risolvere l’equazione (2.11) perché il valore del generico coefficiente βi non é invariante per cambiamenti di scala.
É bene notare che il termine relativo all’intercetta non viene penalizzato, perché ció renderebbe il problema dipendente dall’origine scelta per y. La soluzione di (2.11) si ottiene prima calcolando il coefficiente dell’intercetta
β0 = 1 N
N
X
i=1
yi
e, successivamente stimando i rimanenti coefficienti utilizzando gli input centrati (xij− N1 Pni=1xij).
Nel seguito tratteremo X come una matrice centrata (ogni colonna ha media zero), di dimensione N × (p − 1), in cui la prima colonna diag(IN) é stata eliminata.
Riscrivendo perció l’equazione (2.11) in forma matriciale abbiamo:
RSS(λ) = (y − Xβ)T(y − Xβ) + λβTβ e la soluzione della Ridge Regression risulta:
βˆridge = (XTX + λI)−1XTy
dove I é la matrice identitá di dimensione (p−1)×(p−1). Rispetto alla regressione lineare viene aggiunta una costante positiva alla diagonale della matrice XTX per rendere la matrice complessiva non-singolare.
La scomposizione in valori singolari (SVD) della matrice di input X ci da una maggiore conoscenza della natura della Ridge Regression.
La SVD della matrice X ∈ RN ×(p−1) ha la forma:
X = U DVT
dove U e V sono matrici ortogonali rispettivamente di dimensione N × (p − 1) e (p − 1) × (p − 1), D é una matrice diagonale che ha come valori d1 ≥ d2. . . dp−1≥ 0 chiamati valori singolari di X. Se dj = 0 per almeno un j, allora X é una matrice singolare. Applicando alla regressione lineare la scomposizione in valori singolari, la stima del vettore dei minimi quadrati ˆy risulta:
X ˆβls= X(XTX)−1XTy = U UTy Nel caso della Ridge Regression si ha:
X ˆβridge = X(XTX + λI)−1XTy
= U D(D2+ λI)−1DUTy =
=
p
X
j=1
uj d2j
d2j + λuTjy
dove uj sono le colonne di U . Come la regressione lineare, la Ridge Regression calcola le componenti di y rispetto a U , ma restringe tali componenti di un fattore
d2j
λ + d2j ; (2.12)
pertanto la penalizzazione applicata sará tanto maggiore quanto dj é minore.
Inoltre, la SVD della matrice X é un altro modo di rappresentare le componenti principali della variabile X. La matrice di covarianza, se X é centrata, é data da S = XTX/N , da cui abbiamo:
XTX = V D2VT.
Gli autovettori vj sono anche chiamati componenti principali di X. La prima com- ponente principale z1 = Xv1 ha la piú grande varianza fra tutte le combinazioni lineari normalizzate delle colonne di X
Var(z1) = Var(Xv1) = d21 N . Le successive componenti principali zj hanno varianza d
2 j
N e sono soggette ad essere ortogonali alle precedenti. L’ultima componente principale ha varianza minima.
Le componenti principali che spiegano "poca" varianza, sono associate a un dj piccolo; la Ridge Regression penalizzerá maggiormente queste direzioni come risulta da (2.12).
Il Lasso
Il Lasso é un metodo di shrinkage, in cui la stima dei coefficienti si ottiene nel seguente modo:
βˆlasso = arg min
β
N
X
i=1
(yi− β0−
p
X
j=1
xijβj)2+ λ
p
X
j=1
|βj|
. (2.13)
Equivalentemente:
βˆlasso= arg min
β N
X
i=1
(yi − β0−
p
X
j=1
xijβj)2
soggetta al vincolo
p
X
j=1
|βj| ≤ t.
Confrontando le equazioni (2.11) e (2.13) si constata che Lasso e Ridge Regression presentano una formulazione del tutto analoga; l’unica differenza si ha nel termine che penalizza i coefficienti: nella Ridge Regression si usa la norma L2 (Ppj=1βj2), mentre nel Lasso la norma L1 ((Ppj=1|βj|). Quest’ultima norma rende la soluzione non lineare in y; non esiste quindi una soluzione in forma chiusa del Lasso, ed é necessario usare un algoritmo di programmazione quadratica.
Nel caso in cui la matrice X sia ortonormale, sia Lasso che Ridge Regression ap- plicano una trasformazione ai ˆβ stimati tramite minimi quadrati. In particolare la Ridge Regression applica la trasformazione
βˆj 1 + λ, mentre Lasso la trasformazione
sign( ˆβj)( ˆ|βj| − λ)+.
Nel caso in cui siano presenti solo due predittori, l’RSS ha le curve di isovalore sul piano (β1, β2) a forma di ellissi centrati sulla stima dei minimi quadrati. I vincoli definiscono, su tale piano, una regione che nel caso della Ridge Regression é un cer- chio, mentre nel caso del Lasso é un quadrato (Figura2.1). Si osservi come il Lasso non solo regolarizzi i coefficienti, ma ne vincoli alcuni al valore nullo, effettuando una selezione intrinseca delle variabili.
La scelta del coefficiente λ avviene, sia per la Ridge Regression che per il Lasso, tramite la valutazione del λ che produce l’errore minore su un set di osservazioni non impiegate nella costruzione del modello, seguendo un approccio basato sulla k-fold cross validation, che tratteremo nel prossimo paragrafo.
Come detto precedentemente, tali approcci shrinkage posso essere applicati anche per la regressione logistica; nel caso del Lasso la penalitá sui coefficienti, stimati tramite massima verosimiglianza, viene cosí imposta:
maxβ
L(β) − λ
p
X
j=1
|βj|
.
Figura 2.1: Stima dei coefficienti di Lasso e Ridge Regression nel caso in cui p = 2.
2.3 Le prestazioni del modello
La valutazione delle prestazioni sia nell’analisi univariata, sia nell’analisi multiva- riata viene effettuata in modo analogo.
In particolare, nell’analisi univariata, per le variabili significative, la regola di deci- sione si basa sulla definizione di un cut-off : un soggetto viene classificato sano/ma- lato a seconda che la variabile in considerazione assuma valori superiori/inferiori a tale cut-off.
Nell’analisi multivariata, una volta calcolati i parametri del modello questi vengono moltiplicati per le variabili associate, in modo tale da definire uno score:
scorei = β1 × xi1+ . . . βm× xim i=1,. . . , N
Tale score puó essere interpretato come una nuova variabile e si procede nuovamente alla definizione del cut-off che fornirá la regola di decisione, analogamente all’analisi univariata.
2.3.1 La matrice di confusione: accuratezza, sensibilitá e specificitá
La valutazione di un classificatore viene effettuata confrontando il risultato predetto con il vero (noto) risultato.
La matrice di confusione riassume la performance di un classificatore e permette di calcolare i principali indici di bontá. Un esempio di matrice di confusione é mostrato in Figura2.2. L’indice piú semplice e naive consiste nel considerare la percentuale di classificazioni corrette. Tale indicatore prende il nome di accuratezza di un
valore vero
valore predetto
p n totale
TP FN
P0
FP TN N0
totale P N
Figura 2.2: Matrice di confusione
TP(veri positivi): numero di soggetti malati correttamente classificati come malati;
TN(falsi negativi): numero di soggetti sani correttamente classificati come sani;
FN(falsi negativi): numero di soggetti malati erroneamente classificati come sani;
FP(falsi positivi): numero di soggetti sani erroneamente classificati come malati.
classificatore. Facendo riferimento alla tabella 2.2, l’accuratezza é cosi definita:
accuratezza = TP + TN
TP + TN + FN + FP.
L’utilizzo dell’accuratezza come metrica di valutazione é sconsigliato, soprattutto in esperimenti non bilanciati, ovvero quando il numero di soggetti appartenenti alle differenti classi varia notevolmente. Supponendo di avere 95 soggetti sani e 5 soggetti malati, un classificatore che etichetta ogni individuo come sano, indipen- dentemente dal valore assunto dai vari predittori, avrá un’accuratezza del 95%, pur essendo un pessimo classificatore.
Si predilige, dunque, l’uso di due metriche: la sensibilitá e la specificitá cosí definite:
Sensibilitá = TP
TP + FN (2.14)
Specificitá = TN
TN + FP (2.15)
La sensibilitá puó quindi essere considerata come la probabilitá che il test (la predi- zione) sia positivo, dato che il soggetto é realmente positivo. La specificitá, invece, é la probabilitá che un test dia un risultato negativo, dato che il soggetto appartiene alla classe dei negativi. La specificitá e la sensibilitá di un biomarcatore variano a seconda del cut-off che viene scelto per classificare i soggetti come positivi e ne- gativi. Cambiare il cut-off puó aumentare la sensitivitá e ridurre la specificitá, o viceversa.
Facendo riferimento alla Figura 2.3, indicando con F+(c) (rispettivamente con F−(c)) la distribuzione della generica variabile per il gruppo dei "malati" (rispetti- vamente dei "sani") si ha:
sensibilitá = Se = P(S > c | soggetto malato) = 1 − F+(c) (2.16) specificitá = Sp = P(S ≤ c | soggetto sano) = F−(c) (2.17) dove S é il valore della variabile di cui si vuole valutare il potere discriminatore e c il cut-off. Si é inoltre assunto che un soggetto venga classificato "malato" se la variabile in considerazione assume valori superiori al cut-off, seguendo l’impostazione della Figura 2.3.
2.3.2 La curva ROC
La curva ROC (Receiver Operating Characteristic) mostra come sensibilitá e spe- cificitá variano al variare del valore di cut-off.
In particolare, la curva ROC é una curva parametrica costruita con i punti di coordinate (1-specificitá, sensibilitá):
ROC = {(1 − Sp(c), Se(c)) tale che − ∞ < c < +∞}
Assumendo che la funzione inversa della distribuzione F (F−1) esista sia per la
Figura 2.3: Distribuzione di una generica variabile nel gruppo dei "sani" (a destra) e dei "malati" (a sinistra). L’impostazione di un cut-off, linea verticale tratteggiata, permette di definire i TN, FN, FP, TP.
popolazione dei "malati" sia per quella dei "sani", é possibile ridefinire la curva ROC in forma esplicita, eliminando c dalla definizione. Sia x ∈ (0,1) il valore di (1-Sp(c)),
x = 1 − F−(c)
si ha che
c = F−−1(1 − x)
La curva ROC puó essere espressa dalla seguente relazione:
y = 1 − F+(c) = 1 − F+(F−−1(1 − x)) = ROC(x) . (2.18)
A differenza dell’accuratezza, la curva ROC non risente della prevalenza di soggetti appartenenti a una determinata classe.
Per valutare la qualitá di una curva ROC, e quindi del relativo classificatore, si utilizza l’area sottesa dalla curva ROC (Area Under the Curve (AUC)):
AUC =
Z 1 0
ROC(q) dq . (2.19)
Tale indice permette di svincolarsi, nella valutazione del classificatore, dall’arbi- trarietá della scelta di un unico valore di cut-off. L’AUC é interpretabile come la probabilitá che un valore estratto dalla distribuzione dei "malati" sia maggiore di un valore estratto dalla distribuzione dei "sani", come mostrano i seguenti passaggi:
P(Y+ > Y−) = EP(Y+> Y−|Y−)=
Z +∞
−∞ P(Y+ > y)f−(y) dy =
Z +∞
−∞
(1 − F+(y))f−(y) dy = −
Z 0 1
(1 − F+(F−−1(1 − q))) dq = AU C
dove f− é la densitá di probabilitá associata a F− e Y−, Y+ sono due realizzazioni indipendenti di F+ e F−.
Le curve ROC passano per i punti (0,0) e (1,1). Ci sono due particolari ROC che rappresentano casi limite:
• una taglia il grafico a 45◦, passando per l’origine. Questa retta rappresenta il caso del classificatore casuale (linea di nessun beneficio), e l’AUC é pari a 0.5.
É il caso in cui la distribuzione di una certa variabile per il gruppo dei sani si sovrappone alla distribuzione dei malati.
• l’altra é rappresentata dal segmento che dall’origine sale al punto (0,1) e da quello che congiunge il punto (0,1) a (1,1), ha un’area sottesa di valore pari a 1. É il classificatore perfetto, in cui le distribuzioni nei due gruppi, per la variabile test, sono completamente disgiunte.
Figura 2.4: Esempio di curve ROC: in blu una generica curva ROC, in verde la curva ROC associata a un classificatore perfetto, in rosso la curva ROC associata a un classificatore casuale.
In Figura 2.4 é mostrato un esempio di curva ROC. Una volta costruita la curva ROC per un generico modello, si passa alla scelta del cut-off ottimale. In generale il punto di cut-off ottimale é quello che corrisponde al punto (Sp=1,Se=1) nella curva ROC. Raramente peró una curva ROC attraversa tale punto. Tipicamente quindi, la scelta del cut-off viene effettuata sulla base dell’indice Y ouden, cosí definito:
Youden = arg max
c {Se(c) + Sp(c) − 1} (2.20)
Un’ altra scelta tipica é definire il cut-off ottimale come quello corrispondente al punto sulla curva ROC con distanza minima da (Sp=1,Se=1).
2.3.3 La cross validation
Indipendentemente dagli indici utilizzati per valutare la qualitá di un classificatore, é necessario che essi vengano calcolati su un insieme di osservazioni che non sono state utilizzate nella creazione del modello.
I dati utilizzati per la creazione del modello (quindi per la definizione dei parametri) costituiscono il training set e il relativo errore training error ; i dati utilizzati per la valutazione del modello vengono definiti test set e il relativo errore test error.
La valutazione di un modello deve basarsi sul valore del test error, che ci da una
visione piú generale di come il modello creato permetta di fare previsioni su nuovi dati. Il test error assume valori sempre maggiori del training error ; tale differenza aumenta all’aumentare della complessitá del modello, quindi all’aumentare delle variabili utilizzate nella costruzione del modello.
Tipicamente, si divide il data-set a disposizione in due parti: una parte dei dati viene utilizzata come training set per la costruzione del modello, i rimanenti ven- gono utilizzati per valutare il modello creato.
Quando il dataset a disposizione é di piccole dimensioni, seguire tale approccio risulta peró impraticabile e le stime prodotte dipendono molto della divisione del dataset. Si segue dunque una procedura chiamata k-Fold Cross Validation, che con- siste nel suddividere il dataset in k sottoinsiemi di uguale dimensione. Il modello viene costruito k volte, usando ogni volta k − 1 sottoinsiemi per la costruzione del modello e la restante parte come test set. L’errore totale é determinato sommando gli errori dei k modelli costruiti. Tipicamente, l’intera popolazione di campioni viene suddivisa in 5-10 sottoinsiemi (k = 5, 10). Tale scelta per i valori di k ha lo scopo di ottimizzare il trade off tra varianza ed errore: scegliere k troppo piccolo implica l’utilizzo di una ridotta parte per del dataset per la costruzione del modello rendendolo poco attendibile; diversamente scegliere valori di k molto alti (prossimi a N ) riduce il numero di osservazioni su cui testare ciascuno dei k modelli.
2.4 Problemi tipici in metabolomica
Nel seguito presenteremo le principali tematiche legate al pre-processamento dei dati in metabolomica. Descriveremo metodi per la rimozione delle variabiltá non biologiche presenti tra i campioni e metodi per uniformare le concentrazioni dei vari metaboliti. Infine, poiché le tecniche statistiche precedentemente descritte richiedono che i dati non presentino valori mancanti, tratteremo i principali metodi per l’imputazione di dati mancanti.
2.4.1 Metodi di normalizzazione e rimozione degli effetti batch
Una delle maggiori problematiche che insorgono negli esperimenti biologici, in cui vengono misurate contemporaneamente migliaia di variabili, é la presenza di forti variazioni tra i diversi campioni, dovute a cause non biologiche. Tali variazioni rendono i campioni difficilmente confrontabili. In metabolomica, queste fonti di variabilitá possono avere origine da una diversa preparazione dei campioni, dalle condizioni dello strumento di analisi, dalle condizioni ambientali, dall’ordine di pro- cessamento dei campioni e da proprietá intrinseche del campione analizzato (per esempio campioni a diverso pH).
Queste fonti di eterogeneitá possono ridurre l’accuratezza di un modello statistico.
Sono stati perció sviluppati diversi metodi per correggere tali situazioni nel campo della genomica; diversamente, per la piú recente metabolomica, non esistono algo- ritmi specifici.
Un primo approccio per ridurre tali variabilitá consiste nello standardizzare le di- stribuzioni di valori per i diversi campioni. Presentiamo due tra i metodi di nor- malizzazione piú comuni.
• La normalizzazione quantile ha lo scopo di rendere le distribuzioni identiche. A ogni valore, per ciascun campione, viene assegnato un rango, cioé la posizione nell’ordinamento. Per ogni rango viene calcolato il valore medio e sostituito nel dataset originale. Chiariamo il procedimento con un esempio: sia dunque la Tabella 2.1 la tabella originale che deve essere normalizzata, avente sulle colonne i campioni, sulle righe i metaboliti. Per ogni colonna, a ogni valore
Tabella 2.1: Tabella originale.
campione 1 campione 2 campione 3
var1 6.213 6.471 6.124
var2 6.684 6.009 6.197
var3 6.215 6.116 5.771
var4 6.287 5.923 5.928
viene associato il proprio rango (Tabella 2.2).
Tabella 2.2: Tabella dei ranghi.
campione 1 campione 2 campione 3
var1 i iv iii
var2 iv ii iv
var3 ii iii i
var4 iii i ii
Si calcola il valore medio per ogni rango:
i = (6.213 + 5.923 + 5.771)/3 = 5.969 ii = (6.215 + 6.009 + 5.928)/3 = 6.050 iii = (6.287 + 6.116 + 6.124)/3 = 6.175 iv = (6.684 + 6.471 + 6.197)/3 = 6.450
Tali valori medi vengono poi sostituiti nella tabella originale (Tabella 2.3).