• Non ci sono risultati.

A. Appendice

A.2. COMBAT non parametrico

La versione di COMBAT descritta nel §3.1 non è l’unica proposta dai due autori Evan Johnson e Cheng Li. Come si ricorderà il metodo, al primo passo,

APPENDICE 119

prevede la standardizzazione dei valori di espressione, creando così delle nuove variabili, per le quali è possibile affermare che , dato l’assunto di distribuzione Normale per il termine d’errore del modello di posizione/scala. Il terzo passo, poi, prevede la stima dei parametri del batch effect utilizzando distribuzioni a priori empiriche. Nello specifico, si assume che

e . Un assunto di questo tipo, però, non

è sempre verificato ed è quindi necessario disporre di un metodo alternativo per la stima dei parametri del batch effect nel caso in cui non sia rispettato. Per questo motivo è stata creata la versione non parametrica di COMBAT, la quale permette di ricavare le stime dei parametri del batch effect senza assunzioni sulle distribuzioni a priori, ma semplicemente stimando i valori attesi, a posteriori, dei parametri del batch effect.

Come nel §3.1, si supponga che i valori siano stati standardizzati, che le nuove variabili standardizzate siano , che ̂ e che ̂ ( ̂ ) . Si vuole stimare i parametri del batch effect,

e , usando i valori attesi a posteriori dei parametri, definiti come [ ] e

[ ].

Sia il vettore di tutti i valori per un gene g in uno stesso batch i, con j = 1,…,ni. Data la distribuzione a posteriori congiunta dei dati e dei parametri

del batch effect e , ( ), il valore atteso a posteriori di è: [ ] ∫ ( ) ( )

Sia inoltre ( ) l’ignota funzione di densità a priori per i parametri,

e , e sia ( ) ∏ ( ), dove ( ) è la

funzione di densità di una Normale di media e varianza calcolata in . Utilizzando il teorema di Bayes l’integrale precedente può essere riscritto come:

[ ]

( )∫ ( ) ( ) ( ) dove ( ) ∫ ∫ ( ) ( ) ( ).

Per le stime di ( ) e dell’integrale presente in [ ] si utilizza un metodo di integrazione Monte Carlo. Lo stesso viene fatto per e si arriva a

120 APPENDICE

definire le stime del batch effect non parametriche. Per un approfondimento maggiore della tecnica si veda il materiale aggiuntivo disponibile in Biostatistics del lavoro originale di Evan Johnson e Cheng Li (2007).

A.2.1. Differenze nei risultati

Nel §4.3.2, durante la correzione del batch effect con il metodo COMBAT, si è deciso di utilizzare il metodo parametrico malgrado la difficoltà di accettazione degli assunti distributivi delle a piori. Per verificare la correttezza di tale scelta si è provato ad utilizzare anche il metodo di correzione non parametrico descritto nel paragrafo precedente. Ciò che si è ottenuto è una piccola differenza nei valori di espressione che non sembra comportare grossi cambiamenti per le analisi. D’altro canto, però, Il carico computazionale necessario per l’analisi dei 10 campioni in questione con il metodo parametrico è molto basso, mentre per il metodo non parametrico è decisamente molto alto; in particolare il tempo di calcolo dell’aggiustamento con il metodo non parametrico su un notebook con processore dual core Intel® Core™ i5 da 2.30GHz è stato pari a 1086.58 secondi (circa 18 minuti), mentre il metodo parametrico ha impiegato solamente 6.05 secondi. Dato che nelle analisi complete si sono poi utilizzati 39 campioni, se si fosse scelto l’aggiustamento COMBAT non parametrico il tempo di calcolo sarebbe stato molto maggiore.

In Figura A.1 sono riportati i dendrogrammi della cluster analysis compiuta sui valori aggiustati con entrambi i metodi. Quello di sinistra, relativo al metodo parametrico, è lo stesso della Figura 4.11 del §4.3.2. Si nota che la differenza è irrisoria; le distanze alle quali i gruppi vengono uniti sono sostanzialmente le stesse e i gruppi formati sono identici.

In Figura A.2 è riportata la distribuzione delle differenze tra i valori di espressione stimati con il metodo parametrico e quelli stimati con il metodo non parametrico. L’istogramma a destra è un dettaglio di quello a sinistra, fatto per evidenziare la frequenza delle differenze più alte e più basse. Quasi tutte le differenze sono contenute nella fascia tra -0.5 e 0.5; la maggior parte sta tra -0.1 e

APPENDICE 121

0.1 (cfr. Figura A.3). Dato che, com’è noto, i valori di espressione sono riportati in logaritmo in base 2, ciò significa che per la maggior parte dei valori si ha:

cioè che:

ossia che la maggior parte dei valori ottenuti con il metodo parametrico si discosta da quelli ottenuti con il metodo non parametrico di massimo il 7%.

Figura A.1: Confronto tra i dendrogrammi creati da una cluster analysis con correzione dei valori di espressione con il metodo COMBAT parametrico (a sinistra) e quello non parametrico (a destra).

Figura A.2: A sinistra, istogramma delle differenze tra valori stimati con i metodi COMBAT parametrico e COMBAT non parametrico. A destra è riportato un dettaglio dello stesso istogramma per mettere in evidenza le frequenze più basse.

122 APPENDICE

La Figura A.3 è relativa alle stesse differenze della Figura A.2, e mostra i boxplot delle differenze stratificate per esperimento.

Figura A.3: Boxplot delle differenze tra valori stimati con i metodi COMBAT parametrico e COMBAT non parametrico, stratificate per piattaforma.

L’unica osservazione da fare riguardo questo grafico è sul fatto che la mediana delle differenze tra valori stimati con i metodi COMBAT parametrico e COMBAT non parametrico è sempre maggiore di zero per la piattaforma U133A, mentre è sempre minore di zero per la piattaforma U133 plus 2. In altre parole, il metodo non parametrico assegna, medianamente, valori più piccoli di quelli assegnati dal metodo parametrico nella piattaforma U133A e valori più grandi nella piattaforma U133 plus 2. Le differenze, però, sono valori molto piccoli e non sembrano poter comportare differenze nelle analisi.

A fronte di questi risultati si è deciso di utilizzare il metodo parametrico per ottenere le stime COMBAT del batch effect, dato che non comporta grosse

APPENDICE 123

differenze nelle stime ma riduce in maniera drastica il costo computazionale per il loro ottenimento.