4
4
M
M
O
O
D
D
E
E
L
L
L
L
I
I
L
L
I
I
N
N
E
E
A
A
R
R
I
I
P
P
E
E
R
R
L
L
’
’
A
A
N
N
A
A
L
L
I
I
S
S
I
I
D
D
E
E
I
I
D
D
A
A
T
T
I
I
M
M
I
I
C
C
R
R
O
O
A
A
R
R
R
R
A
A
Y
Y
I metodi di analisi basati sulla descrizione dei dati mediante modelli lineari possono essere distinti in due categorie a seconda che utilizzino i logaritmi delle intensità nei due canali o i logaritmi del loro rapporto (“log-ratio”). Al primo gruppo appartengono i modelli additivi ANOVA ad effetti fissi introdotti da Kerr e collaboratori (Kerr et al., 2001; Kerr et al., 2002), per i quali sono state proposte diverse varianti come il modello ANOVA a due stadi di Wolfinger (Wolfinger et al., 2001) e Lee (Lee et al., 2002) (sia nella versione ad effetti fissi che in quella ad effetti misti) e il modello ad effetti misti di Dobbin e Simon (Dobbin and Simon, 2002). Esempi di modelli lineari basati sui “log-ratio” sono invece quelli sviluppati da Smith (Smith, G. K., 2004), Yang e Speed (Yang and Speed , 2003) e Lonnstedt et al (Lonnstedt et al., 2003).
4.1 MODELLI ADDITIVI ANOVA
I metodi di analisi basati sui tradizionali test delle ipotesi non rappresentano la migliore soluzione nel caso dei dati prodotti da esperimenti microarray dal momento che non tengono conto delle molteplici fonti di variabilità che agiscono su di essi, riassumendole tutte in un unico termine di errore rappresentato dalla varianza entro i gruppi.
Un approccio particolarmente interessante per l’analisi dei dati microarray e la selezione dei geni differenzialmente espressi è il metodo dell’analisi della varianza o ANOVA (ANalysis Of VAriance). Esso si basa sulla scomposizione e la misura
dell’incidenza delle diverse fonti di variazione sui valori osservati di due o più gruppi. Conoscendo le cause ed i diversi fattori, è possibile attribuire ad ognuno di essi il suo effetto e ridurre la variabilità d’errore. Le differenze tra le medie dei gruppi possono essere in questo modo attribuite più realisticamente all’effetto del fattore di interesse.
L’analisi della varianza costituisce una generalizzazione del t-test al caso in cui i gruppi a confronto sono più di 2.
Si supponga di allestire un esperimento microarray con l’obiettivo di identificare quali geni risultano differenzialmente espressi tra k gruppi. L'ipotesi nulla H0 e l'ipotesi
alternativa H1 possono essere formulate nel modo seguente:
H0: μ1 = μ2 = … = μk
H1: le μi non sono tutte uguali (oppure almeno una μi è diversa dalle altre).
Per verificare la significatività delle differenze tra le medie di vari gruppi, l’analisi della varianza utilizza la distribuzione F di Fisher.
Nell'analisi della varianza, la fonte o causa delle variazioni dei dati che interessa quantificare viene chiamata varietà o trattamento. La quantificazione dell’effetto del trattamento è proprio l’obiettivo dell’esperimento dal momento che al ricercatore interessa stabilire se un gene è differenzialmente espresso per effetto del trattamento applicato ai vari gruppi, una volta rimosse le altre sorgenti di variazione casuali o sistematiche.
Il modello più semplice di analisi della varianza è ad un criterio di classificazione: ogni dato è classificato solo sulla base del trattamento o del gruppo al quale appartiene.
L'analisi della varianza è fondata sugli effetti additivi dei vari fattori considerati. La trasformazione logaritmica dei dati di intensità serve proprio a rendere additivo un modello che altrimenti sarebbe moltiplicativo. Nel modello più semplice con un solo fattore a due o più livelli, ogni singola osservazione yij può essere scritta come:
(4.1) yij =μ+τi +εij
in quanto determinata:
- dalla media generale di popolazione μ,
- dal fattore τi , i = 1, … k, che descrive l’effetto del trattamento,
- da un fattore casuale εij , i = 1, … k, j = 1, … n, (dove n è il numero di osservazioni
disponibili per ogni gruppo) detto residuo od errore sperimentale, che rappresenta l’effetto di uno o più fattori sconosciuti o comunque non valutati o non controllati nell'esperimento.
In tale modello, l'effetto τ del trattamento a sua volta è misurato come: (4.2) τi =μi −μ
dove μi è la media dei campioni appartenenti all’i-esimo gruppo e μ la media generale.
Con riferimento al modello (3.18) l’ipotesi nulla e l’ipotesi alternativa possono essere riformulate come segue:
H0: τi = 0 per ogni i = 1,…k
H1: almeno un τi ≠ 0
Passando ai dati sperimentali, si può scrivere che ogni osservazione yij è
determinata:
- dalla media generale y ,
- dall’effetto del trattamento (yi−y) ottenuto come differenza tra la media di ogni gruppo o singolo trattamento (y ) e la media generale ( y ), e i
- da altri fattori non noti, simboleggiati da εij;
(4.3) yij = y+(yi −y)+εij
Per poter applicare questo test parametrico occorre verificare che ne esistano le condizioni. Le assunzioni di validità del test F dipendono dagli errori εij, che devono essere
indipendenti tra loro e distribuiti normalmente. Inoltre le varianze dei vari gruppi devono essere omogenee.
La metodologia dell'analisi della varianza prevede a questo punto il calcolo delle seguenti quantità:
la devianza totale o SStotale (dove SS sta per “Sum of Squares”), con i suoi gradi di
libertà (gdl);
la devianza tra trattamenti (SStra), con i suoi gdl e la relativa varianza;
la devianza entro trattamenti o devianza di errore (SSerrore), con i suoi gdl e la relativa
varianza.
Devianza Gradi di Libertà Varianza
∑∑
= = − = k i n j ij totale i y y SS 1 1 2 ) ( n-1 /∑
= − = k i i i tra n y y SS 1 2 ) ( k-1 1 2 − = k SS stra tra∑∑
= = − = k i n j i ij errore i y y SS 1 1 2 ) ( n-k k n SS s errore errore − = 2Si può dimostrare che la somma della devianza tra trattamenti e di quella entro trattamenti è uguale alla devianza totale; un’identica proprietà additiva vale per i rispettivi gradi di libertà.
Il test F è fondato sul rapporto varianza-tra / varianza-entro ovvero:
(4.4) 2 2 errore tra s s F = .
Elevati valori di F suggeriscono che le differenze osservate tra i valori medi di espressione dei singoli gruppi non possono essere attribuite al caso.
Il modello discusso può essere esteso per considerare più fattori e le eventuali interazioni fra gli stessi ed è particolarmente adatto per modellare le diverse sorgenti di variabilità che caratterizzano gli esperimenti microarray.
Le sorgenti di variabilità che agiscono sui dati di espressione genica possono includere sia fattori sperimentali sia rumore casuale o “random”; il metodo dell’analisi della varianza cerca di quantificare tale variabilità e di esaminare se sia statisticamente confrontabile con quella attribuita alle sorgenti “random”.
Si supponga, per esempio, di trattare con un farmaco un gruppo di cavie e di confrontare mediante microarray i campioni ottenuti dopo il trattamento con quelli di un gruppo di controllo non trattato: l’analisi della varianza consente di esaminare le differenze rilevate fra i gruppi, dividendole in effetto del trattamento ed effetto dovuto ai fattori sperimentali che incidono sull’espressione differenziale.
Nel loro lavoro Kerr e Churchill (2001) hanno evidenziato quattro sorgenti principali di variabilità denominate:
1. Effetto Array (A);
2. Effetto Fluorocromo (D);
3. Effetto Varietà o Trattamento (V o T); 4. Effetto Gene (G).
Sotto il nome di effetto “Array” vengono classificate le variazioni di segnale fra array, mediate su tutti i geni, i fluorocromi e i trattamenti. Questi effetti si presentano se, per esempio, il processo di ibridizzazione dei campioni marcati avviene in maniera non uniforme.
L’effetto “Fluorocromo” o “Dye” misura le differenze intrinseche di emissione dei due fluorocromi. Questo comportamento è dovuto ad una differente sensibilità dei due fluorocromi rispetto all’eccitazione indotta con il laser e si ripercuote sul bilanciamento del segnale nei due canali.
L’effetto “Varietà” si riscontra quando le categorie del fattore di interesse presentano livelli di espressione diversi, dovuti a cause non attribuibili al trattamento. Questo potrebbe verificarsi, nel caso della somministrazione del farmaco, se venisse preso come controllo un tessuto diverso da quello trattato: l’espressione differenziale sarebbe riconducibile anche alle differenze fra i due tessuti.
L’effetto “Gene” si manifesta con la generazione di una variazione del segnale emesso da alcuni geni, di intensità indipendente dalla quantità di campione ibridizzato. Questo effetto può verificarsi perché alcuni geni risultano, in generale, espressi in misura maggiore o minore di altri o anche a causa di differenti efficienze di ibridizzazione e di marcatura che caratterizzano le diverse sequenze depositate sul vetrino.
Gli effetti descritti sono soltanto i fattori principali. Con quattro fattori principali è possibile considerare 24=16 effetti sperimentali suddivisi in:
- quattro effetti principali, - sei interazioni a due fattori, - quattro interazioni a tre fattori, - una interazione a quattro fattori.
Anche per i fattori di interazione è possibile individuare alcune cause che ne determinano l’insorgenza. In particolare:
- l’effetto combinato del fluorocromo e del trattamento (DV) si può ricondurre ad una differente efficienza di incorporazione del marcatore nei campioni di cDNA da analizzare.
- L’interazione fra l’array e il gene (AG) si può verificare se lo stesso gene su diversi array è presente con una concentrazione diversa di sonde di cDNA disponibili per l’ibridizzazione. Questo effetto è spesso indicato come “spot-effect” perché dipende fortemente dal processo di deposizione delle sonde sul microarray.
- L’effetto “Dye-Gene” (DG) si realizza se tra i fluorocromi esistono delle differenze gene-specifiche.
- L’interazione fra il trattamento e il gene (VG) si realizza quando un gene mostra un differente livello di espressione nelle diverse varietà ibridizzate sul microarray e questa differenza è riconducibile proprio al trattamento. La stima di questo effetto è l’obiettivo principale dell’esperimento.
- Le interazioni AD, AT e ADT non sono facilmente collegabili ai processi che hanno luogo sui microarray. Inoltre non essendo gene-specifiche, la questione se includerle o meno nell’analisi dei dati risulta puramente accademica, dal momento che esse non alterano le stime degli effetti di interesse.
- Infine, le interazioni ADG, ATG, DTG e ADTG sono gene-specifiche. La presenza di tali interazioni dimostrerebbe che ci sono variazioni gene-specifiche attribuibili a
particolari coppie array-fluorocromo, array-trattamento, fluorocromo-trattamento o combinazioni di array-fluorocromo-trattamento. Queste interazioni di ordine superiore al secondo sono difficili da collegare a processi fisici o chimici inerenti alla tecnologia dei microarray e generalmente vengono ritenute trascurabili.
Esiste una varietà di modelli per quantificare le fonti di variabilità illustrate, che differiscono non soltanto per le sorgenti di variabilità considerate ma anche dal punto di vista della caratterizzazione statistica degli effetti. A tale proposito è possibile distinguere fra effetti fissi ed effetti “random”. Un fattore in un modello ANOVA è un effetto fisso se i suoi livelli rimangono invariati quando l’esperimento viene ripetuto. Per esempio, il fattore “dye” ha due livelli (rosso e verde) che saranno sempre gli stessi per ogni replica dell’esperimento. Gli effetti fissi sono statisticamente modellabili con variabili aleatorie indipendenti ed identicamente distribuite. In generale lo sperimentatore è interessato ai valori medi associati ai diversi livelli di un effetto fisso. Viceversa, un fattore in un modello ANOVA può essere considerato “random” se i suoi livelli rappresentano solo uno dei possibili campioni di una popolazione di livelli. In altre parole, ripetendo l’esperimento non si ha la certezza di ritrovare gli stessi valori. Dal punto di vista statistico, gli effetti “random” presentano le caratteristiche di variabili aleatorie generate da processi tipicamente utilizzati per descrivere l’errore non sistematico di misura o errore “random”. In generale lo sperimentatore è interessato a stimare la variabilità associata ad un effetto “random”.
Sulla base della descrizione statistica degli effetti, vengono definiti modelli “random”, in cui tutti gli effetti coinvolti vengono considerati casuali, modelli misti nei quali viene individuata una parziale componente sistematica, e modelli fissi in cui tutti gli effetti sono sistematici ad eccezione dell’errore di misura.
La trasformazione logaritmica dei dati di intensità è in questo caso necessaria perchè consente di ottenere un modello di descrizione dei dati additivo piuttosto che moltiplicativo e perché dà luogo ad una distribuzione degli errori approssimativamente normale, condizione, questa, necessaria per l’applicabilità del modello ANOVA.
Si indichi con yijkg il logaritmo dell’intensità della fluorescenza misurata per l’array
i, il fluorocromo j, la varietà k e il gene g.
Assumendo che lo stesso insieme di geni sia depositato su ogni array dell’esperimento, si ha a disposizione un insieme completo di osservazioni per ogni combinazione di array, fluorocromo e varietà: in conseguenza di ciò l’effetto gene e le sue combinazioni sono ortogonali, ossia indipendenti, a tutti gli altri effetti e l’esperimento si dice bilanciato.
Questo porta a suddividere gli effetti in due gruppi: effetti globali, che comprendono solo gli effetti principali A, D e V, ed effetti gene-specifici, che coinvolgono G.
Se gli effetti non sono ortogonali, ossia la quantificazione di uno fornisce informazioni ridotte o complete anche sull’altro, si parla di confusione dell’informazione, ossia di mascheramento parziale o totale degli effetti.
Un modello ANOVA completo proposto da Kerr e Churchill (Kerr e Churchill, 2001b) è il seguente:
(4.5) yijkg = μ + Ai + Dj + Vk + Gg + (VG)kg + (AG)ig + (DG)jg + (AD)ij + εijkg
dove:
- il termine μ si riferisce all’intensità media totale calcolata su tutti i geni di tutti gli array;
- il termine ε rappresenta l’errore “random”; questo è una quantità aleatoria che segue una distribuzione F con media nulla e varianza σ2 e rappresenta tutta l’informazione che non si riesce a modellare.
Questo modello si riferisce al caso in cui su ogni array è presente una sola copia di ogni gene. Se per ogni gene esistono m copie su ogni array, è possibile inserire un “effetto replica S” nel modello, per catturare le differenze fra gli spot duplicati all’interno dell’array, così come indicato nella formula seguente:
(4.6) yijkgr = μ + Ai + Dj + Vk + Gg + (VG)kg + (AG)ig + (DG)jg + (AD)ij + Sr(ig)+ εijkgr
con r = 1,2,…m.
Come è logico attendersi, la presenza di spot replicati determina una diminuzione della varianza del fattore di interesse VG di una quantità pari a 1/m e un aumento dei gradi di libertà che possono essere usati per valutare altri effetti.
Nella sua formulazione originale, il modello di Kerr è Churchill è un esempio di modello fisso in cui tutti gli effetti sono variabili aleatorie indipendenti e identicamente distribuite con media nulla, a meno del termine di errore “random”.
Alcuni effetti possono tuttavia essere ritenuti casuali in base alla considerazione che non vi è un’effettiva certezza che essi si abbattano in maniera sistematica su tutti i dati.
E’ questo il caso dell’interazione AG che, verosimilmente, potrebbe avere un peso diverso sullo stesso gene in array differenti. Dal punto di vista statistico l’effetto AG viene, quindi, trattato come se fosse una variabile aleatoria normalmente distribuita con media nulla e varianza non nota. Altri termini possono essere aggiunti al modello per tenere conto degli effetti “random” associati con gli spot replicati o le repliche biologiche.
2
AG
Le stime degli effetti del modello sono ottenute attraverso la minimizzazione della somma dei quadrati dei residui o di errore (RSS, Residuals Sum of Squares ) ovvero delle differenze tra il valore misurato yijkg e il corrispondente valore fornito dal modello:
(4.7) =
∑
− − − − − − − − − ijkg ij jg kg ig g k j i ijkg A D V G AG VG DG AD y RSS ( μ ( ) ( ) ( ) ( ) )2Uguagliando a zero le derivate parziali di RSS rispetto agli effetti del modello si ottiene un sistema di equazioni lineari le cui soluzioni sono proprio le stime ai minimi quadrati degli effetti considerati. In generale le soluzioni devono soddisfare una serie di vincoli che scaturiscono direttamente dal particolare tipo di disegno sperimentale adottato.
Le quantità di interesse sono le interazioni (VG)kg da cui si possono ricavare tutti
confronti di interesse tra le varietà, per ogni gene, ovvero: (VG)k1g - (VG)k2g con k1 ≠ k2.
4.1.1 Tre F-test per i modelli ANOVA ad effetti fissi
Una volta effettuata l’interpolazione ai minimi quadrati dei parametri del modello si può passare alla determinazione dei geni differenzialmente espressi.
Con questa tecnica di analisi dei dati di intensità, si decide se un gene è differenzialmente espresso realizzando un test delle ipotesi sul modello che è stato interpolato.
Seguendo lo schema classico del test delle ipotesi si definiscono:
− ipotesi nulla o modello nullo: il trattamento non ha effetto sul gene e (VG)1g=…=(VG)kg=0 nel modello;
− ipotesi alternativa o modello alternativo: il gene è differenzialmente espresso e vi è almeno un k per il quale il termine (VG)kg≠0 nel modello.
L’adeguatezza dei due modelli viene verificata attraverso un “nested” F-test. Due modelli vengono definiti “nested” o “annidati” se il modello definito completo o alternativo contiene tutti i termini del modello definito parziale o nullo e almeno un termine addizionale diverso da zero.
Se si definisce il modello nullo secondo la classica formulazione statistica come: (4.8) E(y)=β0 +β1x1+...+βlxl
dove E(y) rappresenta l’aspettazione dei dati y, allora il modello alternativo che lo contiene avrà la forma:
(4.9) E(y)=β0 +β1x1+...+βlxl +βl+1xl+1 +...+βkxk
e dal punto di vista del test delle ipotesi, esse verranno definite come segue: H0: βl+1 = βl+2 =…= βk = 0
H1: almeno un parametro βi con i = l+1, …k è diverso da zero.
Per testare queste ipotesi è possibile utilizzare un F-test in cui la classica statistica F viene sostituita con una che realizza il confronto fra i residui dei due modelli piuttosto che fra le varianze dei dati e che è definita come segue:
(4.10) 1 1 1 0 1 0 / ) /( ) ( df RSS df df RSS RSS F = − −
dove RSS0, df0 e RSS1, df1 sono rispettivamente la somma dei quadrati dei residui e i gradi
di libertà per il modello nullo ed il modello alternativo. Questa statistica si distribuisce ancora come una variabile F di Fisher con ν1 = (df0 – df1) gradi di libertà per il numeratore
e ν2 = df1 gradi di libertà per il denominatore. La regola di rigetto dell’ipotesi nulla
stabilisce che il modello nullo viene rifiutato se F > F(df0-df1, df1), dove F(df0-df1, df1) è il valore
critico della variabile tabulata. Questo test è anche conosciuto con il nome di “F-test parziale”, tuttavia è possibile utilizzare anche altre statistiche per la discriminazione dei geni differenzialmente espressi.
Se, per esempio, si vuole considerare una varianza dell’errore comune su tutti i geni di tutti gli array, la statistica F può essere modificata come segue:
(4.11) ( 0 21)/( 0 1) pool df df RSS RSS F σ − − =
utilizzando un’informazione globale a supporto di quella gene-specifica espressa dal numeratore.
Una via di mezzo fra le due statistiche appena definite può venire dal considerare una combinazione di varianza globale e gene-specifica al denominatore della statistica: (4.12) 2 / ) / ( ) /( ) ( 2 1 1 1 0 1 0 pool df RSS df df RSS RSS F σ + − − = .
Le tre statistiche sono praticamente equivalenti e l’adozione di una di esse può dipendere dalle informazioni che si hanno sui dati e dalle ipotesi fatte su di essi.
Una volta deciso il criterio da adottare per verificare le ipotesi, si può stabilire di effettuare delle permutazioni sui dati, con o senza sostituzione, per rendere più robusto il risultato del test statistico e acquisire un livello di confidenza opportuno.
L’analisi dei residui del modello è utile non solo per determinare l’espressione differenziale dei geni, ma ha anche lo scopo di verificare l’adeguatezza del modello.
Infatti, se i residui non mostrano alcun andamento o tendenza particolare si può concludere che l’analisi ha tenuto conto di tutti gli effetti sistematici e i risultati sono attendibili. Se, al contrario, i residui mostrano una tendenza o uno scostamento consistente da una distribuzione casuale normale, ciò indica che il modello non è in grado di catturare gli effetti di tutti i fattori e le interazioni. In questo caso si deve procedere ad un’analisi più approfondita per individuare un modello alternativo più adeguato.
L’aspetto più critico nell’utilizzo del metodo di analisi della varianza è rappresentato dalla necessità di un attento disegno dell’esperimento che deve assicurare un numero sufficiente di gradi di libertà per la stima dell’errore.
4.1.2 Modelli lineari basati sui “log-ratio”
I modelli lineari possono essere visti come una riformulazione più generale dell’approccio diretto basato sui confronti tra i “log-ratio“ in quanto consentono di tenere conto del disegno dell’intero esperimento. Infatti i modelli lineari possono essere applicati per descrivere disegni sperimentali più complessi e, in molti casi, più efficienti del “reference design”.
Si consideri il tipo più semplice di esperimento microarray che consiste nel cercare di misurare i cambiamenti nell’espressione genica in campioni che differiscono per un unico fattore, ad esempio la somministrazione di un farmaco.
Il modello lineare che descrive i “log-ratio” dei valori di intensità Iijkg osservati per
ciascun gene g = 1,…G sull’array i, marcato con il fluorocromo j, può essere espresso mediante la formula: (4.13) kg kg ig kg i kg i ig ì I I y =τ −τ +ε ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ = ' 2 1 2 log per i = 1,…N e j=1,2
dove τk, con k = 1,…K, è l’effetto del trattamento, considerato come effetto fisso, e gli εig
sono i termini di errore indipendenti ed identicamente distribuiti con media nulla (E(εig) =
0) e varianza σ2 (in simboli: ε ∼(0,σ2)).
Si indichi con il vettore dei “log-ratio” relativi al singolo gene; utilizzando la notazione matriciale il modello lineare può essere schematizzato mediante la formula: T Ng g g y y Y =( 1 ,..., ) (4.14) Yg = Xβg +εg dove:
− T è il vettore dei parametri incogniti del modello,
Kg g g g (τ1 ,τ2 ,....τ ) β = − ( , ,..., ) (0, 2 ) con I 2 1 N T Ng g g g ε ε ε σ I
ε = ∼ N matrice identità di ordine N,
− X è una matrice di coefficienti di dimensioni (N x K) chiamata matrice del disegno che contiene tutte le informazioni relative al disegno dell’esperimento. In particolare ogni riga di X corrisponde ad un array ed ogni colonna ad un parametro utilizzato per descrivere i campioni di mRNA coinvolti nell’esperimento.
Per stimare i parametri del modello si applica di solito il metodo dei minimi quadrati che consiste nel minimizzare la somma dei quadrati dei residui del modello ossia la somma dei quadrati delle differenze tra le osservazioni e i valori corrispondenti previsti dal modello:
(4.15) RSS =(Y −Xβ)T(Y −Xβ)
(Da questo punto in avanti si è omesso il pedice g per non appesantire eccessivamente la notazione, il modello considerato rimane però gene-specifico).
Minimizzare RSS equivale a risolvere il seguente sistema di equazioni (dette equazioni normali):
(4.16) (XTX)β = XTY
da cui si ricava:
Si noti che β) esiste se e solo se esiste la matrice inversa di XTX. Questo richiede che X abbia rango pieno (per colonne)1 cioè che risulti rX = K. In caso contrario è
necessario definire la matrice inversa generalizzata di XTX, indicata generalmente con (XTX)-. Tale matrice non è unica, pertanto per ottenere una stima del vettore dei parametri
bisogna definire dei vincoli sugli stessi.
Una volta calcolato β), la stima σ)2 della varianza dell’errore è data dal
rapporto tra la somma dei quadrati dei residui e i rispettivi gradi di libertà, cioè:
2 σ (4.18) 2 /( ) ( ) ( )/( ) X T X Y X Y X N r r N RSS − = − − − = β β σ) ) )
dove rX è il rango della matrice del disegno.
La stima della varianza dell’errore rappresenta un passaggio critico nell’adattamento di un modello lineare ad un set di dati microarry. L’approccio descritto si basa sulla formulazione di un modello lineare distinto per ogni gene e utilizza per la stima
di solo le osservazioni relative al gene considerato. Questo approccio ha però lo
svantaggio di non considerare le relazioni tra i geni che potrebbero fornire un’informazione aggiuntiva. Inoltre, poiché per ogni gene è solitamente disponibile un numero limitato di misure, i gradi di libertà per stimare la varianza dell’errore possono essere pochi, o persino insufficienti, dando luogo a test statistici poco potenti.
2
σ
Per superare questo problema, Wright e Simon (2003) hanno proposto un approccio ibrido (denominato Modello della Varianza Randomizzata, RVM) nel quale si assume che le varianze dei residui variano da gene a gene ma costituiscono delle rappresentazioni di un’unica variabile aleatoria caratterizzata da una precisa distribuzione di probabilità. Osservando i valori assunti da RSS per ogni gene, è possibile stimare la forma di tale distribuzione; successivamente per un singolo gene si corregge la RSS osservata sulla base della distribuzione. Utilizzando per la stima di le informazioni fornite dall’intero set di geni si può ottenere una stima migliore della varianza vera aumentando contemporaneamente il numero dei gradi di libertà residui.
2
σ
Se con si indica la varianza di errore per il gene g, al variare di g =. 1,…G, le varianze sono variabili casuali che seguono una distribuzione gamma inversa, cioè si ha: 2 g σ 2 g σ
1 Una matrice X ha rango pieno per colonne (per righe) se le sue colonne (righe) sono linearmente
indipendenti. La matrice X nel suo complesso ha rango pieno se e solo se il suo determinante è diverso da zero.
(4.19) a a g b a b x x b a x G ) ( ) / exp( ) , ; ( 1 2 Γ − ≡ ∼ − − σ
con a e b paramenti incogniti, uguali per tutti i geni.
La scelta della distribuzione gamma inversa quale distribuzione a priori della varianza è una scelta molto comune nell’analisi Bayesiana2 in virtù della semplicità con la
quale può essere calcolata. Inoltre, è stato dimostrato che essa costituisce un modello più che soddisfacente della struttura della varianza effettiva dei dati microarray (Wright e Simon, 2003).
Per determinare i coefficienti a e b, si può dimostrare che nelle ipotesi di validità del modello RVM, il prodotto: (4.20) * ( 2) ( ,2 ) a r N g F X b a σ) ∼ −
dove N-rX e 2a sono i gradi di libertà rispettivamente del numeratore e del denominatore,
della distribuzione F. Quindi è possibile stimare a e b interpolando una distribuzione F sui valori 2
g
σ) osservati.
L’obiettivo ultimo di un esperimento microarray consiste nell’effettuare una serie di confronti prestabiliti tra i trattamenti considerati. A tal fine si definisce un vettore di costanti c, di lunghezza K, chiamato vettore dei contrasti: la combinazione lineare cTβ
individua un singolo confronto. Se i confronti di interesse sono più di uno, bisogna definire una matrice dei contrasti C di dimensione (K x p) dove p è il numero di confronti che si vogliono effettuare tra i K trattamenti. Con l’introduzione della matrice dei contrasti, l’ipotesi nulla e l’ipotesi alternativa possono essere così formulate:
H0: CTβ = 0
H1: CTβ ≠ 0
Il test statistico per la verifica delle ipotesi è dato dal rapporto: (4.21) ) /( ) ( ) ( / ) ( ) ) ( ( ) ( 1 1 X T C T T T T T r N X Y X Y r C C X X C C F T − − − = − − β β β β ) )
2 L’analisi dei dati basata sull’approccio Bayesiano prevede la generazione di un’ipotesi di distribuzione a
priori per il parametro che si sta considerando a partire da tutte le informazioni a disposizione. Si procede successivamente ad aggiornare le stime avvalendosi del teorema di Bayes e delle distribuzioni a priori, al fine di generare una distribuzione a posteriori del parametro. Infine si verifica che i nuovi dati confermino le ipotesi a priori.
dove rCT è il rango della matrice dei contrasti.
Se, oltre alle ipotesi precedenti, si fa l’assunzione che gli errori siano distribuiti
normalmente (ossia: (da cui segue che i dati Y seguono una distribuzione
normale multivariata, , si può dimostrare che quando è vera l’ipotesi
nulla il rapporto definito in (4.21) segue una distribuzione F di Fisher con gradi di libertà
)) , 0 ( 2 N I N σ ε ∼ )) , ( 2 N I X N Y ∼ β σ T C r = 1 υ e υ2 =N −rX.
Nel caso particolare in cui CT è un vettore riga, il rapporto (3.38) si riduce a:
(4.22) 1 2 2 1 2 ) ( ) ( )] /( ) ( ) [( ) ( ) ( σ β β β β ) ) ) C X X C C r N X Y X Y C X X C C F T T T X T T T T − − − − − = =
e può essere confrontato con una distribuzione di Fisher con: υ1 =1 e υ2 = N−rX. Poichè
il quadrato di una variabile che segue una distribuzione t di Student con n gradi di libertà, risulta distribuito come una F di Fisher con υ1 =1 e υ2 =n, si ha che:
(4.23) X r N T T T t C X X C C − −1 ∼ 2 ( ) ) ( σ β )
Pertanto, nell’ipotesi di un solo confronto di interesse, il test di significatività può essere effettuato utilizzando la statistica t di Student che, a differenza del test F, ha il vantaggio di consentire anche la verifica di ipotesi unilaterali.
Utilizzando il modello della varianza randomizzata, la stima β) del vettore dei
parametri rimane invariata mentre cambia la stima di che assume la seguente
espressione: 2 σ (4.24) ~2 ~ /( 2 ) a r N S S R − X + = σ dove: (4.25) ~ = +2 −1 =( − ) ( − )+2 −1 b X Y X Y b RSS S S R β) T β)
Il test statistico per la verifica delle ipotesi diventa pertanto: (4.26) ) 2 /( ] 2 ) ( ) [( / ) ( ) ) ( ( ) ( 1 1 1 a r N b X Y X Y r C C X X C C F X T C T T T T T T + − + − − = − − − β β β β ) )
Nell’ipotesi di validità di H0, il rapporto (4.26) segue la distribuzione F di Fisher
con υ1 =rCT e υ2 =N −rX +2a. Si nota facilmente che rispetto alla statistica definita in
(4.21), i gradi di libertà del denominatore sono aumentati di un fattore 2a che contribuisce a rendere il test più potente.
Il modello lineare considerato è estremamente semplice e di fatto coincide con il modello ANOVA ad un solo criterio di classificazione introdotto nel paragrafo (4.1). Tuttavia è possibile costruire modelli molto più complessi in grado di descrivere disegni sperimentali più complicati. Tali modelli dovranno includere tutti quegli effetti che non è stato possibile correggere con il processo di normalizzazione, come per esempio gli effetti “array” e “dye” gene-specifici o l’effetto indicato in letteratura come “effetto sample” dovuto alla variabilità biologica tra i campioni. Analogamente a quanto già detto a proposito dei modelli ANOVA, alcuni di questi effetti possono essere considerati “random”, portando così alla definizione di un modello lineare ad effetti misti la cui formulazione generale è data da:
(4.27) Y = Xβ +Zu+ε dove:
- X, β ed ε hanno lo stesso significato del modello (4.14) ad effetti fissi,
- Z e u sono rispettivamente la matrice del disegno e il vettore dei parametri che descrivono gli effetti “random” inclusi nel modello.
Si assume che u ed ε siano normalmente distribuiti con:
(4.28) ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ 0 0 ε u E (4.29) ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ R G u Var 0 0 ε
Di conseguenza si trova per la varianza di Y la seguente espressione: (4.30) V =ZGZT +R
La stima dei parametri di un modello lineare misto è molto più difficile che per un modello lineare ad effetti fissi dal momento che, oltre a β, sono incogniti anche u, G ed R. La stima basata sul metodo dei minimi quadrati non rappresenta in questo caso la scelta più
adatta. Un metodo più appropriato è il metodo dei minimi quadrati generalizzato che si basa sulla minimizzazione di:
(4.31) ( β) 1( β) X Y V X Y − T − −
Ciò implica tuttavia la conoscenza di V e quindi, indirettamente, di G e di R. In molti casi l’approccio migliore prevede l’utilizzo dei metodi di massima verosimiglianza. Condizione necessaria per l’applicabilità di questi metodi è che u ed ε seguano una distribuzione normale. Si costruisce quindi una funzione obiettivo (detta funzione di verosimiglianza) e si determinano i valori dei parametri che massimizzano tale funzione.
I confronti di interesse si ottengono anche in questo caso come combinazioni lineari dei parametri del modello attraverso la definizione del vettore o della matrice dei contrasti C.
L’ipotesi nulla e l’ipotesi alternativa possono essere così formulate:
H0: ⎥=0 ⎦ ⎤ ⎢ ⎣ ⎡ u CT β H1: ⎥≠0 ⎦ ⎤ ⎢ ⎣ ⎡ u CT β
Tipicamente si è interessati a fare inferenza solo sull’effetto del trattamento (che è un effetto fisso), pertanto gli elementi di C che si riferiscono al vettore u o agli altri effetti fissi diversi dall’effetto del trattamento (considerati nel vettore β) sono uguali a 0.
La verifica delle ipotesi procede quindi in modo analogo a quanto illustrato per i modelli lineari ad effetti fissi.