Appendice A
Statistica dei test multipli
Test multipli
Si consideri il problema di testare simultaneamente n ipotesi nulle H0i (i=1,…,n). Per ogni test i viene costruita una statistica dalla quale può essere derivato un p-value Pi. Si respinge l’ipotesi nulla H0i se Pi ≤ t per ogni i=1,…,n e un fissato valore di soglia t ∈[ 0,1 ].
Le diverse uscite per gli n test possono essere riassunte come nella tabella A.1
non respinte respinte
ipotesi nulle vere U(t) V(t) n0
ipotesi nulle false T(t) S(t) n1
totale n-R(t) R(t) n
Tabella A.1: Tabella riassuntiva del test delle ipotesi
dove:
- n0 è il numero di ipotesi nulle vere; - n1 è il numero di ipotesi nulle false;
- V(t) è il numero di falsi positivi, cioè di errori di I tipo; - T(t) è il numero di falsi negativi, cioè di errori di II tipo; - R(t) è il numero di ipotesi nulle rigettate.
Di queste variabili si conoscono soltanto R(t) ed n, mentre sono incognite n0, n1 e i processi random V(t) e T(t).
I metodi standard cercano i test che minimizzano il cosiddetto “error rate” di tipo II, cioè massimizzano la potenza, fra le classi di test con “error rate” di tipo I fissato ad un ragionevole livello α.
“Error Rate” di tipo I
Quando viene testata una singola ipotesi nulla H0, la probabilità di errore di tipo I di rigettare l’ipotesi nulla quando essa è vera viene tipicamente controllata ad un livello fissato α. Questa probabilità può essere definita in un generico test bilaterale ricavando un valore critico positivo cα e uno negativo c-α tale che Pr(h0≥ cα|H0) ≤ α e Pr(-h0≤ c-α|H0)
≤ α respingendo H0 quando h0≥ cα e -h0≤ c-α, dove h0 è il valore, ottenuto dai dati a disposizione, della statistica che si sta utilizzando per realizzare il test. Esiste una varietà di generalizzazioni di questa definizione per test multipli; gli error rate di tipo I proposti di seguito sono i più standard (Shaffer 1995).
Per-comparison error rate (PCER). Il PCER è definito come il valore
atteso del numero di errori di tipo I rispetto al numero di ipotesi totale:
PCER = E(V)/n
Per-family error rate (PFER). Il PFER è definito come il valore
atteso del numero di errori di tipo I: PFER = E(V)
Family-wise error rate (FWER). Il FWER è definito come la probabilità che ci sia almeno un errore di tipo I:
FWER = Pr (V ≥ 1)
False discovery rate (FDR). L’FDR di Benjamini & Hochberg
(1995) è la proporzione attesa di errori di tipo I fra le ipotesi rigettate:
FDR = E(Q) dove per definizione
Q = ⎩ ⎨ ⎧ 0 / R V se R>0, se R=0 Potenza
Il concetto di potenza può essere generalizzato in vari modi; esistono in letteratura tre definizioni di potenze:
La probabilità di respingere almeno un’ipotesi nulla falsa Pr(S≥1) = Pr(T ≤ n1-1)
La probabilità media di respingere le ipotesi nulle false o average power
E(S)/n1
Pr(S=n1) = Pr(T=0)
In maniera analoga all’FDR la potenza può anche essere definita come
E(S/R|R>0)*Pr(R>0) = Pr (R>0) - FDR
Confronto fra error rate di tipo I
In generale per una data procedura di test multipli vale la seguente disuguaglianza (Dudoit et al. 2003):
PFER FWER
PCER≤ ≤
Quindi, per un fissato livello α, i procedimenti che controllano PFER sono più conservativi di quelli che controllano FWER o PCER. Per illustrare le proprietà dei differenti error rate di tipo I, si può supporre che ogni ipotesi Hj venga testata individualmente a livello αj e che la decisione di rigettare o meno tale ipotesi sia basata esclusivamente su questo test. Sotto l’ipotesi nulla completa, ovvero nessuna delle ipotesi nulle è rigettabile, il PCER è semplicemente la media degli αj e il PFER è la somma degli αj, mentre FWER non dipende da αj, ma coinvolge la distribuzione congiunta delle statistiche Tj.
(
n)
n(
n)
FWER PFER nPCER= α1+...+α / ≤maxα1,...,α ≤ ≤ =α1+...+α
Anche FDR dipende dalla distribuzione congiunta dei test statistici e per un procedimento fissato FDR ≤ FWER, con FDR=FWER sotto l’ipotesi
Il problema principale nella valutazione dell’error rate di tipo I è che la probabilità di avere almeno un errore di questo tipo incrementa drasticamente con il numero di ipotesi testate. Come conseguenza di questo comportamento di FWER, si rende necessaria la ridefinizione dell’error rate di tipo I nel caso di test multipli, in modo da consentire un controllo globale della porzione di errori sugli n test. Le soluzioni a questo problema sono differenti a seconda del tipo di approccio statistico scelto.
Approccio frequentistico a test multiplo
La teoria frequentista della probabilità computa un p-value per ogni test e inserisce il risultato in due tipi di framework per test multipli: i procedimenti single-step e i procedimenti step-wise (Dudoit et al. 2003).
In un procedimento single-step la regione di rifiuto di ogni test è costante e non dipende dal risultato di test su altre ipotesi.
Un esempio di procedimento di questo tipo è la correzione di Bonferroni sul livello α di ogni singolo test. In questo caso è possibile acquisire un livello di significatività globale α sui test anche confrontando due campioni per volta. Si supponga, per esempio, di voler confrontare k campioni a due a due utilizzando un t-test o un F-test. Il numero di confronti possibile è:
(
)
⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ = − = 2 2 1 k k kn
kPer ottenere un livello di significatività complessivo del test pari ad α, ciascun confronto singolo deve avere un livello di significatività α' che soddisfa la disuguaglianza di Bonferroni:
k
n
α α'≤
Ad esempio, se per k = 3 si vuole α ≤ 0.05, deve essere α' ≤ 0.016, cioè è necessario un livello di alta significatività per ogni singolo confronto.
In un procedimento step-down i p-value dei singoli test sono ordinati dal più significativo al meno significativo e le corrispondenti ipotesi sono considerate nello stesso ordine: appena si verifica la condizione di rifiuto per un’ipotesi, anche le seguenti meno significative vengono rigettate.
Esempi di questo framework sono il procedimento di Holm (1979) e quello di Westfall & Young (1993).
Nella correzione step-down di Holm si procede nel modo seguente: Si sceglie un livello di significatività α;
Si ordinano i geni seguendo l’ordinamento ascendente dei p-value;
Si confrontano i p-value con una soglia che dipende dalla posizione del gene nella lista di valori ordinati. La soglia viene calcolata secondo la formula α / G per il primo gene, dove G è il numero di geni, α / G-1 per il secondo gene e così via.
, 1 G
p
< α , 1 2< G−p
α , 2 3<G−p
α , 1....
< − + k Gp
k α 1....
p
<α G Sia k il più grande indice per il quale vale pi < α / G-i+1. Verranno respinte tutte le ipotesi per le quali i>k.
step-significativo e un esempio è la procedura di calcolo del False Discovery Rate secondo Benjamini e Hochberg:
Si sceglie un livello di significatività α;
Si ordinano i geni seguendo l’ordinamento ascendente dei p-value;
Si confrontano i p-value con una soglia che dipende dalla posizione del gene nella lista di valori ordinati. La soglia viene calcolata secondo la formula α / G per il primo gene, dove G è il numero di geni, 2α / G per il secondo gene e così via.
, 1 G
p
<α 2 , 2 Gp
< α...
, G kp
k< α...
p
G<α Sia k il più grande indice per il quale vale pi < α / G. Verranno respinte tutte le ipotesi per le quali i<k.