Introduzione alla verifica di ipotesi su parametri
Atteggiamento diverso dalla stima dei parametri ma modello probabilistico simile
Esempi di situazioni riconducibili a verifica di ipotesi su parametri.
- il raccolto di una nuova specie ibrida di grano `e superiore a quello di una specie comune?
- un nuovo tipo di lampadine ha una durata di funzionamento maggiore di quelle tradizionali?
- un nuovo prodotto farmaceutico riduce il numero di giorni di malattia rispetto a uno tradizionale?
- un metodo di conservazione dei cibi `e migliore di un altro relativamente alla conservazione delle vitamine?
- un macchinario continua a produrre pezzi rispettando certe specifiche? - la concentrazione di alga tossica nel mare `e tale da destare
preoccu-pazione?
- l’ovaio sottoposto a cure per problemi all’endometrio, continua ad ovulare come l’altro?
Esempio
Farmaco che dovrebbe ridurre un certo tipo di eczema.
Ricerche precedenti hanno mostrato il 40% dei topi di una certa specie affetti dall’eczema sono liberi da sintomi in 4 settimane. Riteniamo il farmaco efficace se pi`u del 40% dei topi sono senza sintomi in 4 settimane.
Due popolazioni:
- la prima topi non trattati (il 40% guarisce in 4 settimane)
- la seconda di topi di cui a un campione `e somministrato il farmaco.
Numerosit`a n del campione della seconda popolazione
p frequenza relativa di topi senza sintomi
Formuliamo l’ipotesi che il farmaco non abbia effetto p = 0.40
Formulazione delle ipotesi
Due ipotesi:
H0 ipotesi principale o ipotesi nulla H1 ipotesi alternativa
Atteggiamento: si rimane convinti della conoscenza/supposizione di partenza (l’ipotesi principale) a meno che non si abbiano forti evidenze sperimentali per negarla
Esempi:
- farmaco H0: p = 0.4 e H1: p > 0.4
- lampadine H0: µ = 1400 e H1: µ 6= 1400 - macchinario H0: σ2 ≥ σ02 e H1: σ2 < σ02
Ipotesi semplice o composta:
Il modello statistico
La statistica test T : funzione delle osservazioni campionarie
(pu`o essere uno stimatore) di cui `e nota la distribuzione quando sia conosciuto il valore del parametro.
Il test `e una regola di decisione
Si suddivide lo spazio dei possibili valori assunti dalla statistica test in due regioni disgiunte, A0 e R0, e si accetta o si rifiuta l’ipotesi principale a seconda che il valore ottenuto nel campione appartenga alla prima o alla seconda.
Il livello del test
Atteggiamento: si rimane convinti della conoscenza/supposizione di partenza (l’ipotesi principale) a meno che non si abbiano forti evidenze sperimentali per negarla
rifiu-La regione di rifiuto dell’ipotesi principale H0: θ = θ0 P (T ∈ R0|H0 vera) = α 0.0 0.2 0.4 0.0 0.2 0.4 0.0 0.2 0.4 c1 θ c2 0.0 0.2 0.4 0.0 0.2 0.4 c1 θ 0.0 0.2 0.4 0.0 0.2 0.4 θ c2 0.00 0.10 0.20 0.00 0.10 0.20 0.00 0.10 0.20 c1 c2 0.00 0.10 0.20 0.00 0.10 0.20 c1 0.00 0.10 0.20 0.00 0.10 0.20 c2 H1 : θ 6= θ0 Test bilaterale R0 = (−∞, c1) ∪ (c2, ∞) H1 : θ < θ0
Test unilaterale sinistro
R0 = (−∞, c1)
H1 : θ > θ0
Test unilaterale destro
Esempio: X modella la concentrazione di alga tossica
Assumiamo (attenzione!): X ∼ N (µ, σ) e σ noto
quindi X ∼ N
µ, √σ n
Livello di allerta se µ > 10000 cellule/litro
H0 : µ ≥ 10000 H1 : µ < 10000
Poniamo: α = 5%. Se si rifiuta H0 si pu`o fare il bagno con probabilit`a di conseguenze del 5%.
Campione di numerosit`a 10.
Costruzione del test in tre passi: 1. H0 : µ=10000 H1 : µ= 8500 2. H0 : µ=10000 H1 : µ<10000 3. H0 : µ≥10000 H1 : µ<10000
Si suppone H0 vera: X ∼ N (10000, 2100/√ 10) R0 = (−∞, x0.05) tale che α = 0.05 = Px0.05 < X|µ = 10000 con R: x0.05 = 8908 mu0=10000;std=2100/sqrt(10) c1= qnorm(.05,mu0,std);c1
Se si ha un valore sperimentale minore di 8908 si rifiuta H0 con probabilit`a di aver preso la decisione sbagliata del 5%
E se si trova un valore sperimentale maggiore di 8908?
Se H1 : µ = 8500
β = P x0.05 < X|µ = 8500
con R: β = 27%
mu1=8500;1-pnorm(c1,mu1,std)
si accetta H0 con probabilit`a di aver preso la decisione sbagliata del 27%
10000 8500 H accettata - H rifiutata H accettata - H rifiutata1 0 0 1 10000 8500 H accettata - H rifiutata H accettata - H rifiutata1 0 0 1
Errore di prima specie e errore di seconda specie
DECISIONE PROBABILIT `A
H0 accettata H0 rifiutata H0 accettata H0 rifiutata H1 rifiutata H1 accettata H1 rifiutata H1 accettata H0 vera corretta sbagliata 1 − α α H1 falsa H0 falsa sbagliata corretta β 1 − β H1 vera
α = Prob(rifiutare H0|H0 vera) = Prob. errore di prima specie
β = Prob(rifiutare H1|H1 vera) = Prob. errore di seconda specie
Propriet`a di un buon test:
la probabilit`a di prendere la decisione sbagliata `e inferiore alla probabilit`a di prendere la decisione giusta:
Caso
H0 : µ=10000 H1 : µ<10000
R0 non cambia
(`e calcolata “sotto” H0)
Cambia la probabilit`a dell’errore di seconda specie β.
Diventa una funzione di µ1 10000
H accettata - H rifiutata H accettata - H rifiutata1 0 0 1
Caso
H0 : µ≥10000 H1 : µ<10000 Mantenendo la stessa R0
la probabilit`a dell’errore di prima specie diventa < α
La probabilit`a dell’errore di seconda specie β `e la stessa del caso prece-dente.
10000
H accettata - H rifiutata H accettata - H rifiutata1 0 0 1
Il p-value – Un altro modo per decidere
probabilit`a sotto H0 di ottenere un valore campionario “pi`u lon-tano” da H0 e “pi`u vicino” a H1 di quello ottenuto, x
oppure
livello del test se la soglia di R0 fosse x
H0 : µ = µ0 nell’esempio: µ0 = 10000 x = 9000 H1 : µ < µ0 H1 : µ > µ0 H1 : µ 6= µ0 10000 9000 10000 9000 10000 11000 9000 p(9000) = 0.066 pnorm(9000,mu0,std) p(9000) = 0.934 1-pnorm(9000,mu0,std) p(9000) = 0.132 2*pnorm(9000,mu0,std)
La potenza di un test P (θ)
`
E la probabilit`a di accettare l’ipotesi alternativa H1 al variare del parametro θ
- Θ0 insieme a cui appartiene θ quando H0 `e vera - Θ1 insieme a cui appartiene θ quando H1 `e vera
- Se θ ∈ Θ1, P (θ) probabilit`a di scelta corretta: P (θ) = 1 − β(θ) - Se θ ∈ Θ0, P (θ) probabilit`a di scelta sbagliata: P (θ) ≤ α(θ)
Esempio alga tossica H0 : µ ≥ 10000 H1 : µ < 10000 Θ0 = (10000, +∞) Θ1 = (−∞, 10000) P (µ) = PX < x0.05 | µ ∈ R 0 1 α 10000 8500 1-β (8500)
Potenza e numerosit`a campionaria
La probabilit`a di accettare H1, quando `e vera, aumenta all’aumentare della numerosit`a campionaria.
Se i valori del parametro sotto H1 e sotto H0 sono molto vicini, solo con grandi campioni si riesce ad avere una probabilit`a alta di effettuare la scelta corretta.
Potenza del test H0 : µ ≥ 10000 H1 : µ < 10000 n = 10 rosso n = 20 blu 0 1 α 0 1 α
La potenza per test unilaterali e bilaterali Unilaterale: P (µ) = PX < x0.05 | µ ∈ R Bilaterale: P (µ) = PX < x0.025 | µ ∈ R + P X > x0.975 | µ ∈ R rosso – unilaterale H0 : µ ≥ 10000 H1 : µ < 10000 blu – bilaterale H0 : µ = 10000 H1 : µ 6= 10000 0 1 α 10000 mu=seq(7000,13000);c1_u=qnorm(.05,mu0,std);p=pnorm(c1_u,mu,std) c1_b=qnorm(.025,mu0,std);c2_b=qnorm(.975,mu0,std) p_b=pnorm(c1_b,mu,std)+1-pnorm(c2_b,mu,std)
Numerosit`a campionaria n fissati α e β H0 : µ = µ0 H1 : µ = µ1 con µ1 < µ0 ⇒ R0 = (−∞, s) α = P X < s|µ = µ0 = P X − µ0 σ/√ n < s − µ0 σ/√ n = P X − µ0 σ/√ n < zα β = P X > s|µ = µ1 = P X − µ1 σ/√ n > s − µ1 σ/√ n = P X − µ1 σ/√ n > z1−β Da s−µ0 σ/√ n = zα e s−µ1 σ/√ n = z1−β = −zβ si ottiene: n = zα + zβ2 σ2 (µ0 − µ1)2 Vale anche nel caso µ1 > µ0.
n deve essere tanto maggiore quanto pi`u:
- `e minore la distanza fra i valori attesi sotto le due ipotesi; - `e maggiore la varianza;
Confronto fra intervalli di confidenza e test I.d.c a livello 1 − α. Test a livello α
X ∼ N (µ, σ), σ noto Parametro di interesse µ
Bilaterale:
δB = z1−α/2 √σ n
L’intervallo di confidenza `e centrato in x, A0 `e centrato in µ0.
µ
( )
( x
A) ( x
B)
0
Test Unilaterale sinistro e I.d.c. destro:
δU = z1−α √σ n
A0 = (µ0−δU, ∞) I.d.c. sinistro per µ: (∞, µ0+δU) Il test unilaterale si pu`o confrontare con l’i.d.c
bilaterale a livello 1 − 2α
x
Aµ
(
)
0)
(
Osservazioni: a) δU < δB (i disegni sopra non sono in scala)
Test multipli e correzioni per molteplicit`a
In molte situazioni sperimentali, sugli stessi dati, si effettuano pi`u test con ipotesi principali
H0(1), H0(2), . . . , H0(K)
1 − α = Prob(accettare H0(i) |H0(i) vera). Poniamo α = 0.05
K = 2
Probabilit`a di accettare entrambe le ipotesi (se indipendenti) quando vere: (1 − α)2 = 0.952 = 0.90
Probabilit`a di rifiutare almeno una delle due ipotesi quando vere: 1 − (1 − α)2 = 1 − 0.952 = 0.10
K = 20
Probabilit`a di accettare tutte le 20 ipotesi quando vere: (1 − α)20 = 0.9520 = 0.36
Probabilit`a di rifiutare almeno una delle 20 ipotesi quando vere: 1 − (1 − α)20 = 1 − 0.9520 = 0.64 α
Correzione di Bonferroni
`
E una possibile. Varie altre sono state sviluppate.
Il livello di significativit`a di ciascuno dei K si pone a α/K
Nei casi precedenti:
K = 2. Probabilit`a di rifiutare almeno una delle due ipotesi quando vere: 1 − (1 − (0.05/2))2 = 0.0493
K = 20. Probabilit`a di rifiutare almeno una delle 20 ipotesi quando vere: 1 − (1 − (0.05/20))20 = 0.0488
Di conseguenza il p-value ottenuto su un singolo test viene molti-plicato per K per essere confrontato con α.
Altri modelli
• su un campione
– X ∼ N (µ, σ), σ sconosciuto, test per µ
– X ∼ N (µ, σ), µ noto o sconosciuto, test per σ2 – X ∼ Bernoulli(p) approssimato, test per p
– X con legge qualsiasi, con n grande
– X ∼ Poisson(λ), X ∼ Exp(λ), X ∼ Bernoulli(p)... si pos-sono fare calcoli esatti
• su due campioni
– X1 ∼ N (µ1, σ1) e X2 ∼ N (µ2, σ2): ∗ test per µ1 − µ2
· su due diverse popolazioni · sulla stessa popolazione ∗ test per σ12/σ22
– X1 ∼ Bernoulli(p1) e X2 ∼ Bernoulli(p2), test per p1 − p2 – Poisson, Esponenziale, Gamma, ...
Test per la frequenza relativa p
Esempio: eczema nei topi (continua)
Dopo 4 settimane: H0: p ≥ 0.40 e H1: p > 0.40
In un campione di 25 topi trattati con il nuovo farmaco: ˆp = 0.45 Supponiamo H0 vera. Fissiamo α = 5%. Approssimativamente
ˆ P ∼ N 0.40, r 0.40 0.60 25 !
Regione di rifiuto di H0: p-value di 0.48: (p0.95, 1) = (0.56, 1)
con p0.95 quantile 95-simo di una N (0.40, 0.098)
con R: con R:
> qnorm(0.95,0.40,sqrt(0.4*0.6/25)) > 1-pnorm(0.48,0.40,sqrt(0.4*0.6/25))
[1] 0.5611621 [1] 0.2071081
Test per l’uguaglianza delle medie di due v.a. Normali
Esempio: XF e XS modellano la riduzione del colesterolo nel sangue, con un nuovo farmaco e con un farmaco standard.
XF ∼ N (µF, σF) XS ∼ N (µS, σS)
Si vuole verificare: H0 : µF = µS e H1 : µF < µS ovvero
H0 : µF − µS = 0 e H1 : µF − µS < 0
nF e nS numerosit`a dei due campioni indipendenti di XF e XS. XF ∼ N µF, √σF nF ! XS ∼ N µS, √σS nS ! Consideriamo XF − XS ∼ N µF − µS, v u u t σF2 nF + σS2 nS
1. Le varianze σF2 e σS2 sono note
Fissato α si effettua il test nel modo usuale. 2. Le varianze σF2 e σS2 sono sconosciute
Stimate con gli stimatori non distorti SF2 e SS2
Si suppone σS2 = k σF2 con k noto.
Uno stimatore non distorto di V XF − XS `e: S2 = k(nF − 1)SF2 + (nS − 1)SS2 k (nF + nS − 2) · knF + nS nF nS Inoltre XF − XS− (µF − µS) S ∼ td con d = nF + nS − 2 In particolare se σS2 = σF2 e nF = nS = n, S2 = SF2 + SS2/n e d = 2n − 2
Confronto tra due trattamenti (Mauro Gasparini)
Il confronto fra un nuovo trattamento T e un trattamento stan-dard S si basi su un parametro θ (misura teorica di confronto da stimare)
Per esempio: θ = πT − πS
πT e πS: prob. di malattia sotto il trattamento e sotto lo standard Altro esempio: θ = µS − µT
µT e µS: quantit`a medie di un anticorpo (favorevole) sotto T e sotto S (pi`u grande `e meglio `e)
Pi`u piccolo `e θ, pi`u T risulta migliore di S.
-θ 0 valore neutro T migliore S migliore ˆ Θ stimatore di θ
1. Test di superiorit`a
Una prova clinica di superiorit`a `e spesso formulata come test per le ipotesi
H0 : θ = 0 (eguaglianza degli effetti) H1 : θ < 0 (superiorit`a del trattamento)
Test unilaterale sinistro a livello α
A0 = (z1−ασΘˆ, ∞) Si rifiuta H0 se ˆθ non appartiene a A0.
Intervallo di confidenza bilaterale per θ di livello 1 − 2α
ˆ
θ − z1−2ασΘˆ, ˆθ + z1−2ασΘˆ Si rifiuta H0 se non contiene lo 0
(
)
0
)
(
θ
^
2. Noninferiorit`a ed equivalenza
Supponiamo che non si richieda che T sia superiore a S, ma solo che sia equivalente.
In prove cliniche ci sono due casi importanti:
• dimostrare che un farmaco completamente nuovo d`a risul-tati non peggiori di una terapia standard. Se il farmaco nuovo fosse, per esempio, meno tossico dello standard, al-lora sarebbe utile dimostrarne la non inferiorit`a rispetto allo standard;
• dimostrare che una nuova formulazione di un farmaco for-nisce al corpo umano la stessa quantit`a di sostanza attiva di una formulazione standard. Tale dimostrazione di equa biodisponibilit`a pu`o indurre le autorit`a sanitarie, sotto certe condizioni, ad autorizzare l’uso di un farmaco generico (o
3. Noninferiorit`a come test e come intervallo di confidenza
Concentriamoci prima sulla non inferiorit`a: occorre stabilire un
margine di equivalenza ∆ tale che, se θ < ∆, allora T e S sono equivalenti, o simili.
H0 : θ ≥ ∆ (superiorit`a dello standard)
H1 : θ < ∆ (non inferiorit`a del trattamento). Non si confronta pi`u θ con 0 ma con ∆ con ∆ > 0.
La regola di decisione opportuna `e la seguente:
Si dichiara l’equivalenza se l’intervallo di confi-denza di livello 1 − 2α `e interamente contenuto nell’intervallo di equivalenza (−∞, ∆)
0
)
(
θ
^
∆
Il problema della equivalenza `e formulato in termini di test di ipotesi, ma `e risolto con tecniche di stima. Pensare in termini di stima chiarisce il fine del problema ed aiuta a formulare corretta-mente l’ipotesi che si vuole dimostrare.
Scelta del margine di equivalenza
La scelta del margine di equivalenza ∆ `e cruciale.
In un contesto di prove cliniche, per esempio, con una catena di prove di equivalenza (su una serie di generici, per esempio), se non si presta attenzione si pu`o arrivare ad approvare come generici trattamenti inefficienti
(vedi le critiche di Garattini su http://www.ricercaepratica.it/)
Il margine di equivalenza deve essere confrontato con un analogo margine relativo al confronto con il placebo.
Problema unilaterale o bilaterale?
Sarebbe sufficiente solo un intervallo di confidenza unilaterale di livello 1 − α;
ma un intervallo bilaterale di livello 1−2α conferisce informazioni supplementari di possibile interesse, come l’inclusione o meno di un importante valore alternativo di interesse, per esempio θ = 0, nell’intervallo di confidenza.
Inoltre per altri problemi, per esempio per la equa biodisponibilit`a, occorrono sia un limite superiore ∆ che un limite inferiore Γ. La regola di decisione rimane la stessa:
Si dichiara l’equivalenza se l’intervallo di confidenza di livello 1− 2α `e interamente contenuto nell’intervallo di equivalenza (Γ, ∆).