Test Parametrici - Inferenza statistica classica

Introduzione alla verifica di ipotesi su parametri

Atteggiamento diverso dalla stima dei parametri ma modello probabilistico simile

Esempi di situazioni riconducibili a verifica di ipotesi su parametri.

- il raccolto di una nuova specie ibrida di grano `e superiore a quello di una specie comune?

- un nuovo tipo di lampadine ha una durata di funzionamento maggiore di quelle tradizionali?

- un nuovo prodotto farmaceutico riduce il numero di giorni di malattia rispetto a uno tradizionale?

- un metodo di conservazione dei cibi `e migliore di un altro relativamente alla conservazione delle vitamine?

- un macchinario continua a produrre pezzi rispettando certe specifiche? - la concentrazione di alga tossica nel mare `e tale da destare

preoccu-pazione?

- l’ovaio sottoposto a cure per problemi all’endometrio, continua ad ovulare come l’altro?

Esempio

Farmaco che dovrebbe ridurre un certo tipo di eczema.

Ricerche precedenti hanno mostrato il 40% dei topi di una certa specie affetti dall’eczema sono liberi da sintomi in 4 settimane. Riteniamo il farmaco efficace se pi`u del 40% dei topi sono senza sintomi in 4 settimane.

Due popolazioni:

- la prima topi non trattati (il 40% guarisce in 4 settimane)

- la seconda di topi di cui a un campione `e somministrato il farmaco.

Numerosit`a n del campione della seconda popolazione

p frequenza relativa di topi senza sintomi

Formuliamo l’ipotesi che il farmaco non abbia effetto p = 0.40

Formulazione delle ipotesi

Due ipotesi:

H₀ ipotesi principale o ipotesi nulla H₁ ipotesi alternativa

Atteggiamento: si rimane convinti della conoscenza/supposizione di partenza (l’ipotesi principale) a meno che non si abbiano forti evidenze sperimentali per negarla

Esempi:

- farmaco H₀: p = 0.4 e H₁: p > 0.4

- lampadine H₀: µ = 1400 e H₁: µ 6= 1400 - macchinario H₀: σ² ≥ σ₀² e H₁: σ² < σ₀²

Ipotesi semplice o composta:

Il modello statistico

La statistica test T : funzione delle osservazioni campionarie

(pu`o essere uno stimatore) di cui `e nota la distribuzione quando sia conosciuto il valore del parametro.

Il test `e una regola di decisione

Si suddivide lo spazio dei possibili valori assunti dalla statistica test in due regioni disgiunte, A₀ e R₀, e si accetta o si rifiuta l’ipotesi principale a seconda che il valore ottenuto nel campione appartenga alla prima o alla seconda.

Il livello del test

Atteggiamento: si rimane convinti della conoscenza/supposizione di partenza (l’ipotesi principale) a meno che non si abbiano forti evidenze sperimentali per negarla

rifiu-La regione di rifiuto dell’ipotesi principale H₀: θ = θ₀ P (T ∈ R0|H₀ vera) = α 0.0 0.2 0.4 0.0 0.2 0.4 0.0 0.2 0.4 c1 θ c2 0.0 0.2 0.4 0.0 0.2 0.4 c1 θ 0.0 0.2 0.4 0.0 0.2 0.4 θ c2 0.00 0.10 0.20 0.00 0.10 0.20 0.00 0.10 0.20 c1 c2 0.00 0.10 0.20 0.00 0.10 0.20 c1 0.00 0.10 0.20 0.00 0.10 0.20 c2 H1 : θ 6= θ0 Test bilaterale R0 = (−∞, c1) ∪ (c2, ∞) H1 : θ < θ0

Test unilaterale sinistro

R0 = (−∞, c1)

H1 : θ > θ0

Test unilaterale destro

Esempio: X modella la concentrazione di alga tossica

Assumiamo (attenzione!): X ∼ N (µ, σ) e σ noto

quindi X ∼ N

µ, √^σ n

Livello di allerta se µ > 10000 cellule/litro

H₀ : µ ≥ 10000 H₁ : µ < 10000

Poniamo: α = 5%. Se si rifiuta H₀ si pu`o fare il bagno con probabilit`a di conseguenze del 5%.

Campione di numerosit`a 10.

Costruzione del test in tre passi: 1. H₀ : µ=10000 H₁ : µ= 8500 2. H₀ : µ=10000 H₁ : µ<10000 3. H₀ : µ≥10000 H₁ : µ<10000

Si suppone H₀ vera: X ∼ N (10000, 2100/√ 10) R₀ = (−∞, x_0.05) tale che α = 0.05 = Px_0.05 < X|µ = 10000 con R: x_0.05 = 8908 mu0=10000;std=2100/sqrt(10) c1= qnorm(.05,mu0,std);c1

Se si ha un valore sperimentale minore di 8908 si rifiuta H₀ con probabilit`a di aver preso la decisione sbagliata del 5%

E se si trova un valore sperimentale maggiore di 8908?

Se H₁ : µ = 8500

β = P x_0.05 < X|µ = 8500

con R: β = 27%

mu1=8500;1-pnorm(c1,mu1,std)

si accetta H₀ con probabilit`a di aver preso la decisione sbagliata del 27%

10000 8500 H accettata - H rifiutata H accettata - H rifiutata₁ ₀ ₀ ₁ 10000 8500 H accettata - H rifiutata H accettata - H rifiutata₁ ₀ ₀ ₁

Errore di prima specie e errore di seconda specie

DECISIONE PROBABILIT `A

H0 accettata H0 rifiutata H0 accettata H0 rifiutata H1 rifiutata H1 accettata H1 rifiutata H1 accettata H0 vera corretta sbagliata 1 − α α H1 falsa H0 falsa sbagliata corretta β 1 − β H1 vera

α = Prob(rifiutare H₀|H₀ vera) = Prob. errore di prima specie

β = Prob(rifiutare H₁|H₁ vera) = Prob. errore di seconda specie

Propriet`a di un buon test:

la probabilità di prendere la decisione sbagliata è inferiore alla probabilità di prendere la decisione giusta:

Caso

H₀ : µ=10000 H₁ : µ<10000

R₀ non cambia

(`e calcolata “sotto” H₀)

Cambia la probabilit`a dell’errore di seconda specie β.

Diventa una funzione di µ₁ ₁₀₀₀₀

H accettata - H rifiutata H accettata - H rifiutata₁ ₀ ₀ ₁

Caso

H₀ : µ≥10000 H₁ : µ<10000 Mantenendo la stessa R₀

la probabilit`a dell’errore di prima specie diventa < α

La probabilit`a dell’errore di seconda specie β `e la stessa del caso prece-dente.

10000

H accettata - H rifiutata H accettata - H rifiutata₁ ₀ ₀ ₁

Il p-value – Un altro modo per decidere

probabilità sotto H₀ di ottenere un valore campionario “più lon-tano” da H₀ e “più vicino” a H₁ di quello ottenuto, x

oppure

livello del test se la soglia di R₀ fosse x

H₀ : µ = µ₀ nell’esempio: µ₀ = 10000 x = 9000 H₁ : µ < µ₀ H₁ : µ > µ₀ H₁ : µ 6= µ₀ 10000 9000 10000 9000 10000 11000 9000 p(9000) = 0.066 pnorm(9000,mu0,std) p(9000) = 0.934 1-pnorm(9000,mu0,std) p(9000) = 0.132 2*pnorm(9000,mu0,std)

La potenza di un test P (θ)

E la probabilit`a di accettare l’ipotesi alternativa H₁ al variare del parametro θ

- Θ₀ insieme a cui appartiene θ quando H₀ `e vera - Θ₁ insieme a cui appartiene θ quando H₁ `e vera

- Se θ ∈ Θ₁, P (θ) probabilit`a di scelta corretta: P (θ) = 1 − β(θ) - Se θ ∈ Θ₀, P (θ) probabilit`a di scelta sbagliata: P (θ) ≤ α(θ)

Esempio alga tossica H₀ : µ ≥ 10000 H₁ : µ < 10000 Θ₀ = (10000, +∞) Θ₁ = (−∞, 10000) P (µ) = PX < x_0.05 | µ ∈ R ₀ 1 α 10000 8500 1-β (8500)

Potenza e numerosit`a campionaria

La probabilità di accettare H₁, quando è vera, aumenta all’aumentare della numerosità campionaria.

Se i valori del parametro sotto H₁ e sotto H₀ sono molto vicini, solo con grandi campioni si riesce ad avere una probabilit`a alta di effettuare la scelta corretta.

Potenza del test H₀ : µ ≥ 10000 H₁ : µ < 10000 n = 10 rosso n = 20 blu 0 1 α 0 1 α

La potenza per test unilaterali e bilaterali Unilaterale: P (µ) = PX < x_0.05 | µ ∈ R Bilaterale: P (µ) = PX < x_0.025 | µ ∈ R + P X > x_0.975 | µ ∈ R rosso – unilaterale H₀ : µ ≥ 10000 H₁ : µ < 10000 blu – bilaterale H₀ : µ = 10000 H₁ : µ 6= 10000 0 1 α 10000 mu=seq(7000,13000);c1_u=qnorm(.05,mu0,std);p=pnorm(c1_u,mu,std) c1_b=qnorm(.025,mu0,std);c2_b=qnorm(.975,mu0,std) p_b=pnorm(c1_b,mu,std)+1-pnorm(c2_b,mu,std)

Numerosit`a campionaria n fissati α e β H₀ : µ = µ₀ H₁ : µ = µ₁ con µ₁ < µ₀ ⇒ R₀ = (−∞, s) α = _{P X < s|µ = µ}₀ = P X − µ0 σ/√ n ^< s − µ0 σ/√ n = P X − µ0 σ/√ n ^{< z}^α β = _{P X > s|µ = µ}₁ = P X − µ1 σ/√ n ^> s − µ1 σ/√ n = P X − µ1 σ/√ n ^{> z}^1−β Da ^s−µ⁰ σ/√ n = z_α e ^s−µ¹ σ/√ n = z_1−β = −z_β si ottiene: n = z_α + z_β² σ² (µ₀ − µ₁)² Vale anche nel caso µ₁ > µ₀.

n deve essere tanto maggiore quanto pi`u:

- `e minore la distanza fra i valori attesi sotto le due ipotesi; - `e maggiore la varianza;

Confronto fra intervalli di confidenza e test I.d.c a livello 1 − α. Test a livello α

X ∼ N (µ, σ), σ noto Parametro di interesse µ

Bilaterale:

δ_B = z_1−α/2 √^σ n

L’intervallo di confidenza `e centrato in x, A₀ `e centrato in µ₀.

µ

( )

( x

) ( x

)

Test Unilaterale sinistro e I.d.c. destro:

δ_U = z_1−α √^σ n

A₀ = (µ₀−δ_U, ∞) I.d.c. sinistro per µ: (∞, µ₀+δ_U) Il test unilaterale si pu`o confrontare con l’i.d.c

bilaterale a livello 1 − 2α

x

µ

(

)

(

Osservazioni: a) δ_U < δ_B (i disegni sopra non sono in scala)

Test multipli e correzioni per molteplicit`a

In molte situazioni sperimentali, sugli stessi dati, si effettuano pi`u test con ipotesi principali

H₀⁽¹⁾, H₀⁽²⁾, . . . , H₀^(K)

1 − α = Prob(accettare H₀⁽ⁱ⁾ |H₀⁽ⁱ⁾ vera). Poniamo α = 0.05

K = 2

Probabilit`a di accettare entrambe le ipotesi (se indipendenti) quando vere: (1 − α)² = 0.95² = 0.90

Probabilit`a di rifiutare almeno una delle due ipotesi quando vere: 1 − (1 − α)² = 1 − 0.95² = 0.10

K = 20

Probabilit`a di accettare tutte le 20 ipotesi quando vere: (1 − α)²⁰ = 0.95²⁰ = 0.36

Probabilit`a di rifiutare almeno una delle 20 ipotesi quando vere: 1 − (1 − α)²⁰ = 1 − 0.95²⁰ = 0.64 α

Correzione di Bonferroni

E una possibile. Varie altre sono state sviluppate.

Il livello di significativit`a di ciascuno dei K si pone a α/K

Nei casi precedenti:

K = 2. Probabilit`a di rifiutare almeno una delle due ipotesi quando vere: 1 − (1 − (0.05/2))² = 0.0493

K = 20. Probabilit`a di rifiutare almeno una delle 20 ipotesi quando vere: 1 − (1 − (0.05/20))²⁰ = 0.0488

Di conseguenza il p-value ottenuto su un singolo test viene molti-plicato per K per essere confrontato con α.

Altri modelli

• su un campione

– X ∼ N (µ, σ), σ sconosciuto, test per µ

– X ∼ N (µ, σ), µ noto o sconosciuto, test per σ² – X ∼ Bernoulli(p) approssimato, test per p

– X con legge qualsiasi, con n grande

– X ∼ Poisson(λ), X ∼ Exp(λ), X ∼ Bernoulli(p)... si pos-sono fare calcoli esatti

• su due campioni

– X₁ ∼ N (µ₁, σ₁) e X₂ ∼ N (µ₂, σ₂): ∗ test per µ₁ − µ₂

· su due diverse popolazioni · sulla stessa popolazione ∗ test per σ₁²/σ₂²

– X₁ ∼ Bernoulli(p₁) e X₂ ∼ Bernoulli(p₂), test per p₁ − p₂ – Poisson, Esponenziale, Gamma, ...

Test per la frequenza relativa p

Esempio: eczema nei topi (continua)

Dopo 4 settimane: H₀: p ≥ 0.40 e H₁: p > 0.40

In un campione di 25 topi trattati con il nuovo farmaco: ˆp = 0.45 Supponiamo H₀ vera. Fissiamo α = 5%. Approssimativamente

ˆ P ∼ N 0.40, r 0.40 0.60 25 !

Regione di rifiuto di H₀: p-value di 0.48: (p_0.95, 1) = (0.56, 1)

con p_0.95 quantile 95-simo di una N (0.40, 0.098)

con R: con R:

> qnorm(0.95,0.40,sqrt(0.4*0.6/25)) > 1-pnorm(0.48,0.40,sqrt(0.4*0.6/25))

[1] 0.5611621 [1] 0.2071081

Test per l’uguaglianza delle medie di due v.a. Normali

Esempio: X_F e X_S modellano la riduzione del colesterolo nel sangue, con un nuovo farmaco e con un farmaco standard.

X_F ∼ N (µ_F, σ_F) X_S ∼ N (µ_S, σ_S)

Si vuole verificare: H₀ : µ_F = µ_S e H₁ : µ_F < µ_S ovvero

H₀ : µ_F − µ_S = 0 e H₁ : µ_F − µ_S < 0

n_F e n_S numerosit`a dei due campioni indipendenti di X_F e X_S. X_F ∼ N µ_F, √^σ^F n_F ! X_S ∼ N µ_S, √^σ^S n_S ! Consideriamo X_F − X_S ∼ N   µ_F − µ_S, v u u t σ_F² n_F ⁺ σ_S² n_S   

1. Le varianze σ_F² e σ_S² sono note

Fissato α si effettua il test nel modo usuale. 2. Le varianze σ_F² e σ_S² sono sconosciute

Stimate con gli stimatori non distorti S_F² e S_S²

Si suppone σ_S² = k σ_F² con k noto.

Uno stimatore non distorto di V XF − X_S `e: S² = k(n_F − 1)S_F² + (n_S − 1)S_S² k (n_F + n_S − 2) ^· kn_F + n_S n_F n_S Inoltre X_F − X_S− (µ_F − µ_S) S ∼ t_d con d = n_F + n_S − 2 In particolare se σ_S² = σ_F² e n_F = n_S = n, S² = S_F² + S_S²/n e d = 2n − 2

Confronto tra due trattamenti (Mauro Gasparini)

Il confronto fra un nuovo trattamento T e un trattamento stan-dard S si basi su un parametro θ (misura teorica di confronto da stimare)

Per esempio: θ = π_T − π_S

π_T e π_S: prob. di malattia sotto il trattamento e sotto lo standard Altro esempio: θ = µ_S − µ_T

µ_T e µ_S: quantità medie di un anticorpo (favorevole) sotto T e sotto S (più grande è meglio è)

Più piccolo è θ, più T risulta migliore di S.

-θ 0 valore neutro T migliore S migliore ˆ Θ stimatore di θ

1. Test di superiorit`a

Una prova clinica di superiorit`a `e spesso formulata come test per le ipotesi

 



H₀ : θ = 0 (eguaglianza degli effetti) H₁ : θ < 0 (superiorit`a del trattamento)

Test unilaterale sinistro a livello α

A₀ = (z_1−ασ_Θ_ˆ, ∞) Si rifiuta H₀ se ˆθ non appartiene a A₀.

Intervallo di confidenza bilaterale per θ di livello 1 − 2α

θ − z_1−2ασ_Θ_ˆ, ˆθ + z_1−2ασ_Θ_ˆ Si rifiuta H₀ se non contiene lo 0

(

)

0 )

(

θ

^

2. Noninferiorit`a ed equivalenza

Supponiamo che non si richieda che T sia superiore a S, ma solo che sia equivalente.

In prove cliniche ci sono due casi importanti:

• dimostrare che un farmaco completamente nuovo d`a risul-tati non peggiori di una terapia standard. Se il farmaco nuovo fosse, per esempio, meno tossico dello standard, al-lora sarebbe utile dimostrarne la non inferiorit`a rispetto allo standard;

• dimostrare che una nuova formulazione di un farmaco for-nisce al corpo umano la stessa quantità di sostanza attiva di una formulazione standard. Tale dimostrazione di equa biodisponibilità può indurre le autorità sanitarie, sotto certe condizioni, ad autorizzare l’uso di un farmaco generico (o

3. Noninferiorit`a come test e come intervallo di confidenza

Concentriamoci prima sulla non inferiorit`a: occorre stabilire un

margine di equivalenza ∆ tale che, se θ < ∆, allora T e S sono equivalenti, o simili.

 



H₀ : θ ≥ ∆ (superiorit`a dello standard)

H₁ : θ < ∆ (non inferiorit`a del trattamento). Non si confronta pi`u θ con 0 ma con ∆ con ∆ > 0.

La regola di decisione opportuna `e la seguente:

Si dichiara l’equivalenza se l’intervallo di confi-denza di livello 1 − 2α `e interamente contenuto nell’intervallo di equivalenza (−∞, ∆)

0 )

(

θ

^

∆

Il problema della equivalenza `e formulato in termini di test di ipotesi, ma `e risolto con tecniche di stima. Pensare in termini di stima chiarisce il fine del problema ed aiuta a formulare corretta-mente l’ipotesi che si vuole dimostrare.

Scelta del margine di equivalenza

La scelta del margine di equivalenza ∆ `e cruciale.

In un contesto di prove cliniche, per esempio, con una catena di prove di equivalenza (su una serie di generici, per esempio), se non si presta attenzione si pu`o arrivare ad approvare come generici trattamenti inefficienti

(vedi le critiche di Garattini su http://www.ricercaepratica.it/)

Il margine di equivalenza deve essere confrontato con un analogo margine relativo al confronto con il placebo.

Problema unilaterale o bilaterale?

Sarebbe sufficiente solo un intervallo di confidenza unilaterale di livello 1 − α;

ma un intervallo bilaterale di livello 1−2α conferisce informazioni supplementari di possibile interesse, come l’inclusione o meno di un importante valore alternativo di interesse, per esempio θ = 0, nell’intervallo di confidenza.

Inoltre per altri problemi, per esempio per la equa biodisponibilit`a, occorrono sia un limite superiore ∆ che un limite inferiore Γ. La regola di decisione rimane la stessa:

Si dichiara l’equivalenza se l’intervallo di confidenza di livello 1− 2α `e interamente contenuto nell’intervallo di equivalenza (Γ, ∆).

PARTE 4

Nel documento Inferenza statistica classica (pagine 35-63)