Test delle Ipotesi
Corso di Statistica Universit`a degli Studi di Salerno
Corso di Laurea Triennale in Economia e Management a.a. 2016/2017
Esempio 5.1
La GGK `e un colosso della distribuzione. Ogni giorno si effettuano numerose scritture contabili soggette ad arrotondamenti. Le procedure contabili prevedono che il volume medio giornaliero degli arrotondamenti non pu`o superare 0.5 euro. Allo scopo di tenere sotto controllo l’effetto cumulato giornaliero, ogni trimestre si estraggono 15 giorni a caso sui quali si rileva l’arrotondamento complessivo. La media campionaria nell’ultimo trimestre `e 0.49 euro.
Il sistema di contabile funziona se la media degli
arrotondamenti giornalieri µ≤ 0.5. Purtroppo µ non `e noto. ¯
x = 0.49 non pu`o essere l’elemento decisivo. Perch´e? Per prendere decisioni `e necessario:
una regola di decisione che tenga conto dell’incertezza circa (X − µ)
Test delle ipotesi (parametrici)
Abbiamo un fenomeno X ∼ f (θ), θ `e un parametro (non noto) di f .
θ∈ Θ, e consideriamo la partizione Θ = Θ0∪ Θ1, con Θ0∩ Θ1=∅
Ipotesi nulla H0: θ ∈ Θ0
Ipotesi alternativa H1: θ ∈ Θ1
Esempio ?? : X =arrotondamento giornaliero ∼ f , e E[X ] = µ Ipotesi nulla H0 : µ≤ 0.5
Ipotesi alternativa H1 : µ > 0.5
θ = µ, Θ = R, Θ0 = (−∞, 0.5], Θ1 = (0.5, +∞)
Perch´e l’ipotesi nulla `e µ≤ 0.5?... dopo.
Regione critica e regola di decisione
Sia C l’insieme di tutti i possibili campioni di dimensione n. Consideriamo la partizione C = C1∪ C0, con C0∩ C1=∅.
C0 = insieme di tutti i campioni coerenti con H0. Sono i campioni generati da f quando θ∈ Θ0 C1 = insieme di tutti i campioni coerenti con H1. Sono i campioni generati da f quando θ∈ Θ1
Il test consiste nell’applicare unaregola di decisioneche stabilisce la provenienza del campione osservato
campione osservato assegnato a C1 =⇒ RIFIUTO H0. Per questo motivo C1=regione critica di rifiuto.
campione osservato assegnato a C0 =⇒ NON RIFIUTO H0
Vogliamoregole di decisione ottimali. Per definire l’ottimo dobbiamo fissare i riferimenti:
definizione del ruolo di H0 vs H1
Tests Neyman-Pearson ottimali
Jerzy Neyman (1894–1981)
Egon S. Pearson (1895–1980)
Ruolo di H0 vs H1 nel test ´a la Neyman-Pearson
H0 `e l’ipotesi che non vogliamo assolutamente rifiutare a favore di H1 fino a quando `e empiricamente sostenibile. H0 `e lo status quo, ovvero, l’ipotesi considerata vera fino a prova contraria (asimmetria)
H1 concettualizza la violazione di H0 che l’osservatore si aspetta nei dati
Esempio 5.1
H0: arrotondamenti corretti
H1: arrotondamenti superiori al massimo consentito Processo penale
H0: l’imputato non `e colpevole H1: l’imputato `e colpevole Test diagnostico medico
H0: funzioni biologiche normali (esito negativo)
Rischio di decisioni sbagliate TU NATURA H0 `e vera H1 `e vera Rifiuto H0 E1 OK Non rifiuto H0 OK E2
E1: errore del primo tipo (falso positivo)
Pr{E1}= Pr{Rifiuto H0| H0 `e vera}
= Pr{Campione assegnato a C1 | θ ∈ Θ0} =α
E2: errore del secondo tipo (falso negativo)
Pr{E2}= Pr{Non rifiuto H0| H1`e vera}
= Pr{Campione assegnato a C0 | θ ∈ Θ1} =β
H0: l’imputato non `e colpevole H1: l’imputato `e colpevole
E1
Giudice: “Andy Dufresne `e un
marito assassino”
E2
Giudice: “Aaron Stampler `e assolto perch´e affetto da disturbo dissocia-tivo dell’identit`a”
Relazione tra
α e β, e regione critica ottimale
Il sogno: α = β = 0
Brutte notizie (1): non `e possibile azzerare il rischio di commettere errori
Brutte notizie (2): α aumenta =⇒ β diminuisce, e viceversa. Al limite: α→ 0 =⇒ β → 1, e viceversa.
Soluzione ottimale di Neyman-Pearson:
1 in considerazione del ruolo svolto da H0 vs H1,fisso αal livello massimo sopportabile. Pr{E1} = α `e detto livello di significativit`a del test. Solitamente α ={10%, 5%, 2%, %1}. 2 tra tutte le regioni critiche che danno α = Pr{E1}, prendo
Potenza del test
TU NATURA H0 `e vera H1 `e vera Rifiuto H0 α π = (1− β) Non rifiuto H0 (1− α) βPr{Corretto rifiuto} = Pr{Rifiuto H0| H1`e vera} = (1− β) =π =potenza del test
α si controlla direttamente (viene fissato)
π, in generale, non `e direttamente controllabile. Per i test Neyman-Pearson ottimali sappiamo solo che π `e massimo(β `e minimo) per il fissato livello α
TUTTI i test che vedremo in questo corso sono Neyman-Pearson ottimali
ATTENZIONE:
Spesso si `e ossessivi nel proteggersi rispetto ai falsi positivi (α piccolo), ma questo crea il rischio di falsi negativi (β grande). Se aumento α =⇒ β diminuisce =⇒ π aumenta.
Quale `e un valore ragionevole per α? La pratica “standard” di considerare α = 1%, 5% in alcuni casi potrebbe essere
devastante.
α dovrebbe essere fissato dopo un’attenta valutazione delle implicazioni (pratiche) dei due errori. Si, ma quali sono le implicazioni pratiche?
nella maggior parte dei casi, estraggo un campione ed effettuo la mia decisione.
α, β, π sono probabilit`a
come per gli intervalli di confidenza, `e bene pensare a queste quantit`a nell’ottica del campionamento ripetuto
Interpretazione “pratica” di
α
Supponiamo di poter estrarre K campioni indipendenti di
dimensione n dalla popolazione X ∼ f (θ). K `e“sufficientemente” grande
Campione 1−→ decisione 1 Campione 2−→ decisione 2
. . .
Campione K −→ decisione K
Ogni volta che θ∈ Θ0 e quindi θ /∈ Θ1 (H0 vera, H1 falsa):
(1− α)% decisioni saranno corrette
Cercare di interpretare β (e quindi π) dal punto di vista pratico non ha molto senso. Infatti, tranne che in casi didattici, non li possiamo quantificare. Sappiamo solo che β `e al minimo possibile. Per un singolo campione? Quale `e l’interpretazione di α per la decisione presa sul nostro singolo campione osservato?
α `e una misura di rischio. Possiamo interpretareα come il livello di
inaffidabilit`a del test che siamo disposti a sopportare nel caso in cuiH0 fosse vera
Costruzione di un test
Esempio 5.2
Supponiamo X ∼ Normale(µ, 64), consideriamo il test: H0: µ = 100
H1: µ > 100
In un campione di n = 16 osservazioni risulta ¯x = 103. Trovare una regola di decisione al livello α = 5%
Potrei rifiutare H0 perch´e ¯x > 100. Tuttavia, se H0 `e vera, allora X
∼
H0 Normale100,64
n
Quindi X “varia casualmente” intorno a 100. Consideriamo U =√nX − 100
8
H0
Valori osservati di U positivi ci fanno pensare che H0 `e falsa. Si, ma quanto dovrebbe essere pi`u grande di zero?
Pr{E1} = α (`e fissato)
= Pr{Rifiuto H0| H0`e vera} = Pr{U > u | µ = 100}
Quando H0 `e vera U ha distribuzione Normale Standard, quindi u = zα, ovvero z0.05= 1.64
Ho trovato una regione critica ed una regola di decisione con il livello di significativit`a fissato:
Regione critica C1: sono i campioni tali che U > zα = 1.64
Regola di decisione: rifiuto H0 se√n(¯x− 100)/8 > 1.64 Il valore osservato di U `e √16(103− 100)/8 = 1.5 < 1.64 =⇒ non rifiuto H0 al livello del 5%.
Quanto vale π = 1− β? Il calcolo di β richiede H1 vera. H1 `e vera per un numero infinito di possibili valori di µ
Questa regola `e Neyman-Pearson ottimale: per qualunque valore di µ, ceteris paribus, ottengo il miglior π possibile. Questo
basterebbe, ma voglio capire in quale ordine di grandezza ci muoviamo.
Supponiamo che H1 `e vera perch´e µ = 104. β = Pr{Non rifiuto H0| H1`e vera}
= Pr{U < 1.64 | µ = 104} U = √nX − 100 8 = −100√n 8 + √ n 8 X E[U| H1 vera] = −100 √ n 8 + √ n 8 104 = √ n 2 Var[U | H1 vera] = 1
U =√nX − 100 8 H1
∼
Normale √ n 2 , 1 Quindi β = Pr{U < 1.64 | µ = 104} = Pr ( Z < 1.64− √ 16 2 ) = Pr{Z < −0.36} = Φ(−0.36) = 1 − Φ(0.36) = 0.36 Da cui π = 1− β = 0.64Interpretazione: se potessi ripetere il test un gran numero di volte, π = 64% =⇒ 64/100 decisioni corrette quando µ = 104.
al variare di µ > 100 avr`o diversi valori di β e π se cambio α, n, σ avr`o diversi valori di β e π
Sebbene β e π non sono direttamente controllabili, spesso sarebbe utile fare un’analisi di “sensitivit`a” rispetto alle quantit`a
controllabili. Uno statistico pu`o controllare: α, a livello di procedura di test
n, a livello di disegno di campionamento (non sempre) Nell’ Esempio 5.1 vediamo come variano β e π in funzione di µ
100 102 104 106 108 110 0.2 0.4 0.6 0.8 1.0
Potenza del test con α = 5%
µ π = (1 − β ) n = 16 n = 50 n = 250 100 102 104 106 108 110 0.0 0.2 0.4 0.6 0.8 1.0
Potenza del test con α = 0.5%
µ π = (1 − β ) n = 16 n = 50 n = 250
100 102 104 106 108 110 0.0 0.2 0.4 0.6 0.8
Errore del II tipo con α = 5%
µ β n = 16 n = 50 n = 250 100 102 104 106 108 110 0.0 0.2 0.4 0.6 0.8 1.0
Errore del II tipo con α = 0.5%
µ
β
n = 16 n = 50 n = 250
Procedura di testing: routine
Definizione 5.1 (Funzione test/statistica test)
Sia{X1, X2, . . . , Xn} un campione. Una funzione test, anche detta statistica test, `e una funzione T (X1, X2, . . . , Xn, θ0) che misura contemporaneamente la coerenza del campione all’ipotesi nulla, e la non coerenza rispetto all’ipotesi alternativa. La statistica test non dipende da altri parametri incogniti.
Si noti che
T dipende da H0, ma non da H1
T `e una variabile casuale: popolazione + effetto del campionamento
Esempi
Esempio 5.2 : U `e una statistica test
Esempio 5.1 : T1= (X − 0.5) potrebbe essere una funzione
test. Tuttavia, non sarebbe molto utile.
Esempio 5.1 : T2= (X − 0.5)2 non `e una buona funzione test,
Steps:
1 Parto dalla distribuzione della funzione test sotto H0
Esempio 5.2 :
U =√nX − 100 8
H0
∼
Normale(0, 1)2 dato α, calcolo qualche valore di coda della distribuzione della funzione test sotto H0
Esempio 5.2 : α = 5%, zα= 1.64
3 determino la regione di rifiuto
Esempio 5.2 : tutti i campioni per cui U > z
α= 1.64 4 calcolo il valore osservato della funzione test
Esempio 5.2 : √16(103− 100)/8 = 1.5
5 decisione: rifiuto H0 se il valore osservato delle funzione test `e assegnato alla regione critica di rifiuto
Media di una popolazione Normale con varianza nota
Assumo:{X1, X2, . . . , Xn} `e un CCS da una popolazione X ∼ Normale(µ, σ2), dove σ2 `e noto
Ipotesi nulla: H0: µ = µ0 Funzione test Z = √n X − µ0 σ H0
∼
Normale(0, 1) Valore osservato della funzione testz = √n x− µ0 σ
Ipotesi alternativa unilaterale a destra ( H0: µ = µ0 H1: µ > µ0 ≡ ( H0: µ≤ µ0 H1: µ > µ0
Regione Critica di rifiuto
insieme dei campioni tali che Z > zα
Regola di decisione rifiuto H0 se z > zα
Ipotesi alternativa unilaterale a sinistra ( H0: µ = µ0 H1: µ < µ0 ≡ ( H0: µ≥ µ0 H1: µ < µ0
Regione Critica di rifiuto
insieme dei campioni tali che Z <−zα
Regola di decisione rifiuto H0 se z <−zα
Ipotesi alternativa bilaterale
(
H0 : µ = µ0
H1 : µ6= µ0
Regione Critica di rifiuto
insieme dei campioni tali che Z <−zα
2 oppure Z > z α 2 Regola di decisione rifiuto H0 se z <−zα 2 oppure z > z α 2
Media di una popolazione Normale con varianza non nota
Assumo:
{X1, X2, . . . , Xn} `e un CCS da una popolazione X ∼ Normale(µ, σ2), dove σ2 non `e noto Ipotesi nulla: H0: µ = µ0 Funzione test T = √n X − µ0 S H0
∼
tn−1 Valore osservato della funzione testt = √n x − µ0 s
Ipotesi alternativa unilaterale a destra ( H0: µ = µ0 H1: µ > µ0 ≡ ( H0: µ≤ µ0 H1: µ > µ0
Regione Critica di rifiuto
insieme dei campioni tali che T > tn−1, α
Regola di decisione rifiuto H0 se t > tn−1, α
Ipotesi alternativa unilaterale a sinistra ( H0: µ = µ0 H1: µ < µ0 ≡ ( H0: µ≥ µ0 H1: µ < µ0
Regione Critica di rifiuto
insieme dei campioni tali che T <−tn−1, α
Regola di decisione rifiuto H0 se t <−tn−1, α
Ipotesi alternativa bilaterale
(
H0 : µ = µ0
H1 : µ6= µ0
Regione Critica di rifiuto
insieme dei campioni tali che T <−tn−1,α
2 oppure T > tn−1, α 2 Regola di decisione rifiuto H0 se t <−tn−1,α 2 oppure t > tn−1, α 2
Proporzione di una popolazione (grandi campioni)
Assumo:{X1, X2, . . . , Xn} `e un CCS da una popolazione X ∼ Bernoulli(p), inoltre n `e sufficientemente grande e np(1− p) > 9
Ipotesi nulla: H0: p = p0 Funzione test Z = qPˆ − p0 p0(1−p0) n H0
∼
Normale(0, 1) Valore osservato della funzione testz = qˆp− p0 p0(1−p0)
n
Ipotesi alternativa unilaterale a destra ( H0 : p = p0 H1 : p > p0 ≡ ( H0: p ≤ p0 H1: p > p0
Regione Critica di rifiuto
insieme dei campioni tali che Z > zα
Regola di decisione rifiuto H0 se z > zα
Ipotesi alternativa unilaterale a sinistra ( H0 : p = p0 H1 : p < p0 ≡ ( H0: p ≥ p0 H1: p < p0
Regione Critica di rifiuto
insieme dei campioni tali che Z <−zα
Regola di decisione rifiuto H0 se z <−zα
Ipotesi alternativa bilaterale
(
H0 : p = p0
H1 : p 6= p0
Regione Critica di rifiuto
insieme dei campioni tali che Z <−zα
2 oppure Z > z α 2 Regola di decisione rifiuto H0 se z <−zα 2 oppure z > z α 2
Differenza tra medie di popolazioni normali dipendenti
Assumo:{(X1, Y1), (X2, Y2), . . . , (Xn, Yn)} `e un CCS da una popolazione congiuntamente normale dove X e Y sono dipendenti (correlate) Sia di = xi − yi, siano D e Sd2 media e varianza campionaria di d Ipotesi nulla: H0: µX − µY = d0 Funzione test T = √n (X − Y ) − d0 Sd H0
∼
tn−1 Valore osservato della funzione testt = √n d − d0 sd Coda tn−1, α: Pr{T ≥ tn−1, α} = α
Ipotesi alternativa unilaterale a destra ( H0 : µX− µY = d0 H1 : µX− µY > d0 ≡ ( H0: µX− µY ≤ d0 H1: µX− µY > d0
Regione Critica di rifiuto
insieme dei campioni tali che T > tn−1, α
Regola di decisione rifiuto H0 se t > tn−1, α
Ipotesi alternativa unilaterale a sinistra ( H0 : µX− µY = d0 H1 : µX− µY < d0 ≡ ( H0: µX− µY ≥ d0 H1: µX− µY < d0
Regione Critica di rifiuto
insieme dei campioni tali che T <−tn−1, α
Regola di decisione rifiuto H0 se t <−tn−1, α
Ipotesi alternativa bilaterale
(
H0 : µX − µY = d0
H1 : µX − µY 6= d0
Regione Critica di rifiuto
insieme dei campioni tali che T <−tn−1,α
2 oppure T > tn−1, α 2 Regola di decisione rifiuto H0 se t <−tn−1,α 2 oppure t > tn−1, α 2
Pooling della devianza
Siano X ∼ f e Y ∼ g due popolazioni. Siano {X1, X2, . . . , XnX} e
{Y1, Y2, . . . , YnY} due CCS indipendenti.
Omoschedasticit`a: assumiamo Var[X ] = Var[Y ] = σ2
X e Y hanno la stessa varianza, ma non necessariamente la stessa media. Quale statistica di varianza userebbe tutta
l’informazione campionaria?
Varianza campionaria pooled
Sp2= PnX i =1(Xi− X )2 + PnY i =1(Yi − Y )2 nX + nY − 2 =(nX− 1)S 2 X + (nY − 1)SY2 nX+ nY − 2
Differenza tra medie di popolazioni normali indipendenti
Assumo:{X1, X2, . . . , XnX} e {Y1, Y2, . . . , YnY} sono due CCS
indipendenti da popolazioni normali omoschedastiche, ovvero X ∼ Normale(µX, σ2) e Y ∼ Normale(µY, σ2), dove σ2 non `e noto. Ipotesi nulla: H0: µX − µY = d0 Funzione test T = (Xq− Y ) − d0 S2 p nX + S2 p nY H0
∼
tnX+nY−2Valore osservato della funzione test t = (xq− y) − d0 s2 p nX + s2 p nY Coda tn +n −2, α: Pr{T ≥ tn +n −2, α} = α 41/55
Ipotesi alternativa unilaterale a destra ( H0 : µX− µY = d0 H1 : µX− µY > d0 ≡ ( H0: µX− µY ≤ d0 H1: µX− µY > d0
Regione Critica di rifiuto
insieme dei campioni tali che T > tnX+nY−2, α
Regola di decisione
Ipotesi alternativa unilaterale a sinistra ( H0 : µX− µY = d0 H1 : µX− µY < d0 ≡ ( H0: µX− µY ≥ d0 H1: µX− µY < d0
Regione Critica di rifiuto
insieme dei campioni tali che T <−tnX+nY−2, α
Regola di decisione
Ipotesi alternativa bilaterale
(
H0 : µX − µY = d0
H1 : µX − µY 6= d0
Regione Critica di rifiuto
insieme dei campioni tali che T <−tnX+nY−2,α2 oppure
T > tnX+nY−2,α2
Regola di decisione
Pooling di popolazioni Bernoulliane indipendenti
Siano X ∼ Bernoulli(pX) e Y ∼ Bernoulli(pY) due popolazioni Bernoulliane. Siano{X1, X2, . . . , XnX}, e {Y1, Y2, . . . , YnY} due
campioni indipendenti. Le proporzioni campionarie saranno ˆ PX = 1 nX nX X i =1 Xi e PˆY = 1 nY nY X i =1 Yi
Assumiamo H0 : pX = pY. Quale statistica userebbe tutta l’informazione campionaria?
Proporzione campionaria pooled
ˆ P0= PnX i =1Xi+ PnY i =1Yi nX + nY =nXPXˆ + nYPYˆ nX + nY
Differenza tra proporzioni (grandi campioni)
Assumo:{X1, X2, . . . , XnX} e {Y1, Y2, . . . , YnY} sono due CCS
indipendenti da X ∼ Bernoulli(pX), e Y ∼ Bernoulli(pY). n `e sufficientemente grande. Ipotesi nulla: H0: pX − pY = 0 Funzione test Z = q PˆX− ˆPY ˆ P0(1− ˆP0) nX + ˆ P0(1− ˆP0) nY H0
∼
Normale(0, 1) Valore osservato della funzione testz = q pXˆ − ˆpY ˆ p0(1−ˆp0) nX + ˆ p0(1−ˆp0) nY Coda zα: Pr{Z ≥ zα} = α
Ipotesi alternativa unilaterale a destra ( H0: pX − pY = 0 H1: pX − pY > 0 ≡ ( H0: pX − pY ≤ 0 H1: pX − pY > 0
Regione Critica di rifiuto
insieme dei campioni tali che Z > zα
Regola di decisione rifiuto H0 se z > zα
Ipotesi alternativa unilaterale a sinistra ( H0: pX − pY = 0 H1: pX − pY < 0 ≡ ( H0: pX − pY ≥ 0 H1: pX − pY < 0
Regione Critica di rifiuto
insieme dei campioni tali che Z <−zα
Regola di decisione rifiuto H0 se z <−zα
Ipotesi alternativa bilaterale
(
H0 : pX− pY = 0
H1 : pX− pY 6= 0
Regione Critica di rifiuto
insieme dei campioni tali che Z <−zα
2 oppure Z > z α 2 Regola di decisione rifiuto H0 se z <−zα 2 oppure z > z α 2
Varianza di una popolazione normale
Assumo: {X1, X2, . . . , Xn} `e un CCS da una popolazione X ∼ Normale(µ, σ2) Ipotesi nulla: H0: σ2= σ20 Funzione test χ = (n− 1)S 2 σ20 H0∼
χ2n−1 Valore osservato della funzione testc = (n− 1)s 2 σ2
0
Ipotesi alternativa unilaterale a destra ( H0 : σ2 = σ20 H1 : σ2 > σ20 ≡ ( H0: σ2≤ σ02 H1: σ2> σ02
Regione Critica di rifiuto
insieme dei campioni tali che χ > χ2n−1, α
Regola di decisione rifiuto H0 se c > χ2n−1, α
Ipotesi alternativa unilaterale a sinistra ( H0 : σ2 = σ20 H1 : σ2 < σ20 ≡ ( H0: σ2≥ σ02 H1: σ2< σ02
Regione Critica di rifiuto
insieme dei campioni tali che χ < χ2n−1, 1−α
Regola di decisione rifiuto H0 se c < χ2n−1, 1−α
Ipotesi alternativa bilaterale
(
H0: σ2 = σ02
H1: σ2 6= σ02
Regione Critica di rifiuto
insieme dei campioni tali che χ < χ2n−1, 1−α
2 oppure χ > χ 2 n−1,α 2 Regola di decisione rifiuto H0 se c < χ2n−1, 1−α 2 oppure c > χ 2 n−1,α 2
p-value
Sia U la funzione test, e u il suo valore osservato. Il p-value si calcola:
p-value = Pr{U `e uguale o pi`u estrema di u | H0`e vera} Si noti che il p-value∈ [0, 1].
Questo `e il calcolo. Interpretazione? Il p-value `e fortemente legato al campione osservato:
p-value grande: il campione osservato mostra forte evidenza empirica a favore di H0.
p-value piccolo: il campione osservato mostra debole evidenza empirica a favore di H0.
in questo senso il p-value `e anche definito come “livello di significativit`a osservato”
Il p-value `e uno strumento molto utile, ma la sua interpretazione non pu`o prescindere da α e H1.
Nell’ottica Neyman-Pearson l’uso del p-value deve dipendere dalla nozione di ottimalit`a sottostante.
Definizione 5.2 (p-value nei tests Neyman-Pearson)
Il p-value calcolato coincide il livello minimo di α per il quale rifiuto H0 sulla base del campione osservato.
Da questo punto di vista il p-value `e uno strumento operativo per definire la regione critica senza usare alla funzione test:
Rifiuto H0 se p-value < α Ma... α si fissa prima di guardare i dati!