VERIFICA DI IPOTESI

(1)

VERIFICA DI IPOTESI

Prof. L. Neri a.a. 2016-2017

Precorso di Statistica

(2)

La verifica di ipotesi

Fase dell’inferenza che consente

di verificare delle ipotesi sui

parametri della popolazione alla

luce dell’analisi delle differenze

tra i risultati osservati (statistica

campionaria) e quelli che ci

aspetteremmo se la nostra

(3)

La verifica di ipotesi

Esempio: in una azienda che

produce scatole metalliche vuole

valutare se il processo produttivo

opera in modo tale da garantire che

la lunghezza del lato maggiore sia

pari a 368 mm. Viene estratto un

campione di 25 scatole. Se la

lunghezza delle scatole risultasse

diversa sarebbe necessario un

(4)

La verifica di ipotesi

La verifica di ipotesi ha inizio con la formulazione del sistema di ipotesi sottoposto a verifica.

Il sistema di ipotesi fa sempre

riferimento a qualche parametro

della popolazione. Consiste sempre in

due ipotesi contrapposte.

(5)

5

La verifica di ipotesi

L’ipotesi nulla H

₀

è l’ipotesi sottoposta a verifica, si riferisce sempre a un valore

specifico del parametro della

popolazione (ad esempio ^μ ), e non a una statistica campionaria (ad esempio la

media campionaria). L’ipotesi nulla contiene sempre un segno di eguale

relativo al valore specificato del parametro della popolazione (ad esempio H

₀

: μ=368 mm).

L’ipotesi alternativa H

₁

rappresenta la

conclusione raggiunta quando H

₀

è

(6)

La verifica di ipotesi

 Se la statistica campionaria prescelta si avvicina al valore ipotizzato nell’ipotesi nulla accettiamo H₀, altrimenti rifiutiamo H₀ a favore dell’ipotesi alternativa H₁.

 La teoria della verifica di ipotesi fornisce una regola su cui basare il processo decisionale.

 Questo risultato viene ricavato determinando prima la distribuzione campionaria della statistica di interesse (statistica test) e quindi calcolando il valore assunto per il particolare campione considerato.

 La distribuzione campionaria della statistica test spesso è una distribuzione statistica nota, quindi possiamo ricorrere alle tavole statistiche per sottoporre a verifica un’ipotesi nulla.

(7)

La verifica di ipotesi

La distribuzione campionaria della statistica test è divisa in due regioni:

• una regione di accettazione

• una regione di rifiuto (o regione critica)

La regola decisionale è:

Valore della statistica test

Cade nella regione di accettazione Cade nella regione di rifiuto L’ipotesi nulla non può essere rifiutata L’ipotesi nulla deve essere rifiutata

Regione di rifiuto: insieme dei valori della statistica test è improbabile che si verifichino quando è vera H₀ ed è probabile si verifichino quando H₀ è falsa.

(8)

La verifica di ipotesi

Per prendere una decisione sull’ipotesi nulla, dobbiamo determinare il valore critico della statistica test.

Tale valore separa la regione di accettazione dalla regione di rifiuto.

(9)

Test per la media della popolazione

(varianza nota)

Per verificare l’ipotesi che la media della popolazione sia uguale ad un certo valore , contro l’ipotesi alternativa che la media differisca da tale valore, conoscendo , si ricorre alla statistica Z:

X è distribuita come una normale => sotto H_0,Z è distribuita come una normale standardizzata

Se Z assume valori vicini allo zero siamo portati ad accettare H₀, altrimenti si propende per rifiutare H₀ (test a due code).

(10)

Test per la media (varianza nota)

Fissato un livello di significatività di 0.05 (5%)

Regola

decisionale:

Rifiuto H₀

se Z>+1,96 o se Z<-1,96

altrimenti Accetto H₀

(11)

Test per la media (varianza nota)

Esempio: l’azienda che produce scatole metalliche intende valutare se il processo produttivo opera in modo tale da garantire che la lunghezza del lato maggiore sia pari a 368 mm. Viene estratto un campione di 25 scatole. Lo scarto quadratico medio della popolazione è pari a 15 mm e la media campionaria assume il valore 372,5 mm.

H₀:  = 368 H₁:  ≠ 368

Il valore della statistica test mi porta ad accettare H₀.

(12)

Varianza campionaria ed errore standard della media campionaria

In generale la varianza della popolazione è incognita.

Si stima la varianza campionaria S

²

S

²

è uno stimatore corretto della varianza della popolazione L’errore standard di è uno stimatore della deviazione standard di ed è X

X

s n X

SE ( ) 

(13)

Varianza campionaria ed errore standard della media campionaria

La varianza campionaria è uno stimatore consistente della varianza della popolazione, ovvero

La varianza campionaria è prossima alla varianza

della popolazione quando n è grande.

(14)

Test t per la media della popolazione (varianza popolazione non nota)

Se la varianza della popolazione non è nota si utilizza

Anche in questo caso si può procedere secondo l’approccio del valore critico ricorrendo alle tavole della distribuzione t di Student

s n X

SE ( ) 

(15)

Distribuzione della statistica t per grandi campioni

t si distribuisce approssimativamente come una Normale per n grande

Z n

Y n

s t Y

Y d Y d

Y

  

    

Dato che la varianza campionaria è uno stimatore consistente

della varianza della popolazione e dato il teorema del limite

centrale:

(16)

Terminologia della verifica di ipotesi

• Errore di I tipo: rifiutare H

₀

quando H

₀

è vera

• Errore di II tipo: NON rifiutare H

₀

quando H

₀

è falsa

• Livello di significatività α del test: probabilità di commettere errore di I tipo (

E’ la frazione di volte che viene rifiutata un ipotesi nulla vera se ripetessi tante volte il test su campioni diversi -presi dalla stessa, o dalle stesse, popolazione/i-)

• Potenza del test (da max): probabilità di rifiutare H

₀

(correttamente) quando H è falsa

(17)

Quale livello di significatività in pratica?

• Conservatori: si scegli un livello α molto basso perché?

H

₀

:imputato NON COLPEVOLE, H

₀

:imputato COLPEVOLE

α =prob(rifiutare NON COLPEVOLE| NON COLPEVOLE) Un test molto conservativo (α =0.01 o minore) può essere visto

come un test che vuole rischiare molto poco di fare un errore di primo tipo, che sappiamo essere un errore molto grave perché rifiutare l’ipotesi nulla è una decisione forte (come condannare un imputato) mentre non rifiutarla non significa in realtà

accettarla (ma solo dire che i dati sono compatibili con essa)

(18)

Quale livello di significatività in pratica?

• Meno Conservatori: si sceglie un livello α più alto (0.05) È il livello usato in economia, sociologia o politica economica

che richiedono meno conservatorismo rispetto ad un caso legale. Insomma possiamo permetterci una probabilità

maggiore di rifiutare H

₀

quando H

₀

è vera avantaggio di una

potenza del test più elevata.

(19)

L’approccio del p-value

Negli ultimi anni, anche grazie all’ampia diffusione di pacchetti statistici e fogli elettronici, si è affermato un altro approccio alla verifica di ipotesi: l’approccio del p-value.

Il p-value è anche chiamato livello di significatività osservato essendo il livello di significatività più basso per il quale si può rifiutare H₀ dato il valore osservato della statistica test.

Regola decisionale:

• se il p-value è maggiore o uguale ad , l’ipotesi nulla viene accettata

• se il p-value è minore di , l’ipotesi nulla è rifiutata

(20)

I test ad una coda (alternative unilaterali)

 Talvolta l’ipotesi alternativa a due code sembra non avere senso.

Esempio: Si deve decidere se aprire o meno un centro

commerciale in un certo Comune della Regione Lazio. La decisione è connessa al reddito medio degli abitanti del comune e di quelli limitrofi, se tale reddito è almeno di 2000 euro mensili (superiore o uguale), allora ha

senso aprire tale centro, altrimenti conviene mirare in un’altra area. A tal fine è stata svolta un’indagine

campionaria rilevando il reddito mensile di 196 famiglie, sulle quali è stato rilevato un reddito medio mensile pari a 1864 euro con una varianza campionaria corretta di

141,61 euro. Fissato un livello di significatività pari a 0,01 che cosa si decide di fare?

Il sistema di ipotesi adeguato al problema è

(21)

Test per la media (varianza

non nota) ^{H0: µ=µ0}

H1: µ≠µ0 H1: µ<µ0 H1: µ>µ0

(22)

Esempio



Si deve decidere se aprire o meno un centro

commerciale in un certo Comune della Regione Lazio.

La decisione è connessa al reddito medio degli abitanti del comune e di quelli limitrofi, se tale reddito

superiore o uguale a 2000 euro mensili conviene

aprire tale centro, altrimenti conviene mirare in

un’altra area. A tal fine è stata svolta un’indagine campionaria rilevando il reddito mensile di 196

famiglie, sulle quali è stato rilevato un reddito medio mensile pari a 1864 euro con una varianza

campionaria corretta di 141,61 euro. Fissato un livello di significatività pari a 0,01 che cosa si decide di fare?

Il sistema di ipotesi adeguato al problema è

(23)

…Esempio

La statistica test è

Il valore di (t ) con 195 g.l è approssimabile alla distribuzione N(0,1) e quindi a (-2,326),

-160<-2,36 quindi rifiuto H0

ovvero l’evidenza empirica suggerisce che nei comuni oggetto di studio ci sia un reddito troppo basso per ritenere conveniente l’investimento.

160 196

61 , 141

2000

0

1864   

 



S n

t X 

(24)

Test per la proporzione

Consideriamo un campione aleatorio Y1, Y2, . . . , Yn con distribuzione B(1, p), dove p è incognito. Sulla base di un campione di n osservazioni, sottoponiamo a verifica l’ipotesi

H₀: p = p0 H₁:p ≠ p0 La statistica test

Se H0 è vera, Z è approssimativamente distribuita come un N(0, 1), se np0 ≥ 5 (successi attesi) e n(1 − p0) ≥ 5 (insuccessi attesi). Ne segue che la regione critica del test è

n p p

p z Y

) 0 1

( 0

0



 

(25)

25

Esempio

Supponiamo che il manager operativo dell’azienda che produce scatole metalliche sia interessato a valutare la percentuale di scatole non conformi. Nel passato il 10% delle scatole non è risultata conforme. Si sperimenta un nuovo sistema di produzione ed il manager stabilisce che adotterà il nuovo sistema solo in caso di forte evidenza empirica a favore del nuovo. Dopo un giorno di prova, si estrae un campione di 200 scatole, di cui 11 non risultano sigillate in maniera adeguata.

Verifica al livello sig. 0.05.

H

₀

: p = 0,10 H

₁

: p < 0,10

Si ha: p = 11/200 =0,055, n = 200 e p0 = 0,10,

quindi:

(26)

…esempio

Il valore teorico di z=-1.96, -2.12 <-1.96 quindi l’evidenza empirica mi induce a rifiutare H₀ e quindi ad adottare il nuovo sistema.

12 . 2 200

) 1 . 0 1 (

* 1 . 0

1 . 0 055

.

0  



 

Z

(27)

…da ricordare

La specificazione dell’ipotesi nulla e dell’ipotesi alternativa nei test a una coda deve seguire le seguenti regole:

1. L’ipotesi nulla H₀ è l’ipotesi sottoposta a verifica.

2. L’ipotesi alternativa H₁ è specificata come ipotesi opposta a quella nulla e rappresenta la conclusione sostenuta se l’ipotesi nulla è rifiutata.

3. L’ipotesi nulla H₀ si riferisce sempre a un parametro della popolazione (come ) non a una statistica campionaria (come la media campionaria).

4. L’ipotesi nulla contiene sempre un segno di uguale riferito a un valore specificato del parametro della popolazione (H₀:  368 mm).

5. L’ipotesi alternativa non contiene mai un segno di eguale riferito a un valore specificato del parametro della popolazione.

VERIFICA DI IPOTESI