• Non ci sono risultati.

 x Schede riassuntive di Statistica inferenzialeTEST D’IPOTESI

N/A
N/A
Protected

Academic year: 2021

Condividi " x Schede riassuntive di Statistica inferenzialeTEST D’IPOTESI"

Copied!
6
0
0

Testo completo

(1)

Schede riassuntive di Statistica inferenziale TEST D’IPOTESI

Gli obiettivi della statistica inferenziale sono:

Stima puntuale di un parametro.

Stima per intervalli.

Test statistici per verificare l’ipotesi su un parametro o su un’assunzione.

Effettuare un test statistico significa verificare un’IPOTESI. Ad esempio

1. si vuole verificare se la media della durata di una lampadina supera le 1000 ore 2. si vuole verificare se il genere e l’essere fumatori sono indipendenti.

Cosa é necessario per effetturare un test?

1. Formulare le ipotesi

H0: ipotesi principale H1: ipotesi alternativa 2. Stabilire il livello del test.

3. Utilizzare i dati campionari per stabilire se si accetta o non si accetta l’ipotesi H0. Analizzeremo 4 tipi di test

1. Test sulla media.

2. Test dell’uguaglianza delle medie di due campioni indipendenti.

3. Test dell’ugualglianza delle medie di due campioni appaiati.

4. Test d’indipendenza.

1. Test sulla media

Esempio: Supponiamo di voler verificare che il tempo di vita di una lampadina è di 1400 ore.

Per poter effettuare questa verifica si hanno a disposizione i dati relativi ad un campione di n=5 lampadine:

Lampadina 1 X1

Lampadina 2 X2

Lampadina 3 X3

Lampadina 4 X4

Lampadina 5 X5

1450 1380 1460 1420 1470

Con questi dati si può determinare uno stimatore e una stima puntuale per la media e realizzare un intervallo di confidenza per la media.

Attraverso i test parametrici (la media è un parametro) si vuole stabilire se sia ragionevole che il tempo medio di vita sia 1400 ore.

La regola di decisione che lega i campioni al parametro su cui si vuole eseguire il test si chiama statistica test.

Lo stimatore della media è



X 5X1 X2 X3 X4 X5

5 e

5 1436

1470 1420 1460 1380 1450

5

x

è una stima puntuale per la media. Si decide di accettare l’ipotesi che la media sia 1400 se la stima non è troppo lontano da 1400, cioè se è piccola la differenza fra



x 5 e 1400.

In questo caso H0: la media è 1400.

L’ipotesi alternativa può essere H1: la media è diversa da 1400 H1: la media è maggiore da 1400

(2)

H1: la media è minore da 1400

A questo punto bisogna scegliere il livello del test , ossia il margine di errore che viene concesso e determinare una regione di rifiuto (che dipenderà dal livello, dalla statistica scelta e dall’ipotesi alternativa, tale che

In generale, avremo che per effettuare un test sulla media si sceglie 1. la media campionaria



X come statistica test 2.  (normalmente 0,05 o 0,01) come livello del test

3. si formulano le ipotesi (principale e alternativa), che determineranno la forma della regione di rifiuto

Gli errori che si possono commettere sono

 RIFIUTARE H0 quando H0 è vera (errore di I specie, viene fissato con probabilità )

 ACCETTARE H0 quando H1 è vera (errore di II specie, dipende da  ed è difficile da calcolare)

Nella seguente tabella vengono riportate le regioni di rifiuto R in relazione all’ipotesi alternativa, quando l’ipotesi principale è

H0:  (media) = 0

H1:  0

R= (-,0-t



s

n )(0+t



s n ,+) H1: > 0

R= (0+t



s n ,+) H1: < 0

R= (-,0-t



s n ) Dove

s è la deviazione standard campionaria

n è la numerosità campionaria

t è un coefficiente che dipende da n e da  e si ricava da apposite tavole (t di Student) A questo punto per concludere il test, è sufficiente verificare se il valore campionario della statistica test appartiene alla regione di rifiuto.

Se



x NON appartiene alla regione di rifiuto, si accetta l’ipotesi H0

Se



x appartiene alla regione di rifiuto, si rifiuta l’ipotesi H0 e siaccetta l’ipotesiH1

Nel caso dell’esempio delle lampadine si ha che

H1:  1400 (-,1354.74)(1445.26,+) Accetto H0

H1: > 1400 (1434.75,+) Rifiuto H0

H1: < 1400 (-,1365.25) Accetto H0

Più semplicemente si può concludere il test, calcolandosi il p-value ossia il livello massimo con il quale si accetta l’ipotesi principale considerate le osservazioni rilevate. Il p-value è, quindi, la probabilità di rifiutare l’ipotesi principale quando questa è vera, scegliendo come estremo della regione di rifiuto la stima puntuale della statistica test. Avremo quindi che

p-value > accettiamo l’ipotesi H0

p-value < rifiutiamo l’ipotesi H0

(3)

Sempre nell’esempio delle lampadine si ha che

H1:  1400 p-value=0.092 >0.05

H1: > 1400 p-value=0.046 <0.05 H1: < 1400 p-value=0.954 >0.05 L’output di Minitab per il test con ipotesi H1:  1400 è il seguente:

One-Sample T: C1

Test of mu = 1400 vs not = 1400

Variable N Mean StDev SE Mean 95% CI T P C1 5 1436,0 36,5 16,3 (1390,7; 1481,3) 2,21 0,092 Dove:

 Stdev è la deviazione standard campionaria

 SE Mean è il rapporto fra StDev e la numerosità campionaria

 95% CI è l’intervallo di confidenza per la media al 95%

 T è il valore della statistica test standardizzata

 P è il p-value

Osservazione: Questa procedura si può applicare quando la variabile che si studia ha una distribuzione normale (a campana) o sempre quando si lavora con grandi campioni.

2. Test per la differenza di medie per popolazioni di legge normale

Consideriamo due campioni estratti da due popolazioni indipendenti e con distribuzione normale (o numerosità campionaria elevata). Ad esempio, si rileva la stessa grandezza su individui appartenenti a due popolazioni diverse e indiependenti. Indichiamo con X1,…,Xn il primo campione e con Y1,…,Ym il secondo campione.

Un problema che si incontra molte frequentemente è quello di stabilire se le due medie X e Y

sono uguali oppure no. Nel linguaggio dei test statistici questo equivale ad effettuare un test per verificare

H0: X=Y

contro una delle tre ipotesi alternative

H1: XY H1: X<Y H1: X>Y

Siccome



X n è uno stimatore per X e



Y m è uno stimatore per Y, segue che D=



X n  Y m può essere usato per stimare X-Y.

In questo modo, il problema si riduce a effettuare un test sulla media di D scegliendo come ipotesi H0: D=0 e

H1: d=0 H1: D<0 H1: D>0

A questo punto si può seguire la procedura descritta per il test sulla media e concludere il test dal confronto del p-value con il livello scelto.

Rimane, comunque, non banale calcolare la varianza campionaria di tale stimatore.

Esempio: Si vuole verificare se il peso medio di una specie di cavie è differente per esemplari femmine e maschi. Da un campione di 2205 femmine si ottiene un valore medio di 547g mentre da un campione di 2610 maschi il valore medio è 540g. L’output di Minitab per il test a campioni indipendenti è il seguente:

Two-Sample T-Test and CI: PESO_F; PESO_M

(4)

Two-sample T for PESO_F vs PESO_M SE N Mean StDev Mean PESO_F 2205 547 962 20 PESO_M 2610 540 700 14

Difference = mu (PESO_F) - mu (PESO_M) Estimate for difference: 7,6

95% CI for difference: (-40,7; 55,9)

T-Test of difference = 0 (vs not =): T-Value = 0,31 P-Value = 0,757 DF = 3946 Dove:

Estimate for difference è la differenza di medie campionate

P-Value = 0,757 è il p-value che porta ad accettare l’ipotesi principale, ossia che abbiano la stessa media.

3. Test di differenza di medie per dati appaiati

Un caso particolare del test sulla differenza di media è quello relativo ai dati appaiati, cioè quando vengono rilevati i dati riferiti allo stesso campione (ad esempio, in tempi diversi o con differenti strumenti).

Un caso tipico di applicazione di questo test sono le rilevazioni di parametri fisiologici prima e dopo la somministrazione di un farmaco.

I dati da esaminare avranno quindi la forma Ob

s

X Y

1 X1 Y1

2 X2 Y2

n Xn Yn

Si suppone che la caratteristica studiata abbia distribuzione normale oppure la numerosità del campione sia elevata.

Come nel caso precedente, un problema che si incontra molte frequentemente è quello di stabilire se le due medie X e Y sono uguali oppure no. Nel linguaggio dei test statistici questo equivale ad effettuare un test per verificare

H0: X=Y

contro una delle tre ipotesi alternative

H1: XY H1: X<Y H1: X>Y

In questo caso non si può usare l’ipotesi d’indipendenza e si deve sempre tener presente che i dati sono appaiati. Per effettuare il test, si deve, quindi, costruire una nuova variabile D=X-Y come riportato in tabella

Ob

s X Y D

1 X1 Y1 D1=X1- Y1

2 X2 Y2 D2=X2- Y2

… …

n Xn Yn Dn=Xn- Yn

In questo modo, il problema si riduce a effettuare un test sulla media di D scegliendo come ipotesi H0: D=0 e

H1: d=0 H1: D<0 H1: D>0

(5)

A questo punto si può seguire la procedura descritta per il test sulla media e concludere il test dal confronto del p-value con il livello scelto.

Esempio: X e Y sono due variabili quantitative rilevate su un campione di 16 persone in due tempi diversi (prima e dopo). Si vuole verificare che non ci sono state variazioni in media.

Obs Prima Dopo D

1 334 405 -71

2 150 125 25

3 520 540 -20

4 95 100 -5

5 212 200 12

6 30 30 0

7 1055 1200 -145

8 300 265 35

9 85 90 -5

10 129 206 -77

11 40 18 22

12 440 489 -49

13 610 590 20

14 208 310 -102

15 880 995 -115

16 25 75 -50

L’output in Minitab è il seguente:

Paired T-Test and CI: Prima; Dopo Paired T for Prima - Dopo

N Mean StDev SE Mean Prima 16 319,6 309,6 77,4 Dopo 16 352,4 344,0 86,0 Difference 16 -32,8 55,8 13,9

95% CI for mean difference: (-62,5; -3,1)

T-Test of mean difference = 0 (vs not = 0): T-Value = -2,35 P-Value = 0,033 Dove:

 95% CI for mean difference è l’intervallo di confiodenza per la differenza delle media al 95%

 T-Value è il valore della statistica test standardizzata

 P-Value = 0,033<0,05 permette di rifiutare l’ipotesi principale, ossia possiamo affermare che c’è differenza in media.

4. Test del chi-quadro di indipendenza

Date due variabili qualitative. Possiamo riassumere i dati in una tabella di contingenza.

Indichiamo con fij le frequenze congiunte e fi+ e f+j le frequenze marginali della X e della Y rispettivamente. Si vuole verificare se sono indipendenti. Dalla statistica descrittiva, si sa che se le righe (risp. colonne) del profilo riga (risp. colonna) sono uguali o equivalentemente se fij= fi+ f+j, si può concludere che c’è indipendenza statistica. Questa uguaglianza è difficile che si verifichi con i dati campionari, applicando le tecniche dei test statistici, si vuole verificare se si può accettare l’ipotesi d’indipendenza con un margine d’errore.

Le ipotesi del test sono qundi

H0: X e Y sono indipendenti H1: X e Y non sono indipendenti

(6)

Esempio: Si vuole verificare se 4 tipi di farmaci A, B, C e D (X) producono gli stessi effetti terapeutici. A tal fine si somministrano i quattro farmaci a quattro gruppi di pazienti, rilevando la risposta (Y) al trattamento (0=scarsa, 1=media, 2=notevole). I risultati sono riassunti nella seguente tabella (output di Minitab)

Rows: X Columns: Y 0 1 2 All 0 0 2 0 2 1 5 5 4 14 2 2 7 4 13 3 0 0 1 1 All 7 14 9 30 Cell Contents: Count

Verificare se i due farmaci producono gli stessi effetti terapeutici equivale a verificare se le due variabili X e Y sono indipendenti. Se fossero indipendenti la tabella sarebbe stata 0 1 2 All

A 0,467 0,933 0,600 2,000 B 3,267 6,533 4,200 14,000 C 3,033 6,067 3,900 13,000 D 0,233 0,467 0,300 1,000 All 7 14 9 30 7,000 14,000 9,000 30,000 Cell Contents: Expected count

Dobbiamo ora verificare quanto la tabella dei dati reali si discosta dalla tabella d’indipendenza.

La statistica che si usa per verificare le ipotesi di indipendenza è



I

i J

j i j

j i ij

f f

f f n f

Q

1 1

)2

(

con n la numerosità campionaria, I il numero di classi della variabile X e J il numero di classi della variabile Y.

Anche in questo caso per concludere il test è sufficiente confrontare il p-value con il livello scelto.

Nel caso dell’esempio farmaci/risposta la realizzazione della statistica Q vale 6,406 e il p- value vale 0,379278, quindi accettiamo l’ipotesi che siano indipendenti.

Riferimenti

Documenti correlati

Servizi generali e  istituzionali – Sistema 

• Stima per intervallo, si definisce un intervallo di valori centrato sulla stima puntuale x e si associa a questo una probabilità (livello di confidenza, CL) che in esso

• Stima per intervallo, si definisce un intervallo di valori centrato sulla stima puntuale x e si associa a questo una probabilità (livello di confidenza, CL) che in esso

Se le classi hanno ampiezza diversa si divide ogni frequenza per l’ampiezza della rispettiva classe e la classe modale è quella alla quale corrisponde il

CARATTERE (O VARIABILE): Ogni caratteristica di un unità statistica che può essere misurata?. MODALITA’: Ogni diversa presentazione del carattere o variabile osservata su

Su 193.735 assunzioni avvenute in tutta la Provincia nel 2017 (al netto del lavoro domestico ed intermittente), il 33% risultano essere di stranieri: di queste, due terzi erano

Le prime dieci nazionalità sono le stesse del 2019, ma in particolare lo Sri Lanka vede un +6% di residenti e la Cina vede un +4%***, mentre gli altri scostamenti sono più

Un produttore di ricambi sa che il 2% della sua produzione e' difettoso.I ricambi vengono confezionati in scatole conteneti ciascuna 100 pezzi e il produttore si impegna