Schede riassuntive di Statistica inferenziale TEST D’IPOTESI
Gli obiettivi della statistica inferenziale sono:
Stima puntuale di un parametro.
Stima per intervalli.
Test statistici per verificare l’ipotesi su un parametro o su un’assunzione.
Effettuare un test statistico significa verificare un’IPOTESI. Ad esempio
1. si vuole verificare se la media della durata di una lampadina supera le 1000 ore 2. si vuole verificare se il genere e l’essere fumatori sono indipendenti.
Cosa é necessario per effetturare un test?
1. Formulare le ipotesi
H0: ipotesi principale H1: ipotesi alternativa 2. Stabilire il livello del test.
3. Utilizzare i dati campionari per stabilire se si accetta o non si accetta l’ipotesi H0. Analizzeremo 4 tipi di test
1. Test sulla media.
2. Test dell’uguaglianza delle medie di due campioni indipendenti.
3. Test dell’ugualglianza delle medie di due campioni appaiati.
4. Test d’indipendenza.
1. Test sulla media
Esempio: Supponiamo di voler verificare che il tempo di vita di una lampadina è di 1400 ore.
Per poter effettuare questa verifica si hanno a disposizione i dati relativi ad un campione di n=5 lampadine:
Lampadina 1 X1
Lampadina 2 X2
Lampadina 3 X3
Lampadina 4 X4
Lampadina 5 X5
1450 1380 1460 1420 1470
Con questi dati si può determinare uno stimatore e una stima puntuale per la media e realizzare un intervallo di confidenza per la media.
Attraverso i test parametrici (la media è un parametro) si vuole stabilire se sia ragionevole che il tempo medio di vita sia 1400 ore.
La regola di decisione che lega i campioni al parametro su cui si vuole eseguire il test si chiama statistica test.
Lo stimatore della media è
X 5 X1 X2 X3 X4 X5
5 e
5 1436
1470 1420 1460 1380 1450
5
x
è una stima puntuale per la media. Si decide di accettare l’ipotesi che la media sia 1400 se la stima non è troppo lontano da 1400, cioè se è piccola la differenza fra
x 5 e 1400.
In questo caso H0: la media è 1400.
L’ipotesi alternativa può essere H1: la media è diversa da 1400 H1: la media è maggiore da 1400
H1: la media è minore da 1400
A questo punto bisogna scegliere il livello del test , ossia il margine di errore che viene concesso e determinare una regione di rifiuto (che dipenderà dal livello, dalla statistica scelta e dall’ipotesi alternativa, tale che
In generale, avremo che per effettuare un test sulla media si sceglie 1. la media campionaria
X come statistica test 2. (normalmente 0,05 o 0,01) come livello del test
3. si formulano le ipotesi (principale e alternativa), che determineranno la forma della regione di rifiuto
Gli errori che si possono commettere sono
RIFIUTARE H0 quando H0 è vera (errore di I specie, viene fissato con probabilità )
ACCETTARE H0 quando H1 è vera (errore di II specie, dipende da ed è difficile da calcolare)
Nella seguente tabella vengono riportate le regioni di rifiuto R in relazione all’ipotesi alternativa, quando l’ipotesi principale è
H0: (media) = 0
H1: 0
R= (-,0-t
s
n )(0+t
s n ,+) H1: > 0
R= (0+t
s n ,+) H1: < 0
R= (-,0-t
s n ) Dove
s è la deviazione standard campionaria
n è la numerosità campionaria
t è un coefficiente che dipende da n e da e si ricava da apposite tavole (t di Student) A questo punto per concludere il test, è sufficiente verificare se il valore campionario della statistica test appartiene alla regione di rifiuto.
Se
x NON appartiene alla regione di rifiuto, si accetta l’ipotesi H0
Se
x appartiene alla regione di rifiuto, si rifiuta l’ipotesi H0 e siaccetta l’ipotesiH1
Nel caso dell’esempio delle lampadine si ha che
H1: 1400 (-,1354.74)(1445.26,+) Accetto H0
H1: > 1400 (1434.75,+) Rifiuto H0
H1: < 1400 (-,1365.25) Accetto H0
Più semplicemente si può concludere il test, calcolandosi il p-value ossia il livello massimo con il quale si accetta l’ipotesi principale considerate le osservazioni rilevate. Il p-value è, quindi, la probabilità di rifiutare l’ipotesi principale quando questa è vera, scegliendo come estremo della regione di rifiuto la stima puntuale della statistica test. Avremo quindi che
p-value > accettiamo l’ipotesi H0
p-value < rifiutiamo l’ipotesi H0
Sempre nell’esempio delle lampadine si ha che
H1: 1400 p-value=0.092 >0.05
H1: > 1400 p-value=0.046 <0.05 H1: < 1400 p-value=0.954 >0.05 L’output di Minitab per il test con ipotesi H1: 1400 è il seguente:
One-Sample T: C1
Test of mu = 1400 vs not = 1400
Variable N Mean StDev SE Mean 95% CI T P C1 5 1436,0 36,5 16,3 (1390,7; 1481,3) 2,21 0,092 Dove:
Stdev è la deviazione standard campionaria
SE Mean è il rapporto fra StDev e la numerosità campionaria
95% CI è l’intervallo di confidenza per la media al 95%
T è il valore della statistica test standardizzata
P è il p-value
Osservazione: Questa procedura si può applicare quando la variabile che si studia ha una distribuzione normale (a campana) o sempre quando si lavora con grandi campioni.
2. Test per la differenza di medie per popolazioni di legge normale
Consideriamo due campioni estratti da due popolazioni indipendenti e con distribuzione normale (o numerosità campionaria elevata). Ad esempio, si rileva la stessa grandezza su individui appartenenti a due popolazioni diverse e indiependenti. Indichiamo con X1,…,Xn il primo campione e con Y1,…,Ym il secondo campione.
Un problema che si incontra molte frequentemente è quello di stabilire se le due medie X e Y
sono uguali oppure no. Nel linguaggio dei test statistici questo equivale ad effettuare un test per verificare
H0: X=Y
contro una delle tre ipotesi alternative
H1: XY H1: X<Y H1: X>Y
Siccome
X n è uno stimatore per X e
Y m è uno stimatore per Y, segue che D=
X n Y m può essere usato per stimare X-Y.
In questo modo, il problema si riduce a effettuare un test sulla media di D scegliendo come ipotesi H0: D=0 e
H1: d=0 H1: D<0 H1: D>0
A questo punto si può seguire la procedura descritta per il test sulla media e concludere il test dal confronto del p-value con il livello scelto.
Rimane, comunque, non banale calcolare la varianza campionaria di tale stimatore.
Esempio: Si vuole verificare se il peso medio di una specie di cavie è differente per esemplari femmine e maschi. Da un campione di 2205 femmine si ottiene un valore medio di 547g mentre da un campione di 2610 maschi il valore medio è 540g. L’output di Minitab per il test a campioni indipendenti è il seguente:
Two-Sample T-Test and CI: PESO_F; PESO_M
Two-sample T for PESO_F vs PESO_M SE N Mean StDev Mean PESO_F 2205 547 962 20 PESO_M 2610 540 700 14
Difference = mu (PESO_F) - mu (PESO_M) Estimate for difference: 7,6
95% CI for difference: (-40,7; 55,9)
T-Test of difference = 0 (vs not =): T-Value = 0,31 P-Value = 0,757 DF = 3946 Dove:
Estimate for difference è la differenza di medie campionate
P-Value = 0,757 è il p-value che porta ad accettare l’ipotesi principale, ossia che abbiano la stessa media.
3. Test di differenza di medie per dati appaiati
Un caso particolare del test sulla differenza di media è quello relativo ai dati appaiati, cioè quando vengono rilevati i dati riferiti allo stesso campione (ad esempio, in tempi diversi o con differenti strumenti).
Un caso tipico di applicazione di questo test sono le rilevazioni di parametri fisiologici prima e dopo la somministrazione di un farmaco.
I dati da esaminare avranno quindi la forma Ob
s
X Y
1 X1 Y1
2 X2 Y2
… … …
n Xn Yn
Si suppone che la caratteristica studiata abbia distribuzione normale oppure la numerosità del campione sia elevata.
Come nel caso precedente, un problema che si incontra molte frequentemente è quello di stabilire se le due medie X e Y sono uguali oppure no. Nel linguaggio dei test statistici questo equivale ad effettuare un test per verificare
H0: X=Y
contro una delle tre ipotesi alternative
H1: XY H1: X<Y H1: X>Y
In questo caso non si può usare l’ipotesi d’indipendenza e si deve sempre tener presente che i dati sono appaiati. Per effettuare il test, si deve, quindi, costruire una nuova variabile D=X-Y come riportato in tabella
Ob
s X Y D
1 X1 Y1 D1=X1- Y1
2 X2 Y2 D2=X2- Y2
… … … …
n Xn Yn Dn=Xn- Yn
In questo modo, il problema si riduce a effettuare un test sulla media di D scegliendo come ipotesi H0: D=0 e
H1: d=0 H1: D<0 H1: D>0
A questo punto si può seguire la procedura descritta per il test sulla media e concludere il test dal confronto del p-value con il livello scelto.
Esempio: X e Y sono due variabili quantitative rilevate su un campione di 16 persone in due tempi diversi (prima e dopo). Si vuole verificare che non ci sono state variazioni in media.
Obs Prima Dopo D
1 334 405 -71
2 150 125 25
3 520 540 -20
4 95 100 -5
5 212 200 12
6 30 30 0
7 1055 1200 -145
8 300 265 35
9 85 90 -5
10 129 206 -77
11 40 18 22
12 440 489 -49
13 610 590 20
14 208 310 -102
15 880 995 -115
16 25 75 -50
L’output in Minitab è il seguente:
Paired T-Test and CI: Prima; Dopo Paired T for Prima - Dopo
N Mean StDev SE Mean Prima 16 319,6 309,6 77,4 Dopo 16 352,4 344,0 86,0 Difference 16 -32,8 55,8 13,9
95% CI for mean difference: (-62,5; -3,1)
T-Test of mean difference = 0 (vs not = 0): T-Value = -2,35 P-Value = 0,033 Dove:
95% CI for mean difference è l’intervallo di confiodenza per la differenza delle media al 95%
T-Value è il valore della statistica test standardizzata
P-Value = 0,033<0,05 permette di rifiutare l’ipotesi principale, ossia possiamo affermare che c’è differenza in media.
4. Test del chi-quadro di indipendenza
Date due variabili qualitative. Possiamo riassumere i dati in una tabella di contingenza.
Indichiamo con fij le frequenze congiunte e fi+ e f+j le frequenze marginali della X e della Y rispettivamente. Si vuole verificare se sono indipendenti. Dalla statistica descrittiva, si sa che se le righe (risp. colonne) del profilo riga (risp. colonna) sono uguali o equivalentemente se fij= fi+ f+j, si può concludere che c’è indipendenza statistica. Questa uguaglianza è difficile che si verifichi con i dati campionari, applicando le tecniche dei test statistici, si vuole verificare se si può accettare l’ipotesi d’indipendenza con un margine d’errore.
Le ipotesi del test sono qundi
H0: X e Y sono indipendenti H1: X e Y non sono indipendenti
Esempio: Si vuole verificare se 4 tipi di farmaci A, B, C e D (X) producono gli stessi effetti terapeutici. A tal fine si somministrano i quattro farmaci a quattro gruppi di pazienti, rilevando la risposta (Y) al trattamento (0=scarsa, 1=media, 2=notevole). I risultati sono riassunti nella seguente tabella (output di Minitab)
Rows: X Columns: Y 0 1 2 All 0 0 2 0 2 1 5 5 4 14 2 2 7 4 13 3 0 0 1 1 All 7 14 9 30 Cell Contents: Count
Verificare se i due farmaci producono gli stessi effetti terapeutici equivale a verificare se le due variabili X e Y sono indipendenti. Se fossero indipendenti la tabella sarebbe stata 0 1 2 All
A 0,467 0,933 0,600 2,000 B 3,267 6,533 4,200 14,000 C 3,033 6,067 3,900 13,000 D 0,233 0,467 0,300 1,000 All 7 14 9 30 7,000 14,000 9,000 30,000 Cell Contents: Expected count
Dobbiamo ora verificare quanto la tabella dei dati reali si discosta dalla tabella d’indipendenza.
La statistica che si usa per verificare le ipotesi di indipendenza è
I
i J
j i j
j i ij
f f
f f n f
Q
1 1
)2
(
con n la numerosità campionaria, I il numero di classi della variabile X e J il numero di classi della variabile Y.
Anche in questo caso per concludere il test è sufficiente confrontare il p-value con il livello scelto.
Nel caso dell’esempio farmaci/risposta la realizzazione della statistica Q vale 6,406 e il p- value vale 0,379278, quindi accettiamo l’ipotesi che siano indipendenti.