Test Statistici
Un test statistico è una regola di decisione
Effettuare un test statistico significa verificare IPOTESI sui parametri.
STATISTICA INFERENZIALE
STIMA PER INTERVALLI STIMA PUNTUALE
TEST PARAMETRICI TEST NON PARAMETRICI
ESEMPI
La durata in ore di una lampadina si può modellare con una legge X~N(µ,2). Se la media µ è incognita si può fare un test per capire, ad esempio, se µ>1000 ore, cioè se la media della durata di una lampadina supera le 1000 ore.
Se X e Y sono variabili aleatorie si può effettuare un test per verificare se sono o no indipendenti.
Cosa è necessario per poter effettuare un test ?
Si devono:
formulare delle IPOTESI
0 1
:
:
H ipotesi principale o nulla H ipotesi alternativa
Si deve stabilire il livello del test.
TEST PARAMETRICI (media, varianza e proporzione)
Supponiamo, ad esempio, che il tempo di vita di una lampadina segua una legge normale di media sconosciuta e varianza uguale a 125 ore (X la v.a. che modella questo fenomeno).
Si vuole verificare l’ipotesi che il tempo medio di vita (durata) di quel tipo di lampadina è di 1400 ore.
Per poter effettuare questa verifica si hanno a disposizione i dati relativi ad un campione di n=5 lampadine.
I valori della durata (in ore) delle lampadine del campione sono :
Lampadina 1
X1
Lampadina 2
X2
Lampadina 3
X3
Lampadina 4
X4
Lampadina 5
X5
1410 1380 1420 1420 1430
Poichè quel tipo di lampadina ha legge N(µ,125),la durata di ogni lampadina, é rappresentata dalle variabili aleatorie Xi ,i=1,2,3,4,5 ciascune di legge N(µ,125).
Con questi dati abbiamo visto che è possibile :
Determinare uno stimatore e una stima per µ.
Determinare un intervallo di confidenza per µ e una sua realizzazione.
Attraverso i test parametrici ( la media è un parametro) si vuole stabilire se sia “ragionevole”
pensare che il tempo media di vita (durata) sia di 1400 ore.
La regola di decisione che lega il campione al parametro su cui si vuole eseguire il test si chiama STATISTICA TEST.
Lo stimatore della media è : T X( 1,...,X5) X5 la cui legge è ,125 ,5
N 5 N .
5
1410 1380 1420 1420 1430 5 1412
x è una stima di µ.
Si decide di accettare l’ipotesi µ=1400 se x5 non è troppo lontano da 1400, cioè se è piccola la differenza fra x5 e 1400.
Si supponga ore l’ipotesi H0 vera.
In questo caso si suppone che il valore di µ sia 1400 e quindi la statistica T ha legge N(1400,25), inoltre x5 è il valore che assume T relativamente al campione di 5 lampadine.
Il grafico della legge di T è riportato sotto
Per essere considerato “vicino” a 1400, x5deve appartenere ad un intervallo [a,b] tale che ( 5 [ , ]) 1-
P x a b , con il valore 1- scelto da chi effettua il test. Anche in questo caso il valore dell’area di ciascuna delle due zone evidenziate è /2 .
Si procede poi nel modo seguente per effettuare un test a livello :
5 5
[ , ] ' 0 [ , ] ' 0 Se x a b si accetta l ipotesi H Se x a b si rifiuta l ipotesi H
(- , ) ( , ) viene detta REGIONE DI RIFIUTO R a b
Che cosa rappresenta il valore di ?
Se il valore x5 R, cioè se la media dei valori dei dati del campione appartiene alla regione di rifiuto, si decide di rifiutare l’ipotesi H0 anche se, come supposto all’inizio, l’ipotesi è vera.
5
0 0
La probabilita' che vale .
Il valore [ / ] è detto
x R
P rifiutare H H vera ERRORE DI PRIMA SPECIE
Nel caso preso in esame si ha che :
x5 1412
si può, ad esempio, fissare il livello del test al 10% = 0.10.
Si vogliono determinare i valori a e b tali che :
1400 1400 0.90
5 5
a b
P a T b P Z
Se Z~N(0,1) dalle tavole si ottiene :
P(-1.64 Z 1.64) = 0.90.
Quindi :
1400 1.64 ( 1.64*5) 1400 1391.8 5
1400 1.64 (1.64*5) 1400 1408.2 5
( ,1391.8) (1408.2, )
a a
b a
R
Se la media dei dati campionari appartiene all’intervallo R ( ,1391.8) (1408.2, ), si rifiuta l’ipotesi H0.
x5 1412R, quindi si rifiuta l’ipotesi H0 che la media del tempo di vita di questo tipo di lampadina sia uguale a 1400 .
Il test eseguito prima è un CASO PARTICOLARE di una serie di test sui parametri di una distribuzione normale.
La tabella seguente riporta i tre possibili tipi di test per la media
0 0
1 0
: : H H
test BILATERALE
0 0
1 0
: : H H
test UNILATERALE DESTRO
0 0
1 0
: : H H
test UNILATERALE SINISTRO
TEST BILATERALE SULLA MEDIA ( X di legge normale con varianza nota)
Nel caso di test bilaterale le ipotesi sono :
0 0
1 0
: : H H
e la regione di rifiuto è : R (- , ) ( ,a b ).
ESEMPIO
Si consideri un campione di taglia ( numerosita’) n=25 estratto da una popolazione di legge N(,100). Si vuole effettuare un test sulla media a livello 5%. Il valore della media del campione vale
5 20.5
x .
In questo caso le ipotesi sono :
0
1 0
: 20 : 20 H
H
La statistica test è
1 2 ... 25 100
25 , 25
X X X
T N .
Se l’ipotesi H è vera si ha che T~N(20,4).
Per determinare la regione di rifiuto R si devono determinare due valori a e b tali che P(a T b) = 0.95, cioè facendo i conti :
20 20 20 20
2 2 0.95
4 4
a b a b
P Z P Z
Dalle tavole della legge N(0,1) si ottiene che :
20 1.96
2
20 1.96 2
a b
quindi 20 1.96*2 20 1.96*2 a
b
16.08
23.92 a
b
Quindi essendo R= (-,16.08)(23.92,+ ) (area evidenziata nella figura sopra) si ha che
5 20.5
x R e quindi si accetta l’ipotesi H0.
Si osservi che l’ipotesi H0 viene accettata quando il valore di x5 è compreso nell’intervallo [16.08 , 23.92].
TEST UNILATERALE DESTRO SULLA MEDIA (X di legge normale con varianza nota)
. Nel caso di test unilaterale destro le ipotesi sono :
0 0
1 0
: : H H
La regione di rifiuto è del tipo R=(c,+ ).
ESEMPIO
Si consideri un campione di taglia ( numerosita’) n=25 estratto da una popolazione di legge N(,100).
Si vuole effettuare un test sulla media a livello 5%. Il valore della media del campione vale x5 20.5. In questo caso le ipotesi sono :
0 1
: 20 : 20 H
H
La statistica test è 1 2 ... 25 100
25 , 25
X X X
T N . Se l’ipotesi H0 è vera si ha che T~N(20,4).
Per determinare la regione di rifiuto R si deve determinare un valore c tale che P(T c) = 0.95, cioè facendo i conti :
20 20
2 0.95 4
c c
P Z P Z
Utilizzando le tavole si ha che : 20 2 1.65
c e quindi c = 23.3 e R=(23.3,+).
Essendo x5 20.5 si accetta l’ipotesi principale (nulla).
Osservando la figura riportata sotto si osserva che viene accettata l’ipotesi principale H0: 20 quando il valore di x5 non supera 23.3.
TEST UNILATERALE SINISTRO SULLA MEDIA (X di legge normale con varianza nota)
. Nel caso di test unilaterale destro le ipotesi sono :
0 0
1 0
: : H H
La regione di rifiuto è del tipo R=(- ,d).
ESEMPIO
Si consideri un campione di taglia ( numerosita’) n=25 estratto da una popolazione di legge N(,100).
Si vuole effettuare un test sulla media a livello 5%. Il valore della media del campione vale x5 19.5. In questo caso le ipotesi sono :
0 1
: 20 : 20 H
H
La statistica test 1 2 ... 25 100
ha legge ,
25 25
X X X
T N .
Se l’ipotesi H0 è vera si ha che T~N(20,4).
Per determinare la regione di rifiuto R si deve determinare un valore c tale che P(T c) = 0.95, cioè facendo i conti :
20 20
2 0.95 4
d d
P Z P Z e quindi
20 0.05 4
P Z d
Utilizzando le tavole si ha che : 20 2 1.65
d e quindi d = 16.7 e R=(- , 16.7).
Essendo x5 20.5 si accetta l’ipotesi principale (nulla).
Osservando la figura riportata sotto si osserva che viene accettata l’ipotesi principale H0: 20 quando il valore di x5 è superiore a 16.7.
Regola di Decisione
• Un test statistico test statistico é una statistica calcolata sui dati del campione. Il valore del test é usato per decidere se rifiutare o no l’ipotesi nulla
• La regola di decisioneregola di decisione é una regola che specifica le condizioni sotto le quali l’ipotesi nulla puó essere rifiutata.
Errori nei test Una decisione puó essere sbagliata in due modi :
Errore di tipo I: Rifiutare H0 quando é vera
• La probabilita’ dell’errore di tipo I é denotatata con α.
• α é chiamato livello di significativita’ del test Errore di tipo II: Non rifiutare H0 quando é falsa
• La probabilita’ dell’errore di tipo II é denotatata con β.
La tabella illustra i possibili errori in un test statistico.
Potenza del test (solo nel caso di ipotesi semplice)
La potenza di un test statistico (si indica con π) é “ la probabilita’ di prendere la decisione giusta”, cioé la probabilita’ di rifiutare l’ipotesi nulla quando e’ falsa.
π = 1-β = P(rifiutare H0/ H0 falsa)
Gli esempi riguarderanno solo il caso di ipotesi semplici.
ESEMPIO
La popolazione ha legge Normale di media μ e varianza nota : X~N(μ, σ2).
Le ipotesi del test sono :
0 1
: 50
: 70
H H
il livello del test vale 5% e si ha che 2 10 n
.
Il test è unilaterale destro e quindi la regione di rifiuto R vale :
2
0 1 , = 50 1.65*10,+ 66.5, +
R z
n
Calcolo della potenza del Test.
Sotto l’ipotesi H1 la statistica T Xn ~ (70,10 )N 2 e la potenza vale :
2
0/ 0 ~ (70,10 ) 66.5
66.5 70
~ (0,1) 0.35 0.637
10
P rifiutare H H falsa P Y N
P Z N P Z
L’errore di II specie β vale 1-л=0.363.
TEST BILATERALE SULLA MEDIA ( X di legge normale con varianza sconosciuta )
Nel caso in cui la popolazione X da cui viene estratto il campione abbia sia la media che la varianza sconosciuta si procede nel modo seguente :
X stima la media µ
S2 stima la varianza σ2 Le ipotesi del test sono del tipo:
Se H0 è vera, la variabile aleatoria
T ha legge t di Student con n-1 gradi di libertá.
In questo caso si ha :
P(X (m0-,m0+))=
Quindi :
P(X (m0-,m0+)) = P(X (( -,m0-) (m0+ , +)) = P(|X -m0| > ) =
= | 0|
/ /
P X
S n S n
m d
æ - ö÷
ç > ÷
ç ÷
ç ÷
çè ø
Poiché T = 0 / X
S n m
- ha legge t di Student con n-1 gradi di libertá :
| 0 |
/ / | | /
P X P T
S n S n S n
m d d a
æ - ö÷ æ ö
ç > ÷= ç > ÷=
ç ÷ ç ÷÷
ç ÷ ç ÷
ç è ø
è ø
e quindi la regione di rifiuto per il test sulla media a livello è:
0 1
/ X n
T t
S n
m -
= - :
0 0
1 0
: : H H
R = 0 1 0 1
2 2
, n S n S ,
t t
n n
a a
m - m -
æ ö æ÷ ö÷
ç- ¥ - ÷Èç + +¥ ÷
ç ÷ ç ÷
ç ÷ ç ÷
ç ç
è ø è ø
ESEMPIO
Sia X1,X2,...,X16 un campione estratto da una popolazione di legge normale di media e varianza sconosciute.
.
Si deve determinare il valore di tale che | | 0.05 P T / 16
S
æ d ö÷
ç > ÷=
ç ÷÷
çè ø oppure
| | 0.1
P T / 16 S
æ d ö÷
ç < ÷=
ç ÷÷
çè ø . La legge di T é t15, cioé t di Student con 15 gradi di libertá.
15
0.05 2.13
/ 16 t S
d = = quindi d= 2.13
3 S .
La regione di rifiuto è quindi :
R= , 0 2.13 S 0 2.13 S ,
n n
A questo punto, la conclusione del test dipende dal valore osservato xdella variabile media campionaria X . Se xappartiene ad R, si rifiuta H0 e si sceglie H1, altrimenti si accetta H0. In modo simile si procede per i test di tipo unilaterale (destro o sinistro)
0 0
1 0
: : H H
0 0
1 0
: : H H
Test sulla media per grandi campioni
Il teorema del limite centrale (TLC) afferma che se
X X1, 2,...,Xn sono variabili aleatorie indipendenti (un campione)
E(Xi)=μ, i=1,2,...,n
VAR(Xi)=σ2, i=1,2,...,n allora
~ (0,1) /
Xn
Z N n
Questo teorema significa che per n grande (>30):
La distribuzione t di Student può essere approssimata con la legge normale standard Z~N(0,1).
( n 1) ( )
P T t P Z z
Si possono fare test sulla media e sulla varianza anche se le popolazioni di provenienza dei campioni non ha legge Normale.
ESEMPIO
I dati relativi ad un campione di numerosità 100 si ha che la media campionaria vale 300 e la varianza campionaria 25. Si vuole testare a livello 5%:
. Sotto HO la statistica test vale
0 1
: 270
: 270
H H
0 270
~ (99) (0,1) / 5 / 100
X X
T t N
S n
12
99
0 0 1
2 2
0.975
270 270
0.05 /
5 /10 5 /10
1.96
X X
P rifiutare H H vera P t P Z
con Z Z
La regione di rifiuto R vale
0 0 0
0
5 5
, 1.96 1.96 , , 270 1.96 270 1.96 ,
100 100
( , 269 271,
300 rifiuto
S S
R n n
x R H
Test per la frequenza di una variabile di Bernoulli
Se la popolazione ha legge di Bernoulli, cioè X~B(p), con p sconosciuto si vuole costruire test di ipotesi sul parametro p .
Se X~B(p), si ha che ( 1)
( 0) (1 )
P X p
P X p p
E(X)=p e VAR(X)=p(1-p).
Se X1,X2,...,Xn è un campione estratto da X lo stimatore di p vale :
1 2 ...
ˆ X X Xn
p n
Le ipotesi del test saranno del tipo:
0 0
1 0
: :
H p p H p p
Se la numerosita’ campionaria n è abbastanza grande si può utilizzare il Teorema del Limite Centrale per approssimare la distribuzione della statistica test: sotto l’ipotesi nulla, si approssima quindi
0 0
0
(1- )
ˆ ~ , p p
p con Z N p
n
.
La varianza sotto H0 vale:
2
0 0
1 (1 ) sp p p
n
Attenzione: nel caso degli intervalli di confidenza il denominatore era (n-1).
La regione di rifiuto sarà, quindi:
R= 0 0 0 0 0 0
1 1
2 2
(1 ) (1 )
, p p p p ,
p Z p Z
n n
Test bilaterali per la varianza da popolazione di legge Normale
Sia X una popolazione di legge Normale di media e varianza sconosciute .
Si vuole costruire un test di ipotesi per la varianza a livello . Quindi le ipotesi saranno del tipo:
2 2
0 0
2 2
1 0
: : H H
Se l’ipotesi H0 è vera, la variabile aleatoria
2 2 0
( 1) C S n
ha legge chi-quadro con (n-1) gradi di liberta’.
Di seguito è riportato il grafico della distribuzione chi-quadro al variare di n.
chi quadro con n=2 gradi di liberta’ chi quadro con n=3 gradi di liberta’
chi quadro con n=10 gradi di liberta’
Costruzione del test .
Si devono determinare due valori C1 e C2 tali che
P( C1 C C2 ) = 1-
2
1 - 2
2 0 2
( 1)
P( C1 C C2 ) = P C 1
S n C
dove , per esempio con =0.10
2 2
0.95, 1
1 1 , 1
2 2
2 2
0.05, 1 , 1
2 2
n n
n n
C C
Quindi la regione di rifiuto sarà:
R =
2 2 2 2
0 0
1 , 1 , 1
2 2
0, ,
( 1) ( 1)
n n
n n
Se la media è nota, la regione di rifiuto è:
R =
2 2 2 2
0 0
1 , 1 , 1
2 2
0, ,
n n
n n
ESEMPIO
Sia X1,X2,..,X15 un campione estratto da una popolazione di legge X~N(µ,2) con la media µ sconosciuta. Se si vuole effettuare un test sulla varianza a livello 10% con le ipotesi
2 2
0 0
2 2
1 0
: : H H
si ha che la regione di rifiuto è:
R =
2 2 2 2
0.95,14 0 0.05,14 0
0, ,
14 14
Dalle tavole si ricava che :
2 0.95,14
2 0.05,14
6.751 23.685
e quindi la regione di rifiuto è:
2 2
0 23.685 0 6.751
0, ,
14 14
R
Se è noto il valore di S2 relativo al campione ( si indica con s2) si può determinare la decisione, a seconda che tale valore appartenga o meno alla regione di rifiuto.
Test unilaterali per la varianza da popolazione di legge Normale
SUPERIORE
2 2
0 0
2 2
1 0
: : H
H
2 2
, 1 0
( 1) ,
R n
n
12,n1
INFERIORE
2 2
0 0
2 2
1 0
: : H
H
2 2
1 , 1 0
0, ( 1)
R n
n
12, 1n
Il test per la differenza di medie per popolazioni di legge Normale
Si distinguono due casi :
a) Sugli stessi individui viene rilevata una grandezza in tempi diversi (dati appaiati).
b) Si rileva la stessa grandezza su individui apparteneneti a popolazioni diverse e indipendenti.
Caso a:
1 1
1 . . . . . . . . . . n n individuo X Y
individuo n X Y
Caso b:
1
1
1 . . 1 . .
. . . 1
.
n
individuo X
POPOLAZIONE
individuo n X ndividuo Y
i
.
. . 2 . .
. m
POPOLAZIONE individuo m Y
a. Il test di differenza di medie per dati appaiati
Un caso particolare del test sulla differenza di media è quello relativo ai dati appaiati, cioè quando vengono rilevati i dati riferiti allo stesso campione,ad esempio, in tempi diversi, con differenti strumenti, ecc.
Esempi tipici di applicazione di questo test sono le rilevazioni di parametri fisiologici prima e dopo la somministrazione di un farmaco.
I dati da esaminare avranno quindi la forma :
obs X Y
1 X1 Y1
2 X2 Y2
.... .... ...
n Xn Yn
Si suppongono X e Y di legge normale N(μX,σ1) e N(μY,σ2)
Un problema che si deve risolvere molte volte é quello di stabilire se le mediedi X e Y , μX e μY
sono uguali oppure no.
Risolvere questo problema equivale ad effettuare un test per verificare l’ipotesi principale
H0: μX -μY =0
Contro una delle tre ipotesi altenative:
test unilaterale sinistro Test bilaterale Test unilaterale destro H1: μX - μY < 0 H1: μX - μY ≠ 0 H1: μX - μY > 0
Per effettuare il test :
Si deve costruire una nuova variabile D=X-Y come riportato in tabella
obs X Y D
1 X1 Y1 D1=X1 -Y1
2 X2 Y2 D2=X2 -Y2
... ... ... ...
n Xn Yn Dn=Xn -Yn
Essendo X e Y variabili aleatorie di legge normale, anche D ha legge normale N(μD,σD)
Sotto l’ipotesi principale la statistica test T vale
D / T D
S n
ed ha legge t di Student con (n-1) gradi di libertà.
La regione di rifiuto è:
nel caso bilaterale
2 2
, ,
R t t
nel caso unilaterale destro
,
R t
nel caso unilaterale sinistro
,
R t
ESEMPIO
X e Y sono due variabili quantitative rilevate su un campione di n=16 persone in due tempi diversi (prima e dopo). Si effettua un test per verificare che non ci sono state variazioni in media.
N Prima Dopo D
1 334 405 71
2 150 125 -25
3 520 540 20
4 95 100 5
5 212 200 -12
6 30 30 0
7 1055 1200 145
8 300 265 -35
9 85 90 5
10 129 206 77
11 40 18 -22
12 440 489 49
13 610 590 -20
14 208 310 102
15 880 995 115
16 25 75 50
0 1
: 0 : 0
H D
H D
t150.05 1.753
df = (n-1) = (16-1) = 15
0
32.81 16
2.354 , quindi si rifiuta . 55.75
t D n R H
S
b. Il test di differenza di medie per popolazioni indipendenti di legge Normale
Consideriamo due campioni estratti da due popolazioni indipendenti di legge normale:
Il primo campione X1,X2,...,Xn di numerositá n con distribuzione Normale N(μX,σX);
Il secondo campione Y1,Y2,...,Ym di numerositá m con distribuzione Normale N(μY,σY).
Un problema che si deve risolvere molte volte é quello di stabilire se le due medie μX e μY sono uguali oppure no.
Risolvere questo problema equivale ad effettuare un test per verificare l’ipotesi principale
H0: μX = μY
Contro una delle tre ipotesi altenative:
test unilaterale sinistro Test bilaterale Test unilaterale destro H1: μX < μY H1: μX ≠ μY H1: μX > μY
Siccome Xn é uno stimatore di μX , Ym uno stimatore di μY, segue che XnYm può essere usato per stimare μX - μY. Per effettuare questo test si considera quindi la variabile aleatoria
n m
D X Y
Se le varianze 2X e Y2 sono note, lo scarto quadratico medio di D vale :
2 2
X Y
D n m
Se l’ipotesi principale é vera, questo equivale ad assumere che μX = μY e quindi la statistica test T vale :
n m
T
X Y
T
ed ha distribuzione Normale standard. La regione di rifiuto è, nel caso bilaterale,
1 1
2 2
, ,
R z z
Se le varianze 2X e Y2 non sono note ma si può supporre che siano uguali, allora si usano gli usuali stimatori della varianza SX2 e SY2 e lo stimatore SD di D assume la forma :
2 2
( 1) ( 1)
2
X Y
D
n S m S n m
S n m nm
Se l’ipotesi principale é vera, questo equivale ad assumere che μX = μY e quindi la statistica test
n m
D
X Y
T S
ha distribuzione t di Student con (n+m-2) gradi di libertà e la regione di rifiuto, nel caso bilaterale, vale:
2 2
, ,
R t t
ESEMPIO 1
I possessori di American Express Gold Card hanno un utilizzo mensile (in euro) maggiore degli utilizzatori di Visa?
1 1 1
Popolazione 1: Visa n =1200
x = 452 = 212
2 2 2
Popolazione 2: Gold Card n =800
x = 523 = 185
H :0 1 2 0 H :1 1 2 0
( 1 2) ( 1 2 0) (452 523) 0 71 71 7.926 2 2 2122 1852 80.2346 8.96
1 2
1200 800
1 2
p-value: p(z<-7.926) 0 H si deve rifiutare0
x x z
n n
Poiche’ il valore della statistica test e’ nella regione di rifiuto,l’ipotesi nulla può essere rifiutata .Si conclude che c’e’ una differenza statisticamente significativa fra l’utilizzo mensilefra i possessori di Gold Card e Visa.