Statistica
µ Definizioni:
Ø
X
1, …, X
n variabili aleatorie indipendenti e tali cheF
X1
= … = F
Xn si dicono campione.Ø Siano
X
1,…, X
n~ N ( µ,σ
2)
conµ
eσ
2 incogniti. Per determinare i parametri incogniti si fa“inferenza statistica”.
Ø Siano
X
1,…, X
n campioni eϑ
parametro incognito:§ Una statistica è una funzione del campione
S = S X (
1,…, X
n)
.§ Uno stimatore di
ϑ
è una statistica utile per stimareϑ
.µ Media Campionaria:
Ø È uno stimatore non distorto di
µ
àX
n= 1 n X
kk=1
∑
n .Ø Sia
X
1,…, X
n campione con mediaµ
, varianzaσ
2.§
E X ( )
n= µ
.§ Se
X
1, …, X
n~ N ( µ,σ
2)
àX
n~ ⎛ ⎝⎜ µ, σ n
2⎞ ⎠⎟
.§ Se
n 1
àX
n≈ N µ, σ
2n
⎛
⎝⎜
⎞
⎠⎟
.Ø
X
n~ N µ, σ
2n
⎛
⎝⎜
⎞
⎠⎟
.µ Varianza campionaria:
Ø È uno stimatore non distorto di
σ
2àS
n2= 1
n − 1 ( X
k− X
n)
2k=1
∑
n .Ø La varianza campionaria si può calcolare anche così:
S
n2= 1
n − 1 X
2i− nX
2i=1
∑
n⎛
⎝⎜
⎞
⎠⎟
. ØE S ⎡⎣ ⎤⎦ = σ
2n 2.Ø Teorema:
§ Sia
X
1,…, X
n~ N ( µ,σ
2)
campione:•
X
n, S
2n sono indipendenti.•
X
n− µ
σ n ~ N 0,1 ( )
.•
(
n− 1)
σ
2 ~χ
2(
n− 1)
.µ Teoria della stima:
Ø Sia
X
1,…, X
n campione conϑ
parametro incognito.§
Η
n= Η X (
1, X
2,…, X
n)
stimatore diϑ
.Η
n è uno stimatore corretto (non distorto) seE [ ] Η
n= ϑ
.§ Nota d’aiuto per esami: Se abbiamo
X
v.a. conE X [ ] = µ
,Var X ( ) = σ
2. Possiamo determinareE X ⎡⎣ ⎤⎦
2 con la formula inversa della varianza, ossiaE X ⎡⎣ ⎤⎦ = Var X
2( ) + E X [ ]
2= σ
2+ µ
2.§ Definiamo distorsione
= Bias Η ( )
n: = E Η [ ]
n− ϑ
.• Se
Bias ( ) Η
n→ 0
conn → ∞
diciamo cheΗ
n è asintoticamente corretto.• Se
Bias ( ) Η
n= 0
à corretto.Ø
Η
n è consistente se ∀ε
> 0 àP ( Η
n− ϑ > ε ) → 0
.Ø Errore quadratico medio (Mean Square Error): MSE
( )
Ηn = E Η⎡⎣(
n−ϑ )
2⎤⎦.§ MSE
( )
Η = Var H( )
+ Bias H( )
2.Ø
Η
n è consistente in media quadratica seMSE ( ) Η
n→ 0
conn → ∞
. ØΗ
n è corretto se e soltanto seE [ ] Η
n= ϑ
.Ø Confronto tra stimatori:
§ MSE H
( )
1 < MSE H( )
2 ⇔ MSE H( )
1MSE H
( )
2 < 1 in questo caso è preferibile adottareH
1 come stimatore, nel caso contrarioH
2.
µ Metodo della massima verosimiglianza:
Ø Strategia: lo stimatore di massima verosomiglianza
ϑ
è definito come il valore diϑ
che rende massimaf x (
1, x
2, …, x
n| ϑ )
, che è la funzione di massa o densità congiunta, quando i valori osservati sonox
1, x
2,…, x
n. Nel calcolare il valore diϑ
che massimizzaf
è meglio utilizzare illog f x ⎡⎣ (
1, x
2,…, x
n| ϑ ) ⎤⎦
, sapendo che entrambe le funzioni assumono il massimo in corrispondenza dello stesso valore diϑ
. Quindi: si scrivelog f x ⎡⎣ (
1, x
2,…, x
n| ϑ ) ⎤⎦
, si fa la derivata di tale funzione ed infine si prende il valore diϑ
in cui abbiamo il massimo.Ø Ricorda che
f x (
1, x
2,…, x
n) = f
Xi( ) x
ii=1
∏
n , siccome sono tutte variabili aleatorie indipendenti.Mentre usando i logaritmi e le sue proprietà
log f x ⎡⎣ (
1, x
2, …, x
n) ⎤⎦ = log f ⎡⎣
Xi( ) x
i⎤⎦
i=1
∑
n che è piùsemplice da derivare.
µ Metodo dei momenti:
Ø Sia
X
1, X
2,…, X
n~ f x, ( ϑ
1, ϑ
2,…,ϑ
k)
.Ø Definiamo:
§
m
h:= E X ⎡⎣ ⎤⎦
h momentoh
-‐esimo.§
m
h:= 1
h X
ihi=1
∑
n momento campionarioh
-‐esimo. Sono tutti termini noti.Ø Strategia: facciamo un sistema eguagliando i momenti
h
-‐esimi ai momenti campionarih
-‐esimi. La soluzione del sistema saràϑ = ϑ (
1,ϑ
2,…,ϑ
k)
.E X [ ]
1= m
1( ϑ
1,ϑ
2,…,ϑ
k) = m
1= 1 n X
ii=1
∑
nE X ⎡⎣ ⎤⎦ = m
12 2( ϑ
1,ϑ
2,…,ϑ
k) = m
2= 1
n X
i2i=1
∑
n…
E X ⎡⎣ ⎤⎦ = m
1k k( ϑ
1,ϑ
2,…,ϑ
k) = m
k= 1
n X
iki=1
∑
n⎧
⎨
⎪ ⎪
⎪ ⎪
⎩
⎪ ⎪
⎪ ⎪
µ Teorema stimatori:
Ø Ipotesi: Sia
X
1, X
2,…, X
n~ f x | ( ϑ )
conϑ
incognito.ϑ
= MLE( ) ϑ
ossiaϑ
è uno stimatore di massima verosimiglianza diϑ
(MLE = Maximum Likelyhood Estimator).Ø Tesi:
1.
Bias ( ) ϑ
n→ 0
conn → +∞
.2.
MSE ( ) ϑ
n→ 0
(Errore quadratico medio).3.
ϑ
≈ Nnϑ
, 1 nE ∂∂
ϑ
log f x |( ϑ )
⎛⎝⎜ ⎞
⎠⎟
⎡ 2
⎣⎢ ⎤
⎦⎥
⎛
⎝
⎜⎜
⎜⎜⎜
⎞
⎠
⎟⎟
⎟⎟⎟
con
n 1
.4. Se
ϑ
* è uno stimatore diϑ
che soddisfa 1. 2. 3.⇒
MSE ( ) ϑ * ≥ MSE ( ) ϑ
.Ø Corollario:
§ Sia
τ = h ϑ ( )
conh : →
,τ = h ϑ ( ) = MSE ( ) τ
.§
τ
≈ N h |(
=τϑ )
,(
h ' |ϑ )
nE ∂
∂
ϑ
log f x |( ϑ )
⎛⎝⎜ ⎞
⎠⎟
⎡ 2
⎣⎢ ⎤
⎦⎥
⎛
⎝
⎜⎜
⎜⎜⎜
⎞
⎠
⎟⎟
⎟⎟⎟
.
µ Intervalli di confidenza:
Ø Molte volte è utile sapere quanto la nostra stima sia esatta, per far ciò si utilizzano gli intervalli di confidenza.
Ipotesi
ϑ
Intervallo bilaterale Intervallo sinistro Intervallo destroσ
2 notaµ
X ± z
α2
σ
n
−∞, X + z
ασ n
⎛ ⎝⎜ ⎞
⎠⎟
X − z
ασ n , ∞
⎛ ⎝⎜ ⎞
⎠⎟
σ
2 non notaµ
X ± t
α2,n−1
S
n
−∞, X + t
α2,n−1
S n
⎛
⎝⎜
⎞
⎠⎟
X − t
α2,n−1
S n , ∞
⎛
⎝⎜
⎞
⎠⎟
µ
non notaσ
2n − 1
( ) S
2χ
2α2,n−1
, ( n − 1 ) S
2χ
21− α2,n−1
⎛
⎝
⎜ ⎜
⎜
⎞
⎠
⎟ ⎟
⎟
0, ( n − 1 ) S
2χ
12−α,n−1⎛
⎝⎜
⎞
⎠⎟
n − 1
( ) S
2χ
2α,n−1,∞
⎛
⎝⎜
⎞
⎠⎟
µ Stime per la differenza tra le medie di due popolazioni normali:
Ø Siano
X
1, X
2,…, X
N eY
1,Y
2,…,Y
m due campioni estratti da popolazioni normali differenti conµ
1,σ
12 i parametri della prima eµ
2, σ
22 i parametri della seconda.Ø
X := 1
n X
1i=1
∑
n eY := m 1 Y
j j=1∑
m sono gli stimatori di massima verosomiglianza deiµ
1, µ
2rispettivamente.
Ø
S
12: = 1
n − 1 ( X
i− X )
i=1
∑
n eS
12:= m 1 − 1 ( Y
j− Y )
j=1
∑
m sono gli stimatori diσ
12,σ
22 rispettivamente.Ø Definiamo
N := n + m − 2
eS
p:= ( n − 1 ) S
21+ m − 1 ( ) S
22N
che viene definita varianza campionaria “pooled”.Ø Con
σ
1,σ
2 note: l’intervallo bilaterale èX − Y ± z
α2
σ
12n + σ
22m
mentre l’intervallo sinistro è−∞, X − Y + z
ασ
12n + σ
22m
⎛
⎝ ⎜ ⎞
⎠ ⎟
.Ø Con
σ
1,σ
2 NON note MA uguali: l’intervallo bilaterale èX − Y ± t
α2, N
⋅ S
p1 n + 1
m
mentre l’intervallo sinistro è−∞, X − Y + t
α,N⋅ S
p1
n + 1 m
⎛
⎝⎜
⎞
⎠⎟
.µ Intervalli di confidenza approssimati per la media di una distribuzione di Bernoulli:
Ø Poniamo
p := X
n
stimatore del parametro di Bernoullip
conX =
numero di valori1
nel campione bernoulliano.Ø L’intervallo di confidenza bilaterale è p ± zα
2
1− pp
( )
n , quello sinistro
−∞, p + z
α 1− p p ( )
n
⎛
⎝
⎜ ⎜
⎞
⎠
⎟ ⎟
, quello destro èp − z
α 1− p p ( )
n , ∞
⎛
⎝
⎜ ⎜
⎞
⎠
⎟ ⎟
.
µ Verifica delle ipotesi:
Ø Un’ipotesi statistica è normalmente un’affermazione su uno o più parametri della distribuzione di popolazione.
Ø Facendo un test (o verifica) di una data ipotesi
H
(che solitamente viene chiamata ipotesi nulla)§ Errore di seconda specie: quando accettiamo
H
0 quando in realtà è falsa.Ø Verifica di un ipotesi sulla media di una popolazione normale:
§ Con varianza nota:
• Vogliamo verificare l’ipotesi nulla
H
0: µ = µ
0. SiccomeX := 1 n X
ii=1
∑
n è lo stimatore puntuale naturale perµ
, sembra ragionevole accettareH
0 quandoX
non è troppo lontano daµ
0.•
α
= P errore di I specie( )
= Pµ0(
X−µ
0 > c)
è la probabilità di commettere un errore di prima specie, ossia rifiutiamo l’ipotesi (µ = µ
0) mentre in realtà è vera.• Con opportuni passaggi otteniamo che si rifiuta
H
0 seX − µ
0σ n > z
α2
, si accetta
H
0 seX − µ
0σ n ≤ z
α2
.
• Spesso non si fissa in anticipo il livello di significatività, ma si osservano i dati e si ricava il p-‐
dei-‐dati (p-‐value) corrispondente che fa da spartiacque tra l’accettare e il rifiutare. Per prima cosa si calcola
v = X − µ
0σ n
, poi il valore ottenuto lo scriviamoP Z
(
> v)
= P z > v( )
+ P z < −v( )
= 1− Φ v( )
+ 1− Φ v( )
= 2 1− Φ v( ( ) )
. Se esso risulta molto maggiore di quanto siamo disposti ad accettare come probabilità di un errore di prima specie, accettiamo l’ipotesi; se invece la probabilità è molto piccola possiamo rifiutare il dato senza aver paura di aver commesso un errore di prima specie.• Ora discutiamo la possibilità degli errori di seconda specie introducendo una nuova funzione
β
chiamata curva OC (curva operativa caratteristica, operating characteristic curve) che rappresenta appunto la probabilità di accettareH
0 quando la media reale èµ
:β µ ( ) = P
µµ
0− µ σ n − z
α2
≤ Z ≤ µ
0− µ σ n + z
α2
⎛
⎝⎜
⎞
⎠⎟ = Φ µ
0− µ σ n + z
α2
⎛
⎝⎜
⎞
⎠⎟ − Φ µ
0− µ σ n − z
α2
⎛
⎝⎜
⎞
⎠⎟
.• Supponiamo di cercare il valore di
n
con il quale la probabilità di accettareH
0: µ = µ
0 quando il valore èµ
1, sia approssimativamente pari ad un valoreβ
fissato, la formula è:n≈ zα
2
+ zβ
⎛
⎝⎜
⎞
⎠⎟
σ µ
1−µ
0⎡
⎣
⎢⎢
⎢⎢
⎢
⎤
⎦
⎥⎥
⎥⎥
⎥
2
.