STIMA DELLA VARIANZA CAMPIONARIA
Abbiamo visto che una stima puntuale corretta per il valore atteso µ delle variabili aleatorie X
i` e ¯ x
n= (x
1+ .. + x
n)/n.
Una stima puntuale della varianza σ
2delle variabili aleatorie X
i` e la varianza campionaria s
n2s
2n= (x
1− ¯ x)
2+ (x
2− ¯ x)
2+ ...(x
n− ¯ x)
2n − 1
Mostriamo che anche questa stima puntuale ` e corretta ossia che il valore medio dello stimatore
S
2n= (X
1− ¯ X)
2+ (X
2− ¯ X)
2+ ...(X
n− ¯ X)
2n − 1
` e uguale alla varianza σ
2delle variabili aleatorie X
i.
Si consideri un campione di numerosit` a n da una popolazione: n variabili aleatorie X
1, .., X
n, con stessa distribuzione di cui non si conosce la varianza σ
2. Otteniamo n numeri x
1, ..x
n(x
i` e il valore osservato della variabile aleatoria X
i).
Sembra naturale prendere come stima di σ
2il numero a
n= (x
1− µ)
2+ (x
2− µ)
2+ ...(x
n− µ)
2n
In effetti a
n` e una stima corretta se il valore atteso µ delle variabili X
i` e noto. Sia a
nuna realizzazione della variabile aleatoria A
n(lo stimatore: stessa definizione di a
nma con le realizzazioni x
isostituite dalle corrispondenti variabili aleatorie X
i).
Vericare che E(A
n) = σ
2` e semplice, infatti dalla equazione qui sopra, tenendo presente che le variabili X
isono identicamente distribuite, si ha che
E(A
n) = E[(X
1− µ)
2] = σ
2Tuttavia molto spesso anche il valore atteso ` e ignoto e quindi sembra ragionevole sostituire µ con la sua stima che ` e la media campionaria ¯ x
n.
b
n= (x
1− ¯ x
n)
2+ (x
2− ¯ x
n)
2+ ...(x
n− ¯ x
n)
2n
In effetti b
nNON ` e una stima corretta. Vericare che
E(B
n) 6= σ
2` e semplice, infatti dalla equazione qui sopra, tenendo presente che le variabili X
isono identicamente distribuite, si ha
E(B
n) = E[(X
1− ¯ X
n)
2] = E
"
X
1− X
1+ X
2+ ...X
nn
2#
Tenendo presente che X
ie X
jsono indipendenti se i 6= j si ha E(X
iX
j) = E(X
i)E(X
j) = µ
2per i 6= j (si noti che la prima uguaglianza, che non dimostriamo, ` e una diretta conseguenza dell’indipendenza). Si ha inoltre E[X
i2] = µ
2+ σ
2per ogni i , usando questi risultati si ottiene
E(B
n) = n − 1 n σ
2e quindi B
nnon ` e uno stimatore corretto. Se invece di dividere per n si divide per n − 1 si ottiene uno stimatore ` e corretto. In definitiva uno stimatore puntuale corretto della varianza σ
2` e
S
2n= (X
1− ¯ X)
2+ (X
2− ¯ X)
2+ ...(X
n− ¯ X)
2n − 1
ossia ` e la varianza campionaria perch` e E(S
2n) =
n−1nE(B
n) = σ
2.
DISTRIBUZIONE DELLA VARIANZA CAMPIONARIA Abbiamo visto S
n2` e uno stimatore corretto di σ
2. Si pu` o inoltre dimostrare (sostanzialmente un applicazione della legge dei grandi numeri) che per ogni a positivo, P(|S
n2− σ
2| > a) → 0 quando n → ∞. Questo significa che S
n2→ σ
2per grandi n.
Se la distribuzione della popolazione ` e normale (se le X
isono gaussiane) si pu` o dimostrare un risultato pi` u preciso col seguente teorema
Teorema La variabile aleatoria (n − 1) S
2nσ
2= 1 σ
2n
X
i=1
(x
i− ¯ x)
2ha una distribuzione del chi-quadrato a n − 1 gradi di libert` a .
Non descriveremo qui questa distribuzione (in realt` a una famiglia
di distribuzioni di parametro n − 1).
RIASSUMENDO
Per un campione di numerosit` a n estratto da una popolazione con distribuzione di media µ e varianza σ si ha che
I
E(S
n2) = σ
2per ogni n,
I
S
n2→ σ
2quando n → ∞ (non realizzabile in pratica),
I
(n − 1)
Sσn22ha una distribuzione del chi-quadrato a n − 1 gradi di libert` a se le X
isono gaussiane.
I
(n − 1)
Sσn22ha approssimativamente una distribuzione del chi-quadrato a n − 1 gradi di libert` a se le X
inon sono gaussiane.
Si noti che la varianza campionaria ` e una stima della varianza σ
2.
Dato che S
n→ σ
2per n → ∞, la sua precisione (efficienza)
aumenta al crescere di n.
DISTRIBUZIONE DELLE MEDIA CAMPIONARIA (VARIANZA INCOGNITA) .
I risultati finora ottenuti ci permettono quindi di dire quindi che ¯ X
nha media µ e varianza σ/ √
n. Inoltre per n sufficientemente grandi, la variabile Z
n= ( ¯ X
n− µ)/(σ/ √
n) ` e approssimativamnte una normale standard. Abbiamo infine visto che per n grandi la variabile aleatoria S
ncoincide colla varianza σ.
Se non si conosce la varianza σ ha quindi senso rimpiazzarla con S
ne definire la variabile aleatoria
T
n= X ¯
n− µ S
n/ √
n
Teorema. Se le X
isono normali, T
n` e una variabile aleatoria
avente la distribuzione t di Student con grado di libert` a n-1.
Non descriveremo qui la distribuzione t di Student, Tuttavia notiamo che al crescere di n la variabile aleatoria S
n2coincide sempre pi` u con la varianza σ
2e quindi la variabile T
ncoincide con Z
n(le due variabili sono legate dalla relazione T
n= Z
n· σ/S
n).
Per questo motivo la t di Student ` e sempre meglio approssimata da una normale standard al crescere di n.
Normale standard comparata a una t di Student con n − 1 = 4.
RIASSUMENDO
Se le variabili X
inon sono gaussiane, la variabile T
n` e solo approssimativamente distribuita come una t di Studente di
parametro n − 1. Quindi per un campione di numerosit` a n estratto da una popolazione con distribuzione di media µ e varianza σ si ha che
I
T
nha una distribuzione t di Student a n − 1 gradi di libert` a se le X
isono gaussiane,
I
T
nha approssimativamente una distribuzione t di Student a n − 1 gradi di libert` a se le X
inon sono gaussiane,
I
T
nha approssimativamente una distribuzione normale
standard se n ` e grande (anche per X
inon gaussiane).
Abbiamo visto che la media campionaria ` e uno stimatore corretto del valore atteso µ e la varianza campionaria ` e uno stimatore corretto della varianza σ
2. Lo stimatore di un parametro non ` e unico: per decidere quale tra 2 stimatori corretti sia il migliore si usa il criterio di scegliere quello pi` u efficiente ossia quello per cui la varianza ` e minore.
Esercizio 1. Si consideri un campione x
1, ...,x
ndi variabili aleatorie discrete X
iche assumono i tre valori 0, -1, 1 con probabilit` a
p(−1) = a
2 , p(0) = 1 − a, p(1) = a 2
(1) Per quali a la funzione p ` e una distribuzione di probabilit` a ?
Risposta: deve essere 0 ≤ p(i ) ≤ 1 per ogni i = 0, −1, 1 quindi a
deve essere a ∈ [0, 1]. Inoltre deve essere p(−1) +p(0)+p(1) = 1,
cosa vera per ogni a.
(2) Calcolare valore atteso e varianza.
Risposta:
E(X
1) = (−1) · a
2 + 0 · (1 − a) + 1 · a 2 = 0.
var(X
1) = E(X
12) = (−1)
2· a
2 + 0
2· (1 − a) + 1
2· a 2 = a (3). Si considerino i seguenti 2 stimatori di a:
Γ = 1 n
n
X
i =1
|X
i|, Λ = |X
n|
I due stimatori sono corretti?
Risposta: E(Λ) = E(|X
n|) = | − 1| · p(−1) + 0 · p(0) + |1|p(1) = a
Poich` e le X
i. hanno stessa distribuzione:
E(Γ) = 1 n
n
X
i =1
E(|X
i|) = 1 n
n
X
i =1
a = a
Quindi sia Γ che Λ sono stimatori corretti.
(4) Si calcoli la varianza dei due stimatori.
Risposta: la varianza di Λ ` e var(Λ) = E
(|X
n| − a)
2= E |X
n|
2− a
2E |X
n|
2= (−1)
2p(−1) + 0
2p(0) + 1
2p(1) = a 2 + a
2 = a
quindi var(Λ) = a − a
2= a(1 − a).
Poich` e le variabili aleatorie sono indipendenti e con stessa distribuzione:
var(Γ) = var( 1 n
n
X
i =1
|X
i|) = 1 n
2n
X
i =1
var(|X
i|)
= 1 n
2n
X
i =1
var(|X
n|) = 1 n
2n
X
i =1