Stima della media
di una variabile X definita su una popolazione finita
1 Notazioni: popolazione, campione e strati
Popolazione.
• N numerosit`a popolazione;
• Ω = {ω1, . . . , ωN} popolazione
• X variabile aleatoria definita sulla popolazione X : Ω → R
• x1, x2, . . . , xN valori assunti da X nella popolazione: ωi 7→ xi
Parametri di interesse nella popolazione.
• µ media di X nella popolazione; µ = N1 PN i=1xi;
• p proporzione di successi (e media) di X nella popolazione, se X ∼ Bernoulli(p);
p = N1 PN i=1xi;
• τ totale di X nella popolazione; τ = N µ =PN i=1xi;
• σ2 varianza di X nella popolazione; σ2 = N1 PN
i=1(xi− µ)2. Campione.
• n numerosit`a campione;
• X1, X2, . . . , Xn variabili aleatorie campionarie;
• x1, x2, . . . , xn valori assunti da X nel campione.
Campione stratificato.
• L numero degli strati;
• N1, . . . , Nh, . . . , NL numerosit`a degli strati della popolazione;
• n1, . . . , nh, . . . , nL numerosit`a degli strati del campione;
• µ1, . . . , µh, . . . , µL media di X negli strati della popolazione;
• σ21, . . . , σ2h, . . . , σL2 varianza di X negli strati della popolazione.
2 Campionamento casuale semplice
CON ripetizione X1, X2, . . . , Xn hanno la stessa legge di X e sono indipendenti
SENZA ripetizione X1, X2, . . . , Xn hanno la stessa legge di X MA non sono indipendenti
2.1 Esempio noto: schema dell’urna
Sia X ∼ Bernoulli kn (esempio: k palline bianche e n − k nere).
Anche nel caso SENZA ripetizione X1, X2, . . . , Xn hanno la stessa legge di X. Infatti:
P(X2 = 1) = P (X2 = 1, X1 = 1) + P (X2 = 1, X1 = 0) =
= P (X1 = 1)P (X2 = 1|X1 = 1) + P (X1 = 0)P (X2 = 1|X1 = 0) =
= k n
k − 1
n − 1 + n − k n
k
n − 1 = k n
La legge della somma delle X1, X2, . . . , Xn `e invece diversa nei due casi:
CON ripetizione legge binomiale
B =P Xi ∼ Binom(n, p) E(B) = np e V(B) = np(1 − p) SENZA ripetizione legge ipergeometrica
I =P Xi ∼ Ipergeo(N, n, p) E(I) = np e V(I) = np(1 − p) N −nN −1
2.2 Caso generale. Stimatore di µ
X = 1 n
n
X
i=1
Xi stimatore di µ N X = N n
n
X
i=1
Xi stimatore di τ
S2 = 1 n − 1
n
X
i=1
(Xi− X)2 stimatore di σ2 CON ripetizione Numero campioni possibili: Nn
• E(X) = µ, cio`e X `e stimatore non distorto di µ
• V(X) = σn2 varianza dello stimatore della media.
La sua stima si ottiene sostituendo σ2 con S2.
SENZA ripetizione Numero campioni possibili: Nn
• E(X) = µ, cio`e X `e stimatore non distorto di µ
• V(X) = σn2 N −nN −1 varianza dello stimatore della media. La dimostrazione `e riportata nel seguente paragrafo.
La sua stima si ottiene sostituendo σ2 con S2.
NOTA: se la numerosit`a della popolazione `e molto pi`u grande di quella del campione il coefficiente N −nN −1 `e circa 1 e quindi pu`o essere trascurato
Gli intervalli di confidenza approssimati (per grandi campioni) sono dati da
Θ − zα/2 std(Θ), Θ + zˆ α/2 std(Θ)ˆ
con Θ stimatore del parametro e ˆstd(Θ) stimatore della standard deviation di Θ.
2.3 Campionamento casuale semplice senza ripetizione: E X e V X
Premesse:
1. Il numero di campioni di numerosit`a n estraibili da una popolazione di numerosit`a N `e
N
n. L’unit`a i-esima della popolazione compare in N −1n−1 campioni (infatti fissata l’unit`a che deve stare nel campione, le altre n − 1 unit`a del campione devono essere scelte fra le rimanenti N − 1 unit`a della popolazione). Le unit`a i-esima e j-esima della popolazione compaiono in N −2n−2 campioni. Quindi le probabilit`a di inclusione in un campione di una generica unit`a e di due generiche unit`a sono rispettivamente:
πi =
N −1 n−1
N n
= n
N πij =
N −2 n−2
N n
= n(n − 1) N (N − 1) . 2. Si ha:
E
n
X
i=1
Xi
!
=
N
X
i=1
xiπi = n N
N
X
i=1
xi = nµ (1)
E
n
X
i=1 n
X
j=1,j6=i
XiXj
!
=
N
X
i=1 N
X
j=1,j6=i
xixjπij = n(n − 1) N (N − 1)
N
X
i=1 N
X
j=1,j6=i
xixj (2)
3. Inoltre, in generale:
X
i
ai
!2
=X
i
a2i + 2 X
i,j(j6=i)
aiaj . (3)
Il valore atteso e varianza di X, stimatore della media µ di una variabile X con distribuzione qualunque nella popolazione sono:
E X = µ V X = σ2 n
N − n N − 1 . Infatti:
• Usando (1) si ha: E X = 1nE (Pn
i=1Xi) = µ
• La varianza dello stimatore X di µ `e:
V X
= V 1
n
n
X
i=1
Xi
!
=
n
X
i=1
V
Xi n
+ 2
n
X
i=1 n
X
j=1,j6=i
Cov Xi n ,Xj
n
=
= σ2 n + 2
n
X
i=1 n
X
j=1,j6=i
E (Xi− µ)(Xj − µ) n2
=
[usando (2)] = σ2
n + 2 n(n − 1) N (N − 1)
N
X
i=1 N
X
j=1,j6=i
(xi− µ)(xj− µ)
n2 =
[usando (3)] = σ2
n + n − 1 nN (N − 1)
N
X
i=1
(xi− µ)
!2
−
N
X
i=1
(xi− µ)2
=
= σ2
n − (n − 1)
n(N − 1) σ2 = σ2 n
1 − n − 1 N − 1
=
= σ2 n
N − n N − 1 .
3 Campionamento stratificato con estrazione di campio- ni casuali semplici senza ripetizione in ogni strato
Per ogni strato, h = 1, . . . , L:
Xh = 1 nh
nh
X
i=1
Xi(h) stimatore di µh Sh2 = 1 nh− 1
n
X
i=1
Xi(h)− Xh2
stimatore di σh2
Xstr =
L
X
h=1
Nh N Xh Attenzione: non `e la media pesata campionaria.
• E Xstr = µ, cio`e X `e stimatore non distorto di µ
• V Xstr varianza dello stimatore della media, se i campioni sono estratti in modo in- dipendente nei vari strati:
V Xstr =
L
X
h=1
Nh N
2
V Xh =
L
X
h=1
Nh2 N2
Nh− nh
nh(Nh− 1) σh2 '
L
X
h=1
Nh (Nh − nh) N2 nh σh2 la sua stima si ottiene sostituendo σh2 con Sh2.
Se NNh−nh
h−1 `e trascurabile in tutti gli strati : V Xstr = 1
N2
L
X
h=1
Nh2 nh σ2h .
3.1 Allocazione proporzionale: confronto fra X e X
strSe la numerosit`a degli strati nel campione `e proporzionale alla numerosit`a degli strati nella popolazione, nh = N NNh, la stima di µ `e uguale a quella che si avrebbe con un campionamento non stratificato ma la varianza dello stimatore Xstr `e minore della varianza dello stimatore X.
Infatti:
xstr =
L
X
h=1
nh n
1 nh
nh
X
i=1
x(h)i = 1 n
n
X
i=1
xi = x . Si ha:
V X = N − n N − 1
1
n σ2 V Xstr = N − n n N2
L
X
h=1
Nh σ2h .
La relazione fra le varianze dei due stimatori si ottiene decomponendo σ2, varianza di X, in varianza interna e varianza fra strati:
σ2 =
L
X
h=1
Nh N σ2h+
L
X
h=1
Nh
N (µh− µ)2 . Quindi
V X = N − n N − 1
1
n σ2 = N − n N − 1
1 n
L
X
h=1
Nh
N σ2h+N − n N − 1
1 n
L
X
h=1
Nh
N (µh− µ)2 dove il primo addendo `e (a meno di un fattore N −1N ) V Xstr
e il secondo `e una quantit`a positiva.
3.2 Allocazione ottima di Neyman
Si vuole determinare la numerosit`a degli strati del campione n1, . . . , nh, . . . , nL in modo che la varianza dello stimatore Xstr sia minima, con il vincolo PL
h=1nh = n. Si ha:
V Xstr =
L
X
h=1
Nh (Nh− nh) N2 nh σh2 =
L
X
h=1
Nh2 N2
σh2 nh −
L
X
h=1
Nh N2σh2 . Minimizzare la varianza di Xstr equivale dunque a minimizzare la quantit`a
L
X
h=1
Nh2 σ2h
nh . (4)
Utilizziamo il metodo dei moltiplicatori di Lagrange. I punti stazionari di (4) sono gli stessi della lagrangiana Λ:
Λ =
L
X
h=1
Nh2σh2 nh + λ
L
X
h=1
nh− n
! . Dobbiamo risolvere il sistema:
∂Λ
∂n1 = 0 ...
∂Λ
∂nh = 0 con ∂n∂Λ
h = − Nnh22σh2 h
+ λ ...
∂Λ
∂nL = 0 PL
h=1nh = n da cui:
Nh2σh2 = λnh2 e nh = Nhσh
√λ . Sommando sugli nh e utilizzando il vincolo si ottiene: √
λ = P Nnhσh e quindi:
nh = Nhσh P
kNkσk n .
Questo `e un punto di minimo, infatti la matrice Hessiana di Λ `e semidefinita positiva in quanto
`e diagonale e i valori sulla diagonale sono positivi: 2 Nh2σh2 / n3h.
Osservazione: la numerosit`a dello strato nel campione `e quindi proporzionale sia alla nu- merosit`a dello strato nella popolazione che alla varianza della variabile nello strato: maggiore variabilit`a richiede maggiore informazione campionaria.
Questo tipo di allocazione prevede la conoscenza delle varianze della variabile negli strati σh, per h = 1, . . . , L, oppure una loro stima ottenuta in precedenti indagini.
Con l’allocazione ottima di Neyman la varianza di Xstr `e:
V Xstr = 1 N2
1 n
L
X
h=1
Nh σh
!2
−
L
X
h=1
Nh σ2h
.
4 Casi particolari
4.1 Stima della proporzione di successi
Stima di p se X ∼ Bernoulli(p) (caso particolare di stima della media)
• Campionamento casuale semplice con ripetizione – E( ˆP ) = p
– V( ˆP ) = p(1−p)n
• Campionamento casuale semplice senza ripetizione – E( ˆP ) = p
– V( ˆP ) = p(1−p)n N −nN −1
• Campionamento stratificato con estrazione casuale semplice senza ripetizione negli strati Pˆstr = Xstr =
L
X
h=1
Nh N
Pˆh
– E( ˆPstr) = p, cio`e ˆPstr `e stimatore non distorto di p – V ˆPstr
= N12
PL
h=1Nh (Nh− nh) ph(1−pn h)
h
– Se NNh−nh
h−1 `e trascurabile in tutti gli strati: V ˆPstr
= N12
PL
h=1Nh2 ph(1−pn h)
h
– Se nh = n NNh, cio`e se `e usata l’allocazione proporzionale:
V ˆPstr
= N −nN2n
PL
h=1Nh ph(1 − ph) – Se nh = n PLNh σh
k=1Nk σk, cio`e se `e usata l’allocazione ottima di Neyman:
V Xstr = N12
1 n
PL
h=1Nh ph(1 − ph)
2
−PL
h=1Nh p2h(1 − ph)2
.
4.2 Stima del totale τ
• Campionamento casuale semplice con ripetizione – E(N X) = τ , cio`e N X
– V(N X) = N2nσ2
• Campionamento casuale semplice senza ripetizione – E(N X) = τ
– V(N X) = Nn2 N −nN −1 σ2 ' N (N −n)n σ2
• Campionamento stratificato con estrazione casuale semplice senza ripetizione negli strati
N Xstr =
L
X
h=1
Nh Xh
– E(N Xstr) = τ
– V N Xstr = N2 V Xstr = Ph=1L Nh (Nnh−nh)
h σ2h – Se NNh−nh
h−1 `e trascurabile in tutti gli strati: V N Xstr = PLh=1Nnh2
h σ2h – Se nh = n NNh, cio`e se `e usata l’allocazione proporzionale:
V N Xstr = N −nn PL
h=1Nh σh2 – Se nh = n PLNh σh
k=1Nk σk, cio`e se `e usata l’allocazione ottima di Neyman:
V N Xstr = n1 PL
h=1Nh σh2
−PL
h=1Nh σh2 .