• Non ci sono risultati.

2 Campionamento casuale semplice

N/A
N/A
Protected

Academic year: 2021

Condividi "2 Campionamento casuale semplice"

Copied!
7
0
0

Testo completo

(1)

Stima della media

di una variabile X definita su una popolazione finita

1 Notazioni: popolazione, campione e strati

Popolazione.

• N numerosit`a popolazione;

• Ω = {ω1, . . . , ωN} popolazione

• X variabile aleatoria definita sulla popolazione X : Ω → R

• x1, x2, . . . , xN valori assunti da X nella popolazione: ωi 7→ xi

Parametri di interesse nella popolazione.

• µ media di X nella popolazione; µ = N1 PN i=1xi;

• p proporzione di successi (e media) di X nella popolazione, se X ∼ Bernoulli(p);

p = N1 PN i=1xi;

• τ totale di X nella popolazione; τ = N µ =PN i=1xi;

• σ2 varianza di X nella popolazione; σ2 = N1 PN

i=1(xi− µ)2. Campione.

• n numerosit`a campione;

• X1, X2, . . . , Xn variabili aleatorie campionarie;

• x1, x2, . . . , xn valori assunti da X nel campione.

Campione stratificato.

• L numero degli strati;

• N1, . . . , Nh, . . . , NL numerosit`a degli strati della popolazione;

• n1, . . . , nh, . . . , nL numerosit`a degli strati del campione;

• µ1, . . . , µh, . . . , µL media di X negli strati della popolazione;

• σ21, . . . , σ2h, . . . , σL2 varianza di X negli strati della popolazione.

(2)

2 Campionamento casuale semplice

CON ripetizione X1, X2, . . . , Xn hanno la stessa legge di X e sono indipendenti

SENZA ripetizione X1, X2, . . . , Xn hanno la stessa legge di X MA non sono indipendenti

2.1 Esempio noto: schema dell’urna

Sia X ∼ Bernoulli kn (esempio: k palline bianche e n − k nere).

Anche nel caso SENZA ripetizione X1, X2, . . . , Xn hanno la stessa legge di X. Infatti:

P(X2 = 1) = P (X2 = 1, X1 = 1) + P (X2 = 1, X1 = 0) =

= P (X1 = 1)P (X2 = 1|X1 = 1) + P (X1 = 0)P (X2 = 1|X1 = 0) =

= k n

k − 1

n − 1 + n − k n

k

n − 1 = k n

La legge della somma delle X1, X2, . . . , Xn `e invece diversa nei due casi:

CON ripetizione legge binomiale

B =P Xi ∼ Binom(n, p) E(B) = np e V(B) = np(1 − p) SENZA ripetizione legge ipergeometrica

I =P Xi ∼ Ipergeo(N, n, p) E(I) = np e V(I) = np(1 − p) N −nN −1

2.2 Caso generale. Stimatore di µ

X = 1 n

n

X

i=1

Xi stimatore di µ N X = N n

n

X

i=1

Xi stimatore di τ

S2 = 1 n − 1

n

X

i=1

(Xi− X)2 stimatore di σ2 CON ripetizione Numero campioni possibili: Nn

• E(X) = µ, cio`e X `e stimatore non distorto di µ

• V(X) = σn2 varianza dello stimatore della media.

La sua stima si ottiene sostituendo σ2 con S2.

SENZA ripetizione Numero campioni possibili: Nn

• E(X) = µ, cio`e X `e stimatore non distorto di µ

• V(X) = σn2 N −nN −1 varianza dello stimatore della media. La dimostrazione `e riportata nel seguente paragrafo.

La sua stima si ottiene sostituendo σ2 con S2.

NOTA: se la numerosit`a della popolazione `e molto pi`u grande di quella del campione il coefficiente N −nN −1 `e circa 1 e quindi pu`o essere trascurato

Gli intervalli di confidenza approssimati (per grandi campioni) sono dati da



Θ − zα/2 std(Θ), Θ + zˆ α/2 std(Θ)ˆ 

con Θ stimatore del parametro e ˆstd(Θ) stimatore della standard deviation di Θ.

(3)

2.3 Campionamento casuale semplice senza ripetizione: E X  e V X

Premesse:

1. Il numero di campioni di numerosit`a n estraibili da una popolazione di numerosit`a N `e

N

n. L’unit`a i-esima della popolazione compare in N −1n−1 campioni (infatti fissata l’unit`a che deve stare nel campione, le altre n − 1 unit`a del campione devono essere scelte fra le rimanenti N − 1 unit`a della popolazione). Le unit`a i-esima e j-esima della popolazione compaiono in N −2n−2 campioni. Quindi le probabilit`a di inclusione in un campione di una generica unit`a e di due generiche unit`a sono rispettivamente:

πi =

N −1 n−1



N n

 = n

N πij =

N −2 n−2



N n

 = n(n − 1) N (N − 1) . 2. Si ha:

E

n

X

i=1

Xi

!

=

N

X

i=1

xiπi = n N

N

X

i=1

xi = nµ (1)

E

n

X

i=1 n

X

j=1,j6=i

XiXj

!

=

N

X

i=1 N

X

j=1,j6=i

xixjπij = n(n − 1) N (N − 1)

N

X

i=1 N

X

j=1,j6=i

xixj (2)

3. Inoltre, in generale:

X

i

ai

!2

=X

i

a2i + 2 X

i,j(j6=i)

aiaj . (3)

Il valore atteso e varianza di X, stimatore della media µ di una variabile X con distribuzione qualunque nella popolazione sono:

E X = µ V X = σ2 n

N − n N − 1 . Infatti:

• Usando (1) si ha: E X = 1nE (Pn

i=1Xi) = µ

• La varianza dello stimatore X di µ `e:

V X

= V 1

n

n

X

i=1

Xi

!

=

n

X

i=1

V

 Xi n

 + 2

n

X

i=1 n

X

j=1,j6=i

Cov Xi n ,Xj

n



=

= σ2 n + 2

n

X

i=1 n

X

j=1,j6=i

E (Xi− µ)(Xj − µ) n2



=

[usando (2)] = σ2

n + 2 n(n − 1) N (N − 1)

N

X

i=1 N

X

j=1,j6=i

(xi− µ)(xj− µ)

n2 =

[usando (3)] = σ2

n + n − 1 nN (N − 1)

N

X

i=1

(xi− µ)

!2

N

X

i=1

(xi− µ)2

=

= σ2

n − (n − 1)

n(N − 1) σ2 = σ2 n



1 − n − 1 N − 1



=

= σ2 n

N − n N − 1 .

(4)

3 Campionamento stratificato con estrazione di campio- ni casuali semplici senza ripetizione in ogni strato

Per ogni strato, h = 1, . . . , L:

Xh = 1 nh

nh

X

i=1

Xi(h) stimatore di µh Sh2 = 1 nh− 1

n

X

i=1



Xi(h)− Xh2

stimatore di σh2

Xstr =

L

X

h=1

Nh N Xh Attenzione: non `e la media pesata campionaria.

• E Xstr = µ, cio`e X `e stimatore non distorto di µ

• V Xstr varianza dello stimatore della media, se i campioni sono estratti in modo in- dipendente nei vari strati:

V Xstr =

L

X

h=1

 Nh N

2

V Xh =

L

X

h=1

Nh2 N2

Nh− nh

nh(Nh− 1) σh2 '

L

X

h=1

Nh (Nh − nh) N2 nh σh2 la sua stima si ottiene sostituendo σh2 con Sh2.

Se NNh−nh

h−1 `e trascurabile in tutti gli strati : V Xstr = 1

N2

L

X

h=1

Nh2 nh σ2h .

3.1 Allocazione proporzionale: confronto fra X e X

str

Se la numerosit`a degli strati nel campione `e proporzionale alla numerosit`a degli strati nella popolazione, nh = N NNh, la stima di µ `e uguale a quella che si avrebbe con un campionamento non stratificato ma la varianza dello stimatore Xstr `e minore della varianza dello stimatore X.

Infatti:

xstr =

L

X

h=1

nh n

1 nh

nh

X

i=1

x(h)i = 1 n

n

X

i=1

xi = x . Si ha:

V X = N − n N − 1

1

n σ2 V Xstr = N − n n N2

L

X

h=1

Nh σ2h .

La relazione fra le varianze dei due stimatori si ottiene decomponendo σ2, varianza di X, in varianza interna e varianza fra strati:

σ2 =

L

X

h=1

Nh N σ2h+

L

X

h=1

Nh

N (µh− µ)2 . Quindi

V X = N − n N − 1

1

n σ2 = N − n N − 1

1 n

L

X

h=1

Nh

N σ2h+N − n N − 1

1 n

L

X

h=1

Nh

N (µh− µ)2 dove il primo addendo `e (a meno di un fattore N −1N ) V Xstr

e il secondo `e una quantit`a positiva.

(5)

3.2 Allocazione ottima di Neyman

Si vuole determinare la numerosit`a degli strati del campione n1, . . . , nh, . . . , nL in modo che la varianza dello stimatore Xstr sia minima, con il vincolo PL

h=1nh = n. Si ha:

V Xstr =

L

X

h=1

Nh (Nh− nh) N2 nh σh2 =

L

X

h=1

Nh2 N2

σh2 nh

L

X

h=1

Nh N2σh2 . Minimizzare la varianza di Xstr equivale dunque a minimizzare la quantit`a

L

X

h=1

Nh2 σ2h

nh . (4)

Utilizziamo il metodo dei moltiplicatori di Lagrange. I punti stazionari di (4) sono gli stessi della lagrangiana Λ:

Λ =

L

X

h=1

Nh2σh2 nh + λ

L

X

h=1

nh− n

! . Dobbiamo risolvere il sistema:





















∂Λ

∂n1 = 0 ...

∂Λ

∂nh = 0 con ∂n∂Λ

h = − Nnh22σh2 h

+ λ ...

∂Λ

∂nL = 0 PL

h=1nh = n da cui:

Nh2σh2 = λnh2 e nh = Nhσh

√λ . Sommando sugli nh e utilizzando il vincolo si ottiene: √

λ = P Nnhσh e quindi:

nh = Nhσh P

kNkσk n .

Questo `e un punto di minimo, infatti la matrice Hessiana di Λ `e semidefinita positiva in quanto

`e diagonale e i valori sulla diagonale sono positivi: 2 Nh2σh2 / n3h.

Osservazione: la numerosit`a dello strato nel campione `e quindi proporzionale sia alla nu- merosit`a dello strato nella popolazione che alla varianza della variabile nello strato: maggiore variabilit`a richiede maggiore informazione campionaria.

Questo tipo di allocazione prevede la conoscenza delle varianze della variabile negli strati σh, per h = 1, . . . , L, oppure una loro stima ottenuta in precedenti indagini.

Con l’allocazione ottima di Neyman la varianza di Xstr `e:

V Xstr = 1 N2

 1 n

L

X

h=1

Nh σh

!2

L

X

h=1

Nh σ2h

 .

(6)

4 Casi particolari

4.1 Stima della proporzione di successi

Stima di p se X ∼ Bernoulli(p) (caso particolare di stima della media)

• Campionamento casuale semplice con ripetizione – E( ˆP ) = p

– V( ˆP ) = p(1−p)n

• Campionamento casuale semplice senza ripetizione – E( ˆP ) = p

– V( ˆP ) = p(1−p)n N −nN −1

• Campionamento stratificato con estrazione casuale semplice senza ripetizione negli strati Pˆstr = Xstr =

L

X

h=1

Nh N

h

– E( ˆPstr) = p, cio`e ˆPstr `e stimatore non distorto di p – V ˆPstr

= N12

PL

h=1Nh (Nh− nh) ph(1−pn h)

h

– Se NNh−nh

h−1 `e trascurabile in tutti gli strati: V ˆPstr

= N12

PL

h=1Nh2 ph(1−pn h)

h

– Se nh = n NNh, cio`e se `e usata l’allocazione proporzionale:

V ˆPstr

= N −nN2n

PL

h=1Nh ph(1 − ph) – Se nh = n PLNh σh

k=1Nk σk, cio`e se `e usata l’allocazione ottima di Neyman:

V Xstr = N12



1 n

PL

h=1Nh ph(1 − ph)

2

−PL

h=1Nh p2h(1 − ph)2

 .

4.2 Stima del totale τ

• Campionamento casuale semplice con ripetizione – E(N X) = τ , cio`e N X

– V(N X) = N2nσ2

• Campionamento casuale semplice senza ripetizione – E(N X) = τ

– V(N X) = Nn2 N −nN −1 σ2 ' N (N −n)n σ2

• Campionamento stratificato con estrazione casuale semplice senza ripetizione negli strati

N Xstr =

L

X

h=1

Nh Xh

(7)

– E(N Xstr) = τ

– V N Xstr = N2 V Xstr = Ph=1L Nh (Nnh−nh)

h σ2h – Se NNh−nh

h−1 `e trascurabile in tutti gli strati: V N Xstr = PLh=1Nnh2

h σ2h – Se nh = n NNh, cio`e se `e usata l’allocazione proporzionale:

V N Xstr = N −nn PL

h=1Nh σh2 – Se nh = n PLNh σh

k=1Nk σk, cio`e se `e usata l’allocazione ottima di Neyman:

V N Xstr = n1  PL

h=1Nh σh2

−PL

h=1Nh σh2 .

Riferimenti

Documenti correlati

Questa “contraddizione” colpisce in Eschilo anche a livello visivo, dal momento che alla fine delle Eumenidi, dopo che le Erinni si sono impegnate a dimostrare benevolenza

Bisogna però tener conto della sottostima presente nella stratificazione per abitanti: in questo caso, comunque, la differenza tra le due stime dello scarto è talmente elevata che

In the C24:0-treated cells, spectral analysis through confocal microscopy proved the existence of FRET when actin and tubulin are stained with tubulin tracker Oregon Green: donor

1 Centre for Ecology, Evolution and Conservation, School of Biological Science, University of East Anglia, Norwich, Norfolk NR4 7TJ, UK; 2 RSPB, The Lodge, Sandy, Bedfordshire SG19

Review: Universal school-based prevention for illicit drug use Comparison: 1 Social competence versus usual curricula Outcome: 11 Drug knowledge < 12 months. Study or subgroup

The ability of the different components of the oxysterol mixture to induce activation of the colonic NADPH oxidase NOX1 was investigated in CaCo-2 cells treated for 1 h with the 60 m

First of all, the development strategies of most developing countries have followed the Lewis model and, secondly, after the debt crisis of the 1980s the structural adjustment