• Non ci sono risultati.

Campionamento casuale da popolazione finita (caso ”senza reinserimento”)

N/A
N/A
Protected

Academic year: 2021

Condividi "Campionamento casuale da popolazione finita (caso ”senza reinserimento”)"

Copied!
9
0
0

Testo completo

(1)

Campionamento casuale da popolazione finita (caso ”senza reinserimento”)

Supponiamo di avere una popolazione di N individui e di estrarre un campione di n unit`a (con n < N ). Supponiamo di studiare il carattere X che assume i valori x1, x2, . . . , xN su tutta la popolazione, ossia

X : Ω → R

w1 7→ x1 w2 7→ x2

· · · wk 7→ xk

· · · wN 7→ xN

dove ci possono essere anche valori ripetuti. Assumiamo che P (X = xk) = N1, per ogni k = 1, . . . , N . Inoltre

µ = 1 N

N

X

k=1

xk,

σ2 = 1 N

N

X

k=1

(xk− µ)2.

Ci sono due tipi di campionamento casuale:

• campionamento casuale semplice cio`e con ripetizione, nel quale le estrazioni sono tra loro indipendenti e ogni unit`a pu`o essere estratta pi`u volte; ogni unit`a della popolazione ha la stessa probabilit`a di essere selezionata, pari a 1/N . Questo tipo di campionamento produce gli stessi risultati anche nel caso di popolazione infinita. In questo caso i possibili campioni sono Nn.

• campionamento casuale senza ripetizione, nel quale ogni unit`a ha probabilit`a 1/N di essere selezionata alla prima estrazione, le rimanenti unit`a hanno probabilit`a 1/ (N − 1) alla seconda estrazione (sapendo che cosa `e stato estratto alla prima estrazione) e cos`ı via. In questo caso i possibili campioni sonoNnse non si conta l’ordine, (N −n)!N ! se si conta l’ordine.

Analizziamo nel dettaglio il campionamento casuale senza ripetizione. Siano quindi X1, X2, . . . , Xn variabili aleatorie campionarie corrispondenti alle varie estrazioni cam- pionarie.

Procediamo con alcune osservazioni che serviranno per dimostrare i prossimi risultati.

(2)

Lemma 1 Valgono le seguenti relazioni:

i) E (Pni=1Xi) = nµ;

ii) EPni=1Pnj=1,i6=jXiXj= N (N −1)n(n−1) PNk=1PNh=1,h6=kxhxk. Dimostrazione: Abbiamo che per h 6= k si ha che

P (Xi = xk, Xj = xh) =

( 1

N (N −1) j 6= i

0 j = i

e quindi

P (Xi = xk) =

N

X

h=1,k6=h

P (Xj = xh)P (Xi = xk|Xj = xh)

= 1

N · 1

N − 1· (N − 1) = 1 N.

ossia P (Xi = xk) = P (X = xk) per ogni i = 1, . . . , n. Da questo segue che

E (Xi) =

N

X

k=1

xkP (Xi = xk)

=

N

X

k=1

xkP (X = xk) = E(X).

Inoltre si ha cos`ı che E

n

X

i=1

Xi

!

=

n

X

i=1

E (Xi) =

n

X

i=1

E (X) = nE (X) = n1 N

N

X

k=1

xk = nµ.

Calcolando esplicitamente la quantit`a E (XiXj) =

N

X

k=1 N

X

h=1,h6=k

xhxkP (Xi = xh, Xj = xk)

= 1

N (N − 1)

N

X

k=1 N

X

h=1,h6=k

xhxk,

si ha che

EPni=1Pnj=1,i6=jXiXj = Pni=1Pnj=1,i6=jE (XiXj)

= Pni=1Pnj=1,i6=j N (N −1)1 PNk=1PNh=1,h6=kxkxh

= N (N −1)n(n−1) PNh=1PNk=1,h6=kxhxk.

(1)

Lemma 2 (Piai)2 =Pia2i +Pi,j,j6=iaiaj.

(3)

La dimostrazione di questo lemma `e una semplice applicazione di procedimenti algebrici.

Proposizione 3 Sia X `e una variabile aleatoria; allora X `e stimatore non distorto di µ e la sua varianza `e

V arX= σ2 n

N − n N − 1.

Una sua stima si ottiene sostituendo σ2 con S2; se X `e normale, un intervallo di confidenza per µ `e

X − tαS

s N − n

n (N − 1), X + tαS

s N − n n (N − 1)

!

. Dimostrazione: Lo stimatore X di µ `e non distorto, infatti:

EX = 1 nE

n

X

i=1

Xi

!

= 1

nnµ = µ

Utilizzando i risultati ottenuti nelle osservazioni precedenti, si riesce a calcolare la va- rianza di X nel seguente modo:

V arX = V ar 1 n

n

X

i=1

Xi

!

= 1

n2V ar

n

X

i=1

Xi

!

= 1

n2

n

X

i=1

V ar (Xi) + 1 n2

n

X

i=1 n

X

j=1,j6=i

Cov (Xi, Xj)

= 1

n2

n

X

i=1

V ar (Xi) + 1 n2

n

X

i=1 n

X

j=1,j6=i

(E(XiXj) − E(Xi)E(Xj))

= 1

n2

n

X

i=1

V ar (Xi) + 1 n2

n

X

i=1 n

X

j=1,j6=i

E(XiXj) − n − 1 n µ2 Ora utilizzando (1) e il Lemma 2, abbiamo che

V arX = σ2 n + 1

n

(n − 1) N (N − 1)

N

X

k=1 N

X

h=1,h6=k

xhxk− n − 1 n µ2

= σ2 n + 1

n

(n − 1) N (N − 1)

N

X

k=1

x2k+

N

X

k=1

xk

!2

− n − 1 n µ2

= σ2 n + 1

n

(n − 1) N (N − 1)

−N σ2− N µ2+ N2µ2− n − 1 n µ2

= σ2 n

N − n N − 1.

(4)

L’intervallo di confidenza si ottiene con una costruzione analoga al caso in cui X1, . . . , Xn sono indipendenti. In questo contesto X `e ancora una v.a. normale, perch´e combi- nazione di v.a. normali (anche se non indipendenti).

Per grandi campioni la Proposizione 3 si pu`o estendere anche al caso in cui X non `e normale. Se la numerosit`a della popolazione `e molto pi`u grande di quella del campione (N >> n), il coefficiente N −nN −1 `e circa 1 e quindi pu`o essere trascurato, ottenendo cos`ı lo stesso risultato del caso di campionamento casuale semplice, cio`e con ripetizione. Inoltre se n ' N allora V ar(X) = 0 perch`e il campione coincide con tutta la popolazione, cosa che non pu`o avvenire nel caso di campione con ripetizione, in cui avremo V ar(X) =

σ2

n ' σN2. Inoltre avremo che

V ar(Xsenza rip) < V ar(Xcon rip)

in quanto gli elementi ”anomali” nel campionamento senza ripetizione vengono contati solo una volta.

Vediamo un’applicazione nel caso dello studio della frequenza di una caratteristica nella popolazione, partendo da un campione. Indichiamo in questo caso con ˆxila realizzazione della i−esima variabile campionaria Xi. Avremo che ˆxi sar`a uguale a 1 (si verifica il carattere) o 0 (non si verifica) nell’i−esima estrazione. Avremo che il parametro da stimare sar`a

p =

PN k=1xk

N

e, dato un campione X1, X2, . . . , Xn, lo stimatore da utilizzare sar`a P =

Pn i=1Xi

n .

Proposizione 4 Sia X una v.a. con distribuzione di Bernoulli di parametro p. Val- gono i seguenti fatti:

i) P `e uno stimatore non distorto di p. Si pu`o quindi stimare p con ˆp =

Pn i=1xˆi

n ;

ii) V ar (P ) = p(1−p)n N −nN −1 ; una sua stima si ottiene sostituendo p con ˆp;

iii) Un intervallo di confidenza per p `e

P − zα

sP (1 − P ) n

N − n

N − 1, P + zα

sP (1 − P ) n

N − n N − 1

.

(5)

ESEMPIO 1: In una scatola ci sono 5 palline, di cui tre nere indicate con N1, N2 e N3 e due bianche indicate con B1 e B2. La frequenza relativa di palline nere della scatola `e 35 = 0, 60. Si vuole stimare tale valore attraverso campioni di numerosit`a n = 2. Indichiamo con X1 la variabile aleatoria corrispondente alla prima estrazione e con X2 la variabile aleatoria corrispondente alla seconda estrazione. Si ha che N = 5, n = 2 e p = 0, 6. Si vuole cercare la stima della proporzione, cio`e ˆp. Usiamo come stimatore

P = S

2 = X1 + X2

2 in entrambi i campionamenti.

Costruiamo una tabella con tutti i possibili campioni e i relativi valori della stima della proporzione.

Campionamento con ripetizione. Il numero dei possibili campioni (ordinati) `e Nn = 25. Sia S = X1+ X2 e sia s il rispettivo valore campionario. La tabella con tutti i possibili campioni e i relativi valori della stima della proporzione `e la seguente:

Numero campione Campione v.a. campionarie Proporz. camp. Somma s

1 (N1, N1) (1, 1) 1 2

2 (N1, N2) (1, 1) 1 2

3 (N1, N3) (1, 1) 1 2

4 (N1, B1) (1, 0) 1/2 1

5 (N1, B2) (1, 0) 1/2 1

6 (N2, N1) (1, 1) 1 2

7 (N2, N2) (1, 1) 1 2

8 (N2, N3) (1, 1) 1 2

9 (N2, B1) (1, 0) 1/2 1

10 (N2, B2) (1, 0) 1/2 1

11 (N3, N1) (1, 1) 1 2

12 (N3, N2) (1, 1) 1 2

13 (N3, N3) (1, 1) 1 2

14 (N3, B1) (1, 0) 1/2 1

15 (N3, B2) (1, 0) 1/2 1

16 (B1, N1) (0, 1) 1/2 1

17 (B1, N2) (0, 1) 1/2 1

18 (B1, N3) (0, 1) 1/2 1

19 (B1, B1) (0, 0) 0 0

20 (B1, B2) (0, 0) 0 0

21 (B2, N1) (0, 1) 1/2 1

22 (B2, N2) (0, 1) 1/2 1

23 (B2, N3) (0, 1) 1/2 1

24 (B2, B1) (0, 0) 0 0

25 (B2, B2) (0, 0) 0 0

Campionamento senza ripetizione. In questo caso il numero dei possibili campioni non ordinati `eNn=52= 10 e quelli ordinati `e 5!3! = 20. La tabella con tutti i possibili

(6)

campioni (ordinati) e i relativi valori della stima della proporzione `e la seguente:

Numero campione Campione v.a. campionarie Proporz. camp. Somma s

1 (N1, N2) (1, 1) 1 2

2 (N1, N3) (1, 1) 1 2

3 (N1, B1) (1, 0) 1/2 1

4 (N1, B2) (1, 0) 1/2 1

5 (N2, N1) (1, 1) 1 2

6 (N2, N3) (1, 1) 1 2

7 (N2, B1) (1, 0) 1/2 1

8 (N2, B2) (1, 0) 1/2 1

9 (N3, N1) (1, 1) 1 2

10 (N3, N2) (1, 1) 1 2

11 (N3, B1) (1, 0) 1/2 1

12 (N3, B2) (1, 0) 1/2 1

13 (B1, N1) (0, 1) 1/2 1

14 (B1, N2) (0, 1) 1/2 1

15 (B1, N3) (0, 1) 1/2 1

16 (B1, B2) (0, 0) 0 0

17 (B2, N1) (0, 1) 1/2 1

18 (B2, N2) (0, 1) 1/2 1

19 (B2, N3) (0, 1) 1/2 1

20 (B2, B1) (0, 0) 0 0

Calcoliamo ora la legge di X1, cio`e quante volte X1 vale 1 rispetto al numero dei campioni, e la di X2.

Campionamento con ripetizione. Le leggi di X1 e X2 sono rispettivamente P (X1 = 1) = 1525 = 35 ⇒ P (X1 = 0) = 1 − 35 = 25

P (X2 = 1) = 1525 = 35 ⇒ P (X2 = 0) = 1 − 35 = 25

Campionamento senza ripetizione. Le leggi di X1 e X2 sono sono rispettivamente P (X1 = 1) = 3

5

P (X2 = 1) = P (X2 = 1| X1 = 0)P (X1 = 0) + P (X2 = 1| X1 = 1)P (X1 = 1)

= 3

4· 2 5 +2

4 ·3 5 = 3

5 e di conseguenza

P (X1 = 0) = 1 −3 5 = 2

5, P (X2 = 0) = 1 −3

5 = 2 5.

(7)

Gli stessi calcoli si ottenevano utilizzando la tabella precedente; infatti P (X1 = 1) = 12

20 = 3 5 P (X2 = 1) = 6

8 · 8 20+ 6

12 ·12 20 = 3

5

Di conseguenza X1 e X2 hanno la stessa distribuzione di probabilit`a.

Calcoliamo la distribuzione, la media e la varianza dello stimatore P , utilizzando i dati della tabella precedente.

Campionamento con ripetizione. La densit`a di P `e

P 0 1/2 1

fP 254 1225 259 mentre la sua media `e

E (P ) = 0 · 4 25+ 1

2· 12

25+ 1 · 9 25

= 3

5 = 0, 6 = p.

Quindi P `e stimatore non distorto di p.

Calcoliamo ora la varianza dello stimatore della proporzione:

V ar (P ) = EP2− E2(P ) . Si ha che

EP2 = 0 · 4 25+

1 2

2

· 12

25 + 1 · 9 25

= 12 25, quindi

V ar (P ) = 12 25−

3 5

2

= 3

25 = 0, 12, che coincide con la formula V ar(P ) = p(1−p)n .

Campionamento senza ripetizione. La densit`a di P `e

P 0 1/2 1

fP 101 106 103 mentre la sua media `e:

E (P ) = 0 · 1 10+ 1

2· 6

10+ 1 · 3 10

= 3

5 = 0, 6 = p.

(8)

e

EP2 = 1 4· 6

10+ 1 · 3 10

= 9

20 quindi

V ar(P ) = 9 20 − 9

25 = 0, 09, che coincide con la formula V ar(P ) = p(1−p)n N −nN −1.

Quindi P `e ancora uno stimatore non distorto di p, ma come ci aspettiamo la varianza nel campionamento senza ripetizione (0,09) `e minore che nel campionamento con ripetizione (0,12).

ESEMPIO 2: Una scatola contiene N = 350 palline di colore rosso e di colore blu.

Si estraggono n = 50 palline. Indichiamo con p la proporzione di palline blu contenute nella scatola e con ˆp la proporzione di palline di colore blu contenute nel campione.

Determiniamo lo stimatore P di p, la media e la varianza di P , nei casi di campiona- mento con e senza ripetizione.

Campionamento con ripetizione. Se nB `e il numero di palline blu estratte, allora lo stimatore P di p `e

P = X1+ . . . + X50 50 di media e varianza

E (P ) = p e V ar (P ) = p (1 − p)

50 = 0, 02p(1 − p) e la stima puntuale `e n50B.

Campionamento senza ripetizione. Se nB`e il numero di palline blu estratte, allora lo stimatore P di p `e ancora

P = X1+ . . . + X50 50 di media e varianza

E (P ) = p e V ar (P ) = p (1 − p) 50

350 − 50

350 − 1 = 0, 017 p (1 − p) e la stima puntuale `e n50B.

Supponiamo che il campione contenga 30 palline di colore blu; costruiamo l’intervallo di confidenza per p a livello 95%, sempre nei casi di campionamento con e senza ripetizione.

Campionamento con ripetizione. Siccome nB = 30, abbiamo che ˆ

p = nB n = 30

50 = 0, 6.

(9)

Un intervallo di confidenza per p a livello di significativit`a del 95% `e:

0, 6 − z0,05

s0, 6 · 0, 4

50 , 0, 6 + z0,05

s0, 6 · 0, 4 50

.

Per una normale standardizzata si trova che z0,05 = 1, 96, quindi l’intervallo cercato `e

0, 6 − 1, 96

s0, 6 · 0, 4

50 , 0, 6 + 1, 96

s0, 6 · 0, 4 50

= (0, 46 , 0, 74) .

Campionamento senza ripetizione. Per quanto visto in precedenza, poich´e ˆp = 0, 6 e zα = 1, 96, si ha che un intervallo di confidenza per p a livello di significativit`a del 95% `e

0, 6 − 1, 96

s0, 6 · 0, 4 50

300

349 , 0, 6 + 1, 96

s0, 6 · 0, 4 50

300 349

= (0, 47 , 0, 73) .

Osserviamo che in entrambi i tipi di campionamento P `e uno stimatore non dis- torto della proporzione p.

Nel caso di campionamento senza ripetizione, la varianza di P `e minore rispetto alla varianza di P nel caso di campionamento con ripetizione. Inoltre l’intervallo di confi- denza nel campionamento senza ripetizione ha ampiezza minore.

Nella pratica, l’estrazione con ripetizione viene adottata raramente: `e intuitivo che, fissata la dimensione del campione, l’osservazione ripetuta di una o pi`u unit`a rappre- senti una perdita di informazione. La distinzione tra estrazione con e senza ripetizione perde gradualmente di importanza all’aumentare della dimensione della popolazione di rilevazione.

Riferimenti

Documenti correlati

Costruire l’intervallo di confidenza della quota di individui con tale caratteristica nella popolazione al livello di probabilità

Su un campione casuale di 10 elementi estratto da una popolazione normale si è ottenuta una media pari a 15 ed una varianza campionaria corretta pari a 3.5.. Su un campione di

Caratteristiche della distribuzione binomiale - la distribuzione binomiale e' normalizzata... Distribuzione

La Francia non procede, almeno nei primi anni di protettorato e nei confronti della comunità italiana, alla naturalizzazione automatica e generalizzata, ma subordina

• Ogni questionario o test psicometrico deve essere sottoposto a una verifica della validità nella quale sono valutate le caratteristiche del test su un campione

[r]

This list for each unit includes the following characteristics: Va- lidity, Type area, Type section, Reference section(s), Re- marks (concerning the type area, type section and

Furthermore, saccharin and open derivatives of saccharin, structurally related to compounds EMAC8000a −m, have been recently reported as selective inhibitors of the tumor associated