• Non ci sono risultati.

12. STATISTICHE CAMPIONARIE 12.1 Cenni sui piani di campionamento

N/A
N/A
Protected

Academic year: 2021

Condividi "12. STATISTICHE CAMPIONARIE 12.1 Cenni sui piani di campionamento"

Copied!
25
0
0

Testo completo

(1)

12. STATISTICHE CAMPIONARIE

12.1 Cenni sui piani di campionamento

Per conoscere le caratteristiche ignote di una o più variabili in una popolazione si ricorre di solito a un’indagine campionaria e i dati raccolti vengono elaborati per ottenere informazioni sulla popolazione dalla quale il campione è stato estratto.

In molte situazioni reali lo scopo dell’inferenza statistica consiste nel determinare il valore di alcuni parametri della popolazione, tipicamente il valore medio di una variabile oppure la proporzione di unità che presentano una determinata caratteristica di interesse, sulla base dei dati provenienti da un campione casuale estratto dalla popolazione stessa. Per esempio, lo scopo di un’indagine può consistere nello stimare il reddito medio delle famiglie di una certa regione, il fatturato medio delle aziende di un settore economico, l’ammontare di legname degli alberi di una determinata zona, il numero di disoccupati nel meridione d’Italia.

In altre situazioni lo scopo dell’inferenza statistica è invece quello di verificare se esiste un legame fra variabili, di determinare di che tipo di legame si tratta e di misurarne l’entità. Esempi comuni di indagini di questo tipo sono quelle in cui si valuta l’efficacia di un certo fertilizzante in relazione al tipo di terreno, l’efficacia di un farmaco nella cura di una determinata malattia in relazione alle caratteristiche degli individui esaminati, l’ammontare dei consumi delle famiglie in relazione al reddito, al numero dei componenti, allo stato sociale.

Per poter utilizzare correttamente le informazioni fornite dal campione è necessario tenere presente che l’insieme delle n unità selezionate è solo uno dei possibili campioni che si sarebbero potuti estrarre dalla popolazione, per cui è necessario conoscere le caratteristiche dei diversi possibili risultati campionari e le loro relazioni con le caratteristiche ignote della popolazione.

Queste considerazioni sono già state fatte studiando la distribuzione binomiale, che consente di elencare le possibili composizioni e le relative probabilità di campioni estratti con ripetizione da una popolazione in cui gli individui sono classificati in base al possesso o meno di una certa caratteristica.

La struttura del campione, espressa dalla media campionaria, che in questo caso coincide con la proporzione di unità che presentano la caratteristica di interesse sul totale delle n unità estratte, costituisce una stima della corrispondente proporzione  nella popolazione e si è visto come i valori più probabili della media campionaria sono prossimi a , anche se è possibile estrarre campioni la cui struttura è molto diversa da quella della popolazione.

(2)

La variabilità dei risultati campionari utilizzando uno schema di estrazione senza ripetizione risulterebbe inferiore a quella ottenuta con uno schema con ripetizione, dato che nel primo caso ciascuna unità statistica non può essere estratta più di una volta, per cui il campione contiene sempre n informazioni distinte, mentre nel secondo caso una stessa unità statistica può essere estratta più volte. D’altra parte, quando la frazione di campionamento n/N è sufficientemente piccola, la variabilità dei possibili risultati connessi con i due schemi risulta praticamente la stessa, dato che l’estrazione di n individui non modifica sostanzialmente la struttura della popolazione, e dato che lo schema con ripetizione lascia inalterata ad ogni prova la composizione della popolazione, si ottengono notevoli semplificazioni nella determinazione delle probabilità associate ai diversi risultati campionari.

Nella pratica, quindi, lo schema di campionamento più utilizzato è quello senza ripetizione, ma se la frazione di campionamento n/N è bassa, i risultati vengono elaborati, per semplicità di calcolo, come se fossero stati ottenuti con uno schema con ripetizione.

Nelle situazioni reali i piani di campionamento, ossia l'insieme delle scelte e delle procedure necessarie per estrarre il campione, possono assumere forme molto complesse, in relazione alle circostanze in cui l’indagine viene effettuata, alle informazioni disponibili sulla popolazione da esaminare e agli obiettivi dell’analisi. Schemi di campionamento diversi da quello casuale semplice sono spesso utilizzati quando la popolazione è molto numerosa e dispersa su un ampio territorio. In questi casi si ricorre spesso al campionamento a grappoli (o a clusters) oppure al campionamento a più stadi: il territorio viene suddiviso in zone possibilmente omogenee rispetto alle variabili che interessano ed in una prima fase vengono scelte in modo casuale, con probabilità non necessariamente uguali, alcune di queste zone.

All’interno delle zone selezionate vengono successivamente esaminate tutte le unità presenti oppure ne viene estratto un campione casuale. Un campionamento di questo tipo viene utilizzato, per esempio, dall’Istat nella rilevazione delle forze lavoro in Italia. In questa indagine viene inizialmente selezionato un campione di Comuni, poi un campione di famiglie che risiedono in questi Comuni ed infine vengono rilevate le variabili di interesse su tutti i componenti delle famiglie estratte.

In altre situazioni la popolazione viene suddivisa in sottogruppi, detti strati, all’interno dei quali le unità risultano omogenee rispetto ad alcune caratteristiche prefissate. Da ciascuno di questi strati viene poi estratto, in modo indipendente, un campione casuale semplice. Questo procedimento costituisce il cosiddetto campionamento stratificato che è utilizzato, per esempio, quando si ha interesse ad avere informazioni separate per ciascuno dei gruppi omogenei rispetto alle variabili usate per la stratificazione.

Questo stesso tipo di campionamento viene anche utilizzato per ottenere, a parità di numerosità complessiva del campione, una maggiore attendibilità delle stime sull’intera popolazione. In questo caso gli strati sono costituiti da sottogruppi omogenei per quanto riguarda le determinazioni di una o più variabili che si ritengono correlate con le variabili oggetto di indagine, in modo che la variabilità di queste

(3)

ultime, all’interno dei singoli strati, risulti ridotta. Per esempio, la rilevazione dei risultati economici di un gruppo di imprese che operano su un certo territorio potrebbe essere effettuata all’interno di sottogruppi omogenei per quanto riguarda il settore di attività e/o il numero di addetti.

Questi sono solo alcuni esempi molto generali degli schemi di campionamento che sono effettivamente utilizzati nella pratica ed il cui studio costituisce l’oggetto della cosiddetta Teoria dei Campioni.

(4)

12.2 Distribuzione dell'ennupla campionaria

Data una popolazione di N elementi di composizione nota, sia Z la variabile di interesse che assume k determinazioni diverse zj con frequenze relative fj (con j = 1, 2, ..., k), e sia n il numero di unità estratte in modo casuale da questa popolazione con uno schema che assegna a ogni unità una stessa probabilità di essere selezionata. In questo modo lo schema di campionamento assegna alle unità che presentano la determinazione zj una probabilità di estrazione pari alla frequenza fj.

Prima che l'estrazione venga effettuata, la distribuzione di frequenza della variabile statistica Z determina quindi la funzione di probabilità della v.c. X “valore di Z sull’unità estratta” che corrisponde alla distribuzione di Z e che ha, quindi, anche gli stessi momenti.

Per esempio, considerata la distribuzione di 10 famiglie a seconda del numero dei figli riportata nella tabella 12.2.1,

Tabella 12.2.1

Distribuzione di 10 famiglie in base al numero dei figli z Frequenze assolute Frequenze relative

0 4 0.4

1 3 0.3

2 2 0.2

3 1 0.1

10 1.0

la v.c. X "Numero dei figli della famiglia estratta" ha la distribuzione di probabilità indicata nella successiva tabella 12.2.2.

Tabella 12.2.2

Distribuzione della v.c. X “numero di figli della famiglia estratta”

x Probabilità

0 0.4

1 0.3

2 0.2

3 0.1

1.0

Se il campione casuale fosse costituito da due elementi estratti con ripetizione, si dovrebbero considerare le due v.c. X1 "Numero dei figli della prima famiglia estratta" e X2 "Numero dei figli della seconda famiglia estratta", che avrebbero una distribuzione di probabilità identica fra loro e identica a quella della precedente v.c. X.

I possibili risultati campionari sono costituiti da tutte le coppie di valori che è possibile formare e, data l’indipendenza di X1 e X2, la loro distribuzione di probabilità congiunta è pari al prodotto delle probabilità marginali, come risulta dalla tabella 12.2.3.

(5)

Tabella 12.2.3

Distribuzione congiunta delle v.c. X1 e X2

X1\ X2 0 1 2 3

0 0,16 0,12 0,08 0,04 0,40

1 0,12 0,09 0,06 0,03 0,30

2 0,08 0,06 0,04 0,02 0,20

3 0,04 0,03 0,02 0,01 0,10

0,40 0,30 0,20 0,10 1,00

In generale, data una popolazione in cui la variabile Z assume k determinazioni diverse zj (j = 1, 2, …, k) ed indicata con fj la frequenza relativa corrispondente, per un campione di numerosità n sono determinate n v.c. Xi (i = 1, 2, ..., n), “valore di Z sulla i-esima unità estratta”, che hanno tutte una distribuzione di probabilità corrispondente alla distribuzione di frequenza della variabile Z.

Se si utilizza un campionamento con ripetizione, l'ennupla di v.c. Xi è una v.c. a n dimensioni la cui f.p.

congiunta è uguale al prodotto delle n distribuzioni marginali, mentre ogni singolo campione osservato è una determinazione di una v.c. n-variata. In seguito X indica la v.c. n-variata di n v.c. i.i.d., x la sua generica determinazione, corrispondente al campione casuale di numerosità n, e L(x) la sua f.p. congiunta, pari al prodotto delle n probabilità marginali delle singole Xi.

Nel caso della variabile Z riportata nella tabella 12.2.1 e di un campione di due soli elementi, per esempio, la v.c. bivariata X assume le determinazioni riportate nella prima colonna della tabella 12.2.4 mentre la probabilità associata a tali determinazioni è riportata nella seconda colonna.

Tabella 12.2.4

Distribuzione della v.c. “numero di figli delle due famiglie estratte”

X L(x)

0, 0 0.16

0, 1 0.12

0, 2 0.08

0, 3 0.04

1, 0 0.12

1, 1 0.09

1, 2 0.06

1, 3 0.03

2, 0 0.08

2, 1 0.06

2, 2 0.04

2, 3 0.02

3, 0 0.04

3, 1 0.03

3, 2 0.02

3, 3 0.01

1.00

(6)

Se la variabile di interesse Z assume k determinazioni diverse e la numerosità del campione estratto è pari a n, il numero delle possibili ennuple campionarie x diverse fra di loro almeno per l’ordine degli elementi che le compongono è uguale a kn. Questo numero risulta estremamente elevato anche per valori di k e di n non molto grandi. Nel caso appena esaminato si ha k = 4 e n = 2, per cui il numero delle possibili coppie di risultati campionari è 42=16.

La variabile Z oggetto di indagine può essere di tipo continuo, ma anche in questo caso la v.c. X “valore di Z sull’individuo estratto” può assumere solo quei valori di Z effettivamente presenti nella collettività, per cui la sua distribuzione di probabilità è necessariamente discreta.

In alcune circostanze reali è noto che la distribuzione di una variabile nella collettività può essere approssimata mediante un qualche modello distributivo teorico ed in questo caso lo scopo dell’indagine campionaria consiste nell’ottenere informazioni sui valori di tutti o di alcuni dei parametri che caratterizzano il modello. In questo caso la Z è una v.c. discreta o continua caratterizzata da una funzione di probabilità o da una funzione di densità di probabilità f(z). Le n v.c. Xi (i = 1, 2, ..., n), “valore di Z sulla i-esima unità estratta”, in questo caso hanno tutte una distribuzione di probabilità o una funzione di densità di probabilità identica alla f(z) della variabile Z.

(7)

12.3 Statistiche campionarie

L'ennupla x dei valori xi (i = 1, 2, ..., n) rilevati sulle n unità statistiche estratte costituisce il campione casuale osservato di numerosità n. Su questi valori possono essere effettuate le stesse elaborazioni già descritte per le variabili statistiche, per cui dalla sequenza di osservazioni si può ottenere la distribuzione di frequenza e si può determinare il valore degli indici della tendenza centrale, di variabilità e di forma. In questo caso, però, tali operazioni hanno importanza soprattutto per le informazioni che possono fornire sulle analoghe caratteristiche della popolazione da cui il campione proviene.

Le ennuple campionarie presentano una loro variabilità a causa di fattori casuali che determinano le unità che sono entrate a far parte del campione, per cui la struttura distributiva dell’ennupla effettivamente estratta si può discostare in misura maggiore o minore dalla struttura distributiva della variabile Z nella popolazione.

Nella tabella 12.3.1 è riportata, per esempio, la sequenza ordinata di 10 osservazioni ottenute mediante un opportuno programma di calcolo con un computer che ha simulato l’estrazione di 10 elementi da una popolazione normale di parametri =10 e 2=4.

Tabella 12.3.1

Distribuzione di un campione estratto da una popolazione normale N(10, 4) x frequenze cumulate

7.89 0.1

7.96 0.2

8.81 0.3

10.17 0.4

10.64 0.5

11.78 0.6

12.49 0.7

12.54 0.8

12.68 0.9

13.03 1.0

Questo campione ha una media pari a 10.8 e una varianza pari a 3.61, valori che risultano abbastanza prossimi ai corrispondenti indici che caratterizzano la popolazione normale di provenienza del campione, ma è evidente che un altro campione casuale, estratto dalla medesima popolazione, sarebbe stato costituito da valori differenti e avrebbe quindi fornito valori diversi della media e della varianza.

Nella successiva figura 12.3.1 sono messi a confronto i grafici della funzione di ripartizione del campione (corrispondente alla linea spezzata) e della funzione di ripartizione variabile nella collettività d’origine (corrispondente alla linea continua).

(8)

Figura 12.3.1

Funzione di ripartizione del campione riportato nella tabella 12.3.1 e della distribuzione normale N(10, 2)

Come si vede dalla figura, la f.r. campionaria si discosta abbastanza da quella vera della variabile, ma occorre tenere presente che il campione utilizzato in questo esempio è di soli 10 elementi. Si può infatti dimostrare che, all'aumentare della numerosità n del campione, diminuisce sempre di più la probabilità che la f.r. del campione osservato differisca in modo rilevante dalla f.r. della popolazione.

Dimostrazione

Data la variabile Z oggetto di indagine, sia F(z) la sua funzione di ripartizione nella popolazione. Prefissato un qualsiasi valore z di Z ed estratta una unità statistica dalla popolazione, la probabilità che il valore di Z misurato su questa unità risulti inferiore o uguale a z è pari a F(z), mentre è 1F(z) la probabilità di ottenere un valore campionario superiore a z.

Effettuando n estrazioni con ripetizione, si possono ottenere y (con y = 0, 1, ..., n) risultati campionari inferiori o uguali a z e ny risultati superiori a z.

Indicata con la v.c. "proporzione di elementi campionari con valore di Z inferiore o uguale a z", la probabilità che

assuma il valore si ricava dalla distribuzione binomiale e risulta pari a

 

ˆ ˆ ˆ

   

ˆ

1

 

1 ˆ 0 1 ˆ 01,...,1,

,n p , F(z) ,

z F z

p F n p n P

P  npn( p)   



come si vede dalla 11.3.2.

Questo risultato si ottiene facilmente tenendo presente che, una volta predeterminato il valore z di Z, l’esperimento descritto può essere assimilato all’estrazione di palline da un’urna che contiene una quota pari a = F(z) di palline bianche ed una quota pari a 1=1 F(z) di palline nere.

Dalla distribuzione binomiale risulta che la media e la varianza di sono rispettivamente uguali a

0,0 0,2 0,4 0,6 0,8 1,0

5 7 9 11 13 15

(9)

   

     

n z F z P F V

z F P E

 

 ˆ 1 ˆ

e che quindi il valore della f.r. del campione in corrispondenza di z è uguale in media al valore vero della f.r. di Z, mentre la sua varianza tende a zero al crescere della numerosità campionaria.

In questo modo si dimostra che l'immagine fornita dal campione tende a diventare sempre più somigliante a quella della variabile statistica nella popolazione al crescere del numero n di informazioni raccolte.

Conclusioni analoghe, come vedremo nelle prossime pagine, si possono ottenere anche per i momenti campionari, che costituiscono altrettante stime dei corrispondenti momenti della variabile Z nella popolazione.

Come si è ricordato in precedenza, lo scopo di un’indagine campionaria consiste nell’ottenere informazioni su una o più caratteristiche ignote di una popolazione, per cui il calcolo di una qualunque funzione dei dati campionari non è fine a sé stessa, ma serve per ottenere informazioni sulla caratteristica (o sulle caratteristiche) di interesse della popolazione.

Nelle situazioni più comuni interessa conoscere la proporzione di individui che presentano una certa caratteristica oppure il valore atteso e/o la varianza di una variabile, di cui può essere nota o meno la distribuzione.

La grandezza numerica ignota nella popolazione è denominata con il termine parametro ed è indicata in generale con la lettera greca  (teta). Tale parametro caratterizza la distribuzione (di forma nota o ignota) della variabile Z nella popolazione.

In situazioni più complesse l’interesse può essere rivolto alla determinazione del valore di due o più parametri contemporaneamente, come nel caso in cui si voglia determinare contemporaneamente il valore atteso e la varianza di una variabile.

In prima approssimazione, per la determinazione del valore di un certo parametro ignoto, sembra ragionevole utilizzare la corrispondente funzione calcolata sui dati campionari raccolti, per cui, per esempio, per determinare il valore di una proporzione o di un valore atteso ignoto, sembra ragionevole utilizzare la media campionaria, mentre se il parametro  è la varianza di Z sembra ragionevole utilizzare la varianza campionaria.

Questa affermazione, per ora giustificabile solo in via intuitiva, sarà precisata e corretta successivamente, ma consente di concentrare i discorsi sul comportamento di alcune particolari statistiche campionarie e, in particolare, sui momenti campionari.

(10)

Prima che il campione venga estratto i momenti campionari costituiscono altrettante variabili casuali, mentre i valori forniti dal campione effettivamente osservato costituiscono le loro determinazioni. Dato infatti che ogni campione è una singola determinazione di una v.c. ad n dimensioni costituita dalle n variabili Xi, ogni funzione dei dati campionari è a sua volta una v.c. ad una dimensione la cui f.p. dipende dalla f.p. congiunta delle Xi.

Per quanto affermato in precedenza è evidente che, fra i possibili momenti campionari, hanno particolare importanza la v.c. X “media campionaria” e la v.c. S2 “varianza campionaria” che assumono rispettivamente la forma

 

n i

i n i

i

X n X

S

, n X X

1 2 2

1

1 1

mentre le singole determinazioni di queste due v.c. sono

  

n i

i n i

i

x n x

s

, n x x

1 2 2

1

1 1

Si osservi che se le variabili Xi hanno distribuzione Zero-Uno, la v.c. X “media campionaria” coincide con la v.c. “proporzione campionaria”.

Con riferimento alla variabile Z riportata nella tabella 12.2.1, la distribuzione di probabilità della v.c.

media campionaria

2

2

1 X

XX  per un campione casuale di due elementi estratti con ripetizione si

ottiene facilmente dalla distribuzione congiunta riportata nella tabella 12.2.3 o 12.2.4.

Da queste due tabelle risulta, per esempio, che la media del campione di due elementi assume un valore uguale a 0 quando entrambi gli elementi estratti risultano uguali a 0, assume valore 0.5 quando il primo elemento estratto è uguale a 0 e il secondo è uguale a 1 oppure quando il primo è uguale a 1 e il secondo è uguale a zero 0, mentre la probabilità che la media campionaria sia uguale a 1 è

(11)

0 2

 

1 1

 

2 0

0.25

1  1  2  1  2  1  2 

) PX X PX X PX X

X

P( .

Nello stesso modo si ottengono le probabilità associate a tutti gli altri possibili valori della media campionaria, per cui la sua distribuzione risulta quella indicata nella tabella 12.3.2.

Tabella 12.3.2

Distribuzione della media campionaria per un campione di due elementi sulla base della tabella 12.2.3 (o 12.2.4)

X

p   x

0.0 0.16

0.5 0.24

1.0 0.25

1.5 0.20

2.0 0.10

2.5 0.04

3.0 0.01

1.00

Da questa tabella si vede che le possibili stime di  fornite da un campione di 2 elementi assumono valori compresi fra 0 e 3 e che la stima più probabile è x= 1, che in questo caso corrisponde al valore atteso della Z.

Risulta anche che vi è una probabilità del 95% di estrarre un campione la cui media sia compresa fra 0 e 2 ed una probabilità del 69% che sia compresa fra 0.5 e 1.5. Si osservi inoltre che il valore atteso della media campionaria è uguale a  e che la sua varianza è uguale a 0.5 e quindi alla varianza di Z divisa per il numero degli elementi campionari.

Dalla distribuzione congiunta delle tabelle 12.2.3 e 12.2.4 si ottengono facilmente anche le distribuzioni di probabilità della varianza campionaria, o di una qualsiasi altra funzione dei dati campionari, per un campione di 2 elementi.

Indicata con

T = g(X),

una generica funzione dei dati campionari, la v.c. T è detta statistica campionaria, mentre la quantità

t = g(x),

calcolata sulla base del campione osservato, indica una determinazione della v.c. T.

(12)

La distribuzione di probabilità di T, e quindi la probabilità P(T = t), si ottiene associando ad ogni valore t di T la somma delle probabilità di tutte le ennuple che forniscono un valore di T uguale a t.

Dato che, come si è detto, il calcolo di una qualunque funzione dei dati campionari ha lo scopo di stimare una determinata caratteristica di interesse della popolazione, la statistica campionaria T viene comunemente chiamata stimatore, mentre la determinazione t assunta da T sul campione estratto viene detta stima.

Uno stimatore T = g(X) di un parametro è una v.c. funzione delle n v.c. campionarie Xi che non dipende da  e mediante la quale si intende stimare il valore ignoto del parametro. L'espressione t = g(x) indica una determinazione della v.c. T, detta stima di .

(13)

12.4 Caratteristiche delle statistiche campionarie

Lo studio delle caratteristiche dei momenti campionari si basa essenzialmente sulla determinazione del loro valore atteso e della loro varianza, effettuata con riferimento a uno schema di estrazione con ripetizione.

Sotto questa condizione, se la variabile Z ha valore atteso  e varianza 2, il valore atteso e la varianza della v.c. X, media campionaria, si ottengono in base alle 10.6.10 e 10.6.11 e corrispondono rispettivamente a

 

n

x n X n

E

n i

i

1 1

1

 

n n

n n

n X

V n

j n

j i

2 2 1 2

2 1 2

2 2

1 1

1

 

dato che le n v.c. Xi sono i.i.d. con una distribuzione di probabilità che corrisponde alla distribuzione della Z, per cui hanno valore atteso  e varianza 2.

La variabilità delle stime della media campionaria dipende quindi dalla varianza della variabile nella popolazione ma tende comunque a diminuire al crescere della numerosità del campione: di conseguenza, al crescere di n, la distribuzione di X tende a concentrarsi intorno al suo valore atteso  per cui si dice che la v.c. media campionaria “converge in probabilità” al parametro della popolazione.

Le stesse considerazioni valgono per la v.c. “proporzione campionaria”, il cui valore atteso e la cui varianza corrispondono rispettivamente alle 11.3.7 e 11.3.8.

Per quanto riguarda la v.c. S2 “varianza campionaria”, il suo valore atteso risulta uguale a

 

2 2

n S n

E   . 12.4.1

Dimostrazione

Il valore atteso della varianza campionaria

   





 

n i

i X

n X E S E

1 2 1 2

se si aggiunge e si sottrae il parametro all’interno della parentesi tonda, può essere posto nella forma seguente

(14)

         

       





   

 





     







      









   

2 1

2 2 2

1

2

1 2

1

2 2

1 2

2 1 1

2 1 1

1

μ μ X

n X E μ . μ X

μ X n X

E

X μ μ n

μ X μ X

n X μ E

μ X n X

E S E

n i

i n

i i

n i

i n

i i n

i i

da cui si ottiene infine

  

2

  

2 2 2 2

1

2 1 1 1σ

n n n σ σ nn μ X μ E

X n E S

E i

n i

 

dato che E

 

Xiμ

2

corrisponde alla varianza delle Xi, mentre E

 

Xμ2 corrisponde alla varianza della v.c.

media campionaria.

Di conseguenza il valore atteso della v.c. “varianza campionaria” è minore della varianza della popolazione 2 ma, per campioni sufficientemente numerosi, il coefficiente

n n 1

risulta praticamente uguale a 1, per cui il valore atteso di S2 tende alla varianza della popolazione al crescere di n.

Per quanto riguarda la varianza di S2 si può dimostrare che V(S2) tende a zero al crescere della numerosità campionaria, per cui la v.c. S2 converge in probabilità al parametro 2.

Va sottolineato come, nei casi concreti, la necessità di ottenere informazioni circa la varianza della variabile Z possa in realtà dipendere dall’interesse per il suo valore atteso , in quanto, come si è visto, la variabilità delle stime ottenute con la v.c. media campionaria dipende dalla varianza della popolazione, che però di solito non è nota, per cui deve essere stimata sulla base delle informazioni campionarie raccolte.

(15)

12.5 Proprietà degli stimatori

I parametri che caratterizzano la distribuzione della variabile di interesse Z possono essere stimati mediante diverse funzioni dei dati campionari e quindi mediante stimatori differenti che, per un dato campione, forniscono in genere stime diverse fra di loro.

Se, per esempio, è noto che la variabile Z ha una distribuzione normale di cui non sono noti i valori di  e

2, si vorranno utilizzare le statistiche campionarie più adatte per stimare questi due parametri. Per quanto riguarda  si può osservare che questo parametro rappresenta non solo la media, ma anche la moda o la mediana della distribuzione normale, per cui si potrebbe utilizzare la media, la moda o la mediana del campione casuale.

Non si dispone di un criterio univoco per determinare quale stimatore sia il migliore per un determinato parametro, ma è possibile indicare quali sono le proprietà che dovrebbe soddisfare.

L’ovvia considerazione che lo stimatore dovrebbe fornire stime che si avvicinano il più possibile al valore vero del parametro ignoto non è utilizzabile, dato che non si conosce il valore del parametro ignoto, per cui non è possibile quantificare l'errore commesso per una particolare stima. È però possibile quantificare in qualche modo “l’errore medio” che si commette utilizzando un particolare stimatore.

La bontà di uno stimatore è valutata sulla base delle proprietà che presenta, alcune delle quali sono descritte sommariamente qui di seguito, con riferimento ad un campionamento casuale con ripetizione. In particolare, le proprietà che verranno analizzate sono la correttezza, l’efficienza e la coerenza.

Data una variabile Z che nella popolazione ha una distribuzione caratterizzata da un parametro ignoto , uno stimatore T=g(X) di si dice corretto se

E(T) =

e cioè se il suo valore atteso è uguale al parametro da stimare.

Questa proprietà fornisce garanzie contro il verificarsi di errori di stima sistematici, dato che se il valore atteso di T fosse diverso da , mediante questo stimatore si otterrebbero stime che, in media, sono più piccole o più grandi di : si otterrebbero cioè stime “distorte in media”.

Tenendo presenti i risultati ottenuti in precedenza, risulta che lo stimatore media campionaria X del parametro  è corretto, mentre non è corretto lo stimatore varianza campionaria S2 della varianza della popolazione 2, dato che il suo valore atteso risulta più piccolo del parametro da stimare.

(16)

In questi casi lo stimatore viene detto distorto e la sua distorsione (in inglese “bias”), indicata con B(T), corrisponde alla differenza

B(T) = E(T) . 12.5.1

Talvolta è possibile correggere la distorsione di uno stimatore, come nel caso della varianza campionaria.

Infatti, se al posto di S2 si usa la funzione

, n S Sc2 n 2

1

si ottiene uno stimatore corretto dato che

   

1 .

1 1

1

2 2 2

2

2 σ σ

n n n S n n E S n n E n S

E c  

 

 



 

 

Lo stimatore Sc2 viene chiamato varianza campionaria corretta e la stima corrispondente è data da

 

2

1 2 2

1 1

1 s

n x n n x

s

n i

i

c   

 

.

Lo stimatore S2 di 2, pur essendo distorto, è comunque asintoticamente corretto, nel senso che il suo valore atteso tende a 2 al crescere della numerosità campionaria n.

Data una variabile Z che nella popolazione ha una distribuzione caratterizzata da un parametro ignoto , uno stimatore T=g(X) di è asintoticamente corretto se

 



ET

nlim

e cioè se il suo valore atteso tende al parametro da stimare al crescere della numerosità del campione.

Come ultima osservazione a proposito della correttezza è opportuno evidenziare che, anche se il termine distorsione sembra avere una connotazione negativa, l’utilizzo di uno stimatore distorto può essere

(17)

preferibile a uno stimatore corretto come, per esempio, quando uno stimatore corretto fornisce elevate sottostime e sovrastime del parametro (che si compensano fra loro).

Un’altra proprietà particolarmente importante di uno stimatore si riferisce quindi alla sua precisione, ossia alla variabilità delle sue possibili determinazioni, che viene detta efficienza. Quanto minore è la variabilità di uno stimatore tanto maggiore è la sua efficienza, nel senso che diminuisce il grado di incertezza sulle stime ottenute mediante un’indagine campionaria.

Uno stimatore, anche se corretto, risulta poco efficiente se presenta un’elevata variabilità delle stime del parametro ignoto.

Un indice comunemente utilizzato per valutare l’efficienza di uno stimatore è il cosiddetto errore quadratico medio (in generale indicato con la sigla MSE dal termine inglese “mean square error”) che è dato da

MSE(T) = E(T)2

e corrisponde quindi al valore atteso dei quadrati delle differenze fra stimatore e parametro da stimare.

Dati i due stimatori T1 e T2 del parametro  è preferibile utilizzare lo stimatore che, a parità di numerosità campionaria n, presenta il minore errore quadratico medio. Se quindi risulta

MSE (T1) < MSE(T2)

si dice che T1 è più efficiente di T2.

Mediante le proprietà del valore atteso e sulla base della 12.5.1 si vede subito che

             

   

2

   

2

           

2

2 2

2

2ET θET ET V(T) BT T θ

E E T E T E

T θ E T E T θ E

T E T E T θ E

T E T MSE

per cui l’errore quadratico medio corrisponde alla somma della varianza dello stimatore più la sua distorsione al quadrato.

Se lo stimatore T è corretto, la sua distorsione è nulla, per cui risulta

MSE(T) = V(T).

(18)

Considerati i due stimatori T1 e T2 di , entrambi corretti, T1 è più efficiente di T2 se risulta

V(T1) < V(T2).

Dati due stimatori corretti di un certo parametro  è preferibile utilizzare lo stimatore con varianza minore, dato che quanto più piccola è la sua varianza tanto maggiore è la probabilità che lo stimatore assuma valori vicini al suo valore atteso, che corrisponde al parametro da stimare.

Dati i due stimatori T1 e T2, supponendo che T1 sia più efficiente di T2, l'efficienza relativa di T1 rispetto a T2 viene misurata dal rapporto

e(T1, T2) =

 

 

T21

MSE T MSE

che può assumere valori compresi nell’intervallo [0, 1] e che risulta tanto più vicino a 1 quanto più l’errore quadratico medio di T1 è vicino all’errore quadratico medio di T2.

Se i due stimatori sono entrambi corretti, l’efficienza relativa è misurata dal rapporto

e(T1, T2) =

 

 

T21

V T V .

Nella valutazione del grado di efficienza di uno stimatore riveste grande importanza la disuguaglianza di Rao-Cramér, secondo la quale, dato un carattere Z con distribuzione f(z, ), se T è uno stimatore corretto di  e sono soddisfatte alcune condizioni abbastanza generali, la sua varianza non può mai essere inferiore a una determinata quantità, in seguito indicata con Vmin, che dipende dalla distribuzione della Z e dalla numerosità campionaria.

Uno stimatore di  con una varianza uguale a questa quantità avrebbe la varianza più bassa possibile fra tutti gli stimatori corretti di  per cui una misura dell'efficienza assoluta di uno stimatore T è data dal rapporto

e(T) = V

 

T Vmin .

(19)

Dato uno stimatore corretto T di  se risulta

e(T) = 1,

T è uno stimatore che ha varianza minima e si dice quindi che ha massima efficienza.

L’ultima proprietà desiderabile di uno stimatore si riferisce allo studio del suo comportamento per un campione la cui numerosità tende ad infinito.

Uno stimatore si dice coerente se, considerato un qualsiasi valore   0, risulta

 

0

lim   

P T θ ε

n

e cioè se al divergere della numerosità del campione tende a 0 la probabilità che la differenza in valore assoluto tra stimatore e parametro risulti maggiore di un  comunque piccolo, ossia se T converge in probabilità a .

Questa proprietà è particolarmente importante per campioni sufficientemente numerosi, in quanto la coerenza garantisce che, con un’elevata probabilità, la stima ottenuta sul campione non differisce sensibilmente dal parametro da stimare.

La v.c. X è uno stimatore coerente di , la v.c. è uno stimatore coerente di , mentre. S2 e Sc2 sono due stimatori coerenti di 2. Per giustificare queste affermazioni è sufficiente ricordare che la media campionaria, la proporzione campionaria e la varianza campionaria corretta sono tutti stimatori corretti, mentre la varianza campionaria è asintoticamente corretta, per cui la sua distorsione tende a zero al crescere della numerosità campionaria. Inoltre la varianza di tutti questi stimatori tende a 0 per n che tende ad infinito, per cui, al crescere della numerosità campionaria, tutti questi stimatori convergono in probabilità al parametro da stimare.

(20)

12.6 Metodo di massima verosimiglianza

Nelle pagine precedenti si è visto come gli stimatori siano delle opportune funzioni dei dati campionari utilizzate per ottenere informazioni sui parametri ignoti della popolazione da cui il campione è stato estratto e come la scelta fra diversi possibili stimatori viene effettuata sulla base delle loro proprietà. Fino a questo momento, però, non è stato definito alcun metodo per determinare le espressioni formali degli stimatori.

Fra i diversi possibili procedimenti utilizzati per determinare l’espressione formale di uno stimatore quello più importante è il metodo di massima verosimiglianza, che si basa sulla funzione di probabilità congiunta dell’ennupla campionaria X.

Data una variabile discreta Z con distribuzione f(z,) in cui compare il parametro ignoto  e considerato un campione casuale estratto con ripetizione dalla popolazione di interesse, la distribuzione congiunta di X è data dal prodotto delle funzioni di probabilità marginali delle n v.c. Xi che hanno tutte la stessa f.p.

corrispondente alla distribuzione f(z,) della variabile Z

   

n i

i,θ. x θ f

, L

1

x

Questa funzione, calcolata per gli n valori x1, x2, ..., xn del campione osservato, corrisponde alla probabilità che da una popolazione in cui la Z ha distribuzione f(z,) venga estratta esattamente l’ennupla x0 x1, x2, ..., xn.

Per evidenziare il fatto che la funzione in esame viene considerata in funzione del parametro  e non dei valori effettivamente osservati, in seguito si utilizzerà la seguente notazione

L( |x0).

Dato che il parametro  non è noto, si possono formulare delle ipotesi sui suoi valori e calcolare L( |x0) corrispondenza di diversi valori di . Per ogni valore  = j (con j = 1, 2, ...) si può calcolare la probabilità di estrarre da una popolazione con distribuzione f(z,j) l’ennupla campionaria effettivamente osservata.

Se il valore di L(j|x0) è basso, si conclude che è poco probabile che da una popolazione con parametro j

venga estratto un campione identico a x0. L'ipotesi che il valore del parametro  sia uguale a j è quindi

“poco verosimile”.

Considerati per semplicità due possibili valori di , 0 e 1, se risulta

(21)

L( |x0) < L(|x0),

la probabilità di estrarre l'ennupla x0 da una popolazione con distribuzione f(z,0) è maggiore della probabilità di estrarre la stessa ennupla da una popolazione con distribuzione f(z,1): di conseguenza l'ipotesi  = 0 appare più verosimile dell'ipotesi  = 1.

Se, per esempio, sono state estratte 5 palline con ripetizione da un’urna ottenendo la seguente sequenza di palline bianche (B) e nere (N)

x0 B, B, N, B, N,

si può determinare la probabilità di estrarre questa particolare sequenza di colori sotto diverse ipotesi circa la proporzione  di palline bianche contenute nell’urna.

Di seguito sono riportate le probabilità di ottenere il risultato x0 sotto diverse ipotesi su 

L( =0.1|x0) = 0.13×0.92 = 0.00081 L( =0.5|x0) = 0.53×0.52 = 0.03125 L( =0.6|x0) = 0.63×0.42 = 0.03456 L( =0.7|x0) = 0.73×0.32 = 0.03087 L( =0.9|x0) = 0.93×0.12 = 0.00729.

Fra le varie ipotesi considerate quella che risulta più verosimile è l’ipotesi che il parametro  sia uguale a 0.6, ossia risulti uguale al valore della proporzione di palline bianche ottenute nel campione effettivamente osservato.

Tornando al caso generale, relativo a un generico parametro , viene quindi naturale assumere come stima di  quel particolare valore

ˆ per cui risulta massima la probabilità L( |x0) e per il quale, quindi, l'ipotesi

=

 ˆ

risulta la più verosimile.

Per determinare questo valore

 ˆ

basta considerare la L(|x0) in funzione del parametro  e cercare il valore in corrispondenza del quale la funzione raggiunge il suo massimo.

La L(|x0) considerata in funzione di  è detta funzione di verosimiglianza (f.v.), mentre la stima di massima verosimiglianza (m.v.) del parametro  è quel valore

 ˆ

, che si suppone esista e sia unico, in cui la funzione L(|x0) presenta il suo massimo.

(22)

Se la f.v. è derivabile ovunque rispetto a  e il suo massimo non coincide con un estremo del campo di variazione di ,

 ˆ

rappresenta il valore in cui si annulla la derivata prima della f.v. rispetto a , per cui la soluzione cercata si ottiene dall’uguaglianza seguente

 

| 0 0 θ d θ L

d x

. 12.6.1

Per verificare che il valore di  in cui si annulla la derivata prima corrisponde effettivamente al punto di massimo si dovrà poi controllare il segno della derivata seconda.

La soluzione cercata, però, si ottiene più semplicemente se al posto della L(|x0) si utilizza il suo logaritmo.

La L(|x0) corrisponde infatti ad un prodotto di funzioni di probabilità, mentre la logL(|x0) corrisponde alla somma dei logaritmi delle funzioni di probabilità, per cui la 12.6.1 è la derivata di un prodotto, mentre la

 

| 0

log 0

θ d

θ L

d x

è la derivata di una somma.

Dal momento che la funzione logaritmica è monotona crescente, la logL(|x0) ha il massimo nello stesso punto di L(|x0).

Esempio

Considerata una variabile Z con distribuzione Zero-uno, la f.v. per un campione casuale di n elementi estratti con ripetizione risulta

 

x

xx

 

x...xn

xnxi

nxi

L|x01 1  1 12 1  1 2  1  1  1 

e quindi il suo logaritmo è





  



1 log log

| log

1

0 i

n i

i n x

x

L x .

La sua derivata rispetto al parametro assume la forma

 

 





 

 





 

 

  

n

i i n

i i n

i

i x

n x n

n d x

L d

1 1

1

0 1

1 1

1

| 1

log x

(23)

che va posta uguale a zero

 

1 ˆ 1 ˆ 0

ˆ 1





 

x π π n

π

n n

i i

per cui, ponendo πˆ0 e πˆ1, la stima di m.v. del parametro risulta

x p n x

n i

i  

1 ˆ ˆ

1

.

Dall’esempio precedente si vede come la stima di m.v. del parametro  di una distribuzione Zero-uno è uguale alla media aritmetica dei dati campionari che corrisponde anche alla proporzione campionaria . Se si fa riferimento alla generica ennupla campionaria, piuttosto che al campione osservato, lo stimatore di m.v.

ˆ del parametro  assume quindi la forma

n

i

Xi

X n P

1

ˆ 1

ˆ , 12.6.2

la cui f.p. è indicata nella 11.3.6.

Tutte le considerazioni fatte con riferimento a una variabile Z discreta valgono anche per una variabile continua. In questo caso bisogna solo tenere presente che le Xi sono variabili casuali continue, per cui la L(|x0) non corrisponde alla probabilità di ottenere l'ennupla x0, ma alla funzione di densità congiunta.

Di conseguenza la stima di m.v. del parametro  che caratterizza la distribuzione f(z,) della variabile continua Z è quel valore

ˆ per cui risulta massima la funzione di densità congiunta dell’ennupla campionaria considerata in funzione del parametro ignoto.

Il metodo di m.v. può essere generalizzato al caso in cui i parametri da stimare sono più due o più. Se, per esempio, la variabile Z ha una distribuzione normale di parametri  e 2 ignoti, la funzione di verosimiglianza sarà funzione di entrambi i parametri e per ottenere i due stimatori di m.v. si dovranno calcolare le derivate del logaritmo di tale funzione rispetto a  e a 2.

Le due derivate sono poi poste uguali a zero, in modo da ottenere i due stimatori di m.v. che corrispondono rispettivamente alla media campionaria e alla varianza campionaria non corretta, così come dimostrato nelle righe seguenti.

(24)

Dimostrazione

La funzione di verosimiglianza assume la forma

 

,

2

| 1 ,

2

2 1

1 0

 





n i

i

σ μ n x

π e σ σ

μ

L x

mentre il suo logaritmo è

      

n

i

i μ

σ x n π

n σ σ

μ L

1

2 2

0 2

2 2 1 2log 2log

| ,

log x .

Le derivate parziali rispetto a e a 2 sono

   

     









  





 

 

2 2 1 4

2 4

2 2

0

2 1 2 1

0

2 2

1 2

| , log

1

| 1 , log

n σ μ x σ

μ n σ x

σ σ n

μ L

μ n x

σ μ n σ x

σ L μ

n i i

i n i

i n

i i

x x

Uguagliando queste derivate a zero si ottiene il sistema

 





2 1

2 1

ˆ 1 ˆ

1 ˆ

σ μ n x

x μ n

n i

i n i

i

e quindi, dalla prima uguaglianza si ottiene μˆx

per cui la stima di massime verosimiglianza di corrisponde alla media campionaria.

Sostituendo questo risultato nella seconda equazione si ottiene

 

2

1

2 ˆ

1 x x σ

n

n i

i 

per cui la stima di massima verosimiglianza della varianza risulta

ˆ2 s2. σ

Se si fa riferimento alla generica ennupla campionaria, gli stimatori di m.v. dei parametri e 2 della distribuzione normale sono rispettivamente le v.c. X “media aritmetica” ed S2 “varianza” dei dati campionari.

Gli stimatori ottenuti con il metodo di massima verosimiglianza non sono sempre corretti come risulta, per esempio, per lo stimatore di m.v. del parametro 2 di una popolazione normale.

Si può dimostrare però che questi stimatori, sotto condizioni abbastanza generali, sono coerenti e, per n che tende ad infinito, risultano corretti, massimamente efficienti e che la loro distribuzione tende ad una normale.

(25)

Un’ulteriore proprietà particolarmente utile è la cosiddetta “equivarianza” secondo cui, noto lo stimatore di m.v.

 ˆ

di un parametro ignoto  allora lo stimatore di m.v. di una funzione biunivoca di tale parametro, g(), corrisponde semplicemente a g(

 ˆ

).

Riferimenti

Documenti correlati

4.3 Campionamento di un segnale RZ utilizzando la rotazione di polarizzazione data da XPM

normali ha ancora una

Sapendo che il voto medio allo stesso esame ottenuto da 5 studentesse è pari a 26 e che la varianza è 4, calcolare la varianza complessiva dei voti ottenuti dai

Popolazione residente attiva in condizione professionale per sesso, ramo di attività economica e posizione nella professione (analoga alla Tav. 9 comunale con analisi per ramo

La media campionaria prende in considerazione tutti i valori, invece la mediana considera soltanto 1 o 2 valori centrali dei dati e quindi non dipende dai

Il suo valore dipende dal numero di righe e di colonne della “parte interna” della tabella (quella comprendente le caselle in corrispondenza delle quali sono calcolate le

Calcolare la media di

Se ci limitassimo a confrontare la variabilità delle due produzioni semplicemente facendo riferimento allo scarto quadratico medio, dovremmo concludere che la seconda azienda ha