• Non ci sono risultati.

Nel caso della stima del parametro

N/A
N/A
Protected

Academic year: 2021

Condividi "Nel caso della stima del parametro"

Copied!
12
0
0

Testo completo

(1)

Lezione 21

PROPRIETΓ€ DEGLI STIMATORI

Considerato un certo parametro , esistono diverse funzioni dei dati campionari che possono essere considerate come possibili stimatori del parametro, ma è evidente che la scelta di una determinata funzione oppure di una funzione diversa porta a stime che sono generalmente diverse fra di loro.

Se è noto che Z ha una distribuzione normale, per esempio, il suo parametro  potrebbe essere stimato dalla media, dalla moda o dalla mediana del campione.

Nei casi reali il parametro in questione Γ¨ ovviamente ignoto, per cui non c’è nessuna possibilitΓ  di quantificare l'errore commesso utilizzando una particolare stima.

Per determinare la bontΓ  di una funzione dei dati campionari rispetto ad altre funzioni diverse ci si basa sulle proprietΓ  degli stimatori. Si sceglierΓ  quindi lo stimatore con le proprietΓ  migliori, anche se in una particolare occasione di campionamento non si potrΓ  mai sapere se la stima fornita dallo stimatore scelto Γ¨ effettivamente prossima al valore vero del parametro ignoto.

Nel caso della stima del parametro , per esempio, si giungerà alla conclusione che lo stimatore migliore è la media campionaria, ma in una determinata occasione di campionamento non si potrà mai essere sicuri che il calcolo della mediana campionaria o della moda campionaria non avrebbe fornito un risultato che sarebbe stato più vicino a .

(2)

Semplificando al massimo il problema, si consideri una variabile Z che ha una distribuzione di frequenza f(z,) di forma nota in cui compare un unico parametro ignoto: . In maniera analoga, se la distribuzione di Z fosse invece ben approssimata da un qualche modello teorico, si consideri un modello f(z,) caratterizzato dal valore del parametro ignoto .

Partendo da questo presupposto, si studieranno 3 importanti proprietΓ  degli stimatori:

1) CORRETTEZZA

La funzione T=g(X) dei dati campionari Γ¨ uno stimatore corretto del parametro

 se il valore atteso dello stimatore è uguale al parametro da stimare, ossia se

E(T) = 

per ogni possibile valore del parametro .

Questa proprietΓ  fornisce garanzie contro il verificarsi di errori di stima sistematici, ossia di sistematiche sovrastime o sottostime del parametro. Se uno stimatore non Γ¨ corretto, si parla infatti di stime β€œdistorte in media”.

Se uno stimatore non Γ¨ corretto, si dice distorto, e la sua distorsione Γ¨ data dalla differenza

B(T) = E(T) βˆ’ 

dove la lettera B Γ© l’iniziale del termine inglese β€œbias” (che si legge bΙ‘ΙͺΒ·Ι™s).

(3)

Considerando gli stimatori analizzati nel corso di queste lezioni, risulta che la media campionaria e la proporzione campionaria sono stimatori corretti. Si Γ¨ infatti dimostrato in precedenza che

𝐸(𝑋̅) = πœ‡ 𝐸(𝑃̂) = πœ‹

Non Γ¨ invece corretta la varianza campionaria, in quanto 𝐸(𝑆2) = 𝑛 βˆ’ 1

𝑛 𝜎2

Va perΓ² notato che al crescere della numerositΓ  campionaria 𝑛 il valore atteso della varianza campionaria tende a 𝜎2, per cui questo stimatore si dice asintoticamente corretto. La sua distorsione tende quindi a zero per 𝑛 che tende a +∞.

In generale, considerata una variabile Z che nella popolazione ha una distribuzione caratterizzata da un parametro ignoto , uno stimatore T=g(X) di  è asintoticamente corretto se, per ogni possibile valore del parametro , risulta

π‘›β†’βˆžπ‘™π‘–π‘šπΈ(𝑇) = πœƒ ovvero

π‘›β†’βˆžπ‘™π‘–π‘šπ΅(𝑇) = 0

e cioè se il suo valore atteso dello stimatore tende al parametro da stimare al crescere della numerosità del campione.

(4)

Se uno stimatore Γ¨ distorto Γ¨ talvolta possibile correggere la sua distorsione, come accade nel caso della varianza campionaria. Se infatti si moltiplica la varianza campionaria per la costante 𝑛

π‘›βˆ’1, si ottiene lo stimatore varianza campionaria corretta, spesso indicata mediante la notazione 𝑆𝑐2.

In genere, quindi, la varianza 𝜎2 della popolazione viene stimata utilizzando lo stimatore

𝑆𝑐2 = 𝑛 𝑛 βˆ’ 1𝑆2

che sarΓ  quello che verrΓ  utilizzato nelle lezioni successive.

Per ottenere il valore di questa funzione dei dati campionari conviene comunque calcolare la varianza campionaria nel modo usuale e poi moltiplicarla per la costante 𝑛

π‘›βˆ’1

La dimostrazione che 𝑆𝑐2 Γ¨ uno stimatore corretto della varianza della popolazione Γ¨ estremamente semplice, in quanto

𝐸(𝑆𝑐2) = 𝐸 ( 𝑛

𝑛 βˆ’ 1𝑆2) = 𝑛

𝑛 βˆ’ 1𝐸(𝑆2) = 𝑛 𝑛 βˆ’ 1

𝑛 βˆ’ 1

𝑛 𝜎2 = 𝜎2

Anche se la correttezza Γ¨ una proprietΓ  desiderabile per uno stimatore, va detto che, in alcuni casi, uno stimatore distorto puΓ² essere preferibile a uno stimatore corretto. Questo accade se lo stimatore corretto fornisce elevate sottostime e sovrastime che si compensano fra loro, per cui lo stimatore presenta una

(5)

variabilità così elevata da poter fornire stime molto distanti dal valore vero del parametro.

2) EFFICIENZA

Una misura della variabilitΓ  delle stime fornite da uno stimatore Γ¨ fornita dal suo errore quadratico medio (o momento secondo dell’errore di stima) che corrisponde a

𝑀𝑆𝐸(𝑇) = 𝐸(𝑇 βˆ’ πœƒ)2

dove l’acronimo MSE indica le iniziali del termine inglese β€œmean square error”.

Questo indice fornisce una misura della precisione dello stimatore, in quanto calcola la media dei quadrati delle differenze fra i possibili valori dello stimatore e il parametro da stimare.

Al crescere della precisione delle stime cresce anche l’efficienza dello stimatore, nel senso che diminuisce il grado di incertezza sulle stime ottenute mediante un’indagine campionaria.

Uno stimatore, anche se corretto, risulta quindi poco efficiente se presenta un’elevata variabilitΓ  delle stime del parametro ignoto.

In genere l’errore quadratico medio viene calcolato per confrontare l’efficienza di due diversi stimatori del parametro. Considerati, per esempio, gli stimatori T1 e T2 di , se risulta

MSE (T1) < MSE(T2)

(6)

per ogni possibile valore del parametro , si conclude dicendo cheT1 è più efficiente di T2.

Nel caso del parametro , per esempio, risulta che la media campionaria è uno stimatore più efficiente della mediana campionaria o della moda campionaria, quale che sia il valore di .

ProprietΓ  dell’errore quadratico medio

L’errore quadratico medio corrisponde alla somma della varianza dello stimatore piΓΉ la sua distorsione al quadrato

Questa dimostrazione si effettua sommando e sottraendo il valore atteso 𝐸(𝑇) dello stimatore all’interno della formula dell’errore quadratico medio, creando un binomio e sviluppandone il quadrato

Dimostrazione

𝑀𝑆𝐸(𝑇) = 𝐸(𝑇 βˆ’ πœƒ)2 = 𝐸[𝑇 βˆ’ 𝐸(𝑇) + 𝐸(𝑇) βˆ’ πœƒ]2 = = 𝐸{[𝑇 βˆ’ 𝐸(𝑇)] + [𝐸(𝑇) βˆ’ πœƒ]}2 =

= 𝐸{[𝑇 βˆ’ 𝐸(𝑇)]2 + [𝐸(𝑇) βˆ’ πœƒ]2 + 2[𝑇 βˆ’ 𝐸(𝑇)][𝐸(𝑇) βˆ’ πœƒ]} = = 𝐸[𝑇 βˆ’ 𝐸(𝑇)]2+ 𝐸[𝐸(𝑇) βˆ’ πœƒ]2+ 2[𝐸(𝑇) βˆ’ πœƒ] Γ— 𝐸[𝑇 βˆ’ 𝐸(𝑇)]

Il rettangolo dai bordi gialli contiene un’espressione che corrisponde alla varianza dello stimatore

Il rettangolo dai bordi rossi corrisponde alla media della differenza al quadrato fra valore atteso dello stimatore e parametro, per cui corrisponde alla media della distorsione al quadrato, che Γ¨ una costante rispetto all’operatore β€œvalore medio”

(7)

Il rettangolo dai bordi azzurri corrisponde alla media di una variabile scarto, in quanto considera la media della differenza fra lo stimatore T e il suo valore atteso. Quindi la quantitΓ  racchiusa nel rettangolo azzurro Γ¨ pari a zero.

L’errore quadratico medio corrisponde quindi a

𝑀𝑆𝐸(𝑇) = 𝑉(𝑇) + [𝐡(𝑇)]2

Da questa dimostrazione risulta che se uno stimatore T Γ¨ corretto il suo errore quadratico medio corrisponde alla sua varianza

MSE(T) = V(T)

Spesso, dati due diversi stimatori T1 e T2 di uno stesso parametro , si calcola l’efficienza relativa di T1 rispetto a T2 mediante il rapporto

𝑒(𝑇1, 𝑇1) = 𝑀𝑆𝐸(𝑇1) 𝑀𝑆𝐸(𝑇2)

che, se entrambi gli stimatori risultano corretti, assume la forma

𝑒(𝑇1, 𝑇1) = 𝑉(𝑇1) 𝑉(𝑇2)

Infine, considerata una variabile Z con distribuzione f(z, ) e uno stimatore corretto T di  se sono soddisfatte alcune condizioni abbastanza generali, si

(8)

dimostra mediante la disuguaglianza di Rao-CramΓ©r che la varianza di T non puΓ² mai essere inferiore a una quantitΓ  Vmin, che dipende da f(z, ) e da n. Si ottiene quindi una misura dell’efficienza assoluta di T calcolando il rapporto

e(T) = ( )

T V Vmin

Se risulta

e(T) = 1,

per tutti i possibili valori del parametro , si conclude che T è uno stimatore che ha varianza minima e si dice quindi che ha massima efficienza.

3) COERENZA (o CONSISTENZA)

Un’altra importante proprietΓ  di uno stimatore esamina il suo comportamento per un campione la cui numerositΓ  tende ad infinito.

Uno stimatore si dice coerente (o consistente) se, considerato un qualsiasi valore ο₯ ο€Ύ 0, risulta

π‘›β†’βˆžπ‘™π‘–π‘šπ‘ƒ(|𝑇 βˆ’ πœƒ| β‰₯ πœ€) = 0

per ogni possibile valore del parametro .

Uno stimatore si dice quindi coerente se, al crescere di n, tende a zero la probabilitΓ  che la differenza in valore assoluto tra stimatore e parametro risulti maggiore di un ο₯ comunque piccolo.

(9)

In altri termini, questo significa che lo stimatore T converge in probabilità a .

La coerenza, quindi comporta necessariamente che lo stimatore T sia corretto o, almeno, asintoticamente corretto e che la sua varianza V(T) tenda a zero per n che tende a infinito.

La statistica 𝑋 Γ¨ uno stimatore coerente di  o di  (a seconda della distribuzione della Z e, di conseguenza, delle Xi). Anche gli stimatori della varianza, S2 e 𝑆𝑐2, sono entrambi stimatori coerenti di 2.

ESERCIZI

1. Data una popolazione di valore atteso  e varianza unitaria, si estragga un campione casuale di 4 elementi estratti con ripetizione e si considerino i seguenti stimatori di 

𝑇1 = 𝑋1+ 𝑋4 2

𝑇2 =𝑋1+ 𝑋2 + 𝑋3+ 𝑋4 4

𝑇3 =𝑋1+ 2𝑋2+ 2𝑋3+ 𝑋4

Si verifichi che sono tutti stimatori corretti e si individui quello piΓΉ efficiente. 6

La distribuzione di probabilitΓ  delle variabili 𝑋𝑖corrisponde alla distribuzione di frequenza della Z, per cui ciascuna 𝑋𝑖 ha un valore atteso pari a  e varianza unitaria

I valori attesi dei tre stimatori, combinazioni lineari delle 𝑋𝑖, risultano quindi 𝐸(𝑇1) = 𝐸(𝑋1) + 𝐸(𝑋4)

2 =πœ‡ + πœ‡

2 = πœ‡ 𝐸(𝑇2) = 𝐸(𝑋1) + 𝐸(𝑋2) + 𝐸(𝑋3) + 𝐸(𝑋4)

4 = 4πœ‡

4 = πœ‡ 𝐸(𝑇3) = 𝐸(𝑋1) + 2𝐸(𝑋2) + 2𝐸(𝑋3) + 𝐸(𝑋4)

= 6πœ‡

= πœ‡

(10)

mentre le loro varianze sono 𝑉(𝑇1) = 𝑉(𝑋1) + 𝑉(𝑋4)

4 = 1 + 1

4 =1

2 = 0.5 𝑉(𝑇2) =𝑉(𝑋1) + 𝑉(𝑋2) + 𝑉(𝑋3) + 𝑉(𝑋4)

16 = 1 + 1 + 1 + 1

16 = 1

4= 0.25 𝑉(𝑇3) =𝑉(𝑋1) + 4𝑉(𝑋2) + 4𝑉(𝑋3) + 𝑉(𝑋4)

36 =10

36 = 0.27Μ„

Si conclude quindi che lo stimatore piΓΉ efficiente Γ¨ T2

2. Data una popolazione di valore atteso  e varianza unitaria, si estragga un campione casuale di 4 elementi estratti con ripetizione e si considerino gli stimatori di 

𝑇1 = 1

2𝑋1+1

8𝑋2 +1

4𝑋3+1 8𝑋4 𝑇2 =1

2𝑋̄

Si verifichi se sono stimatori corretti e si calcoli la loro varianza e il valore dell’errore quadratico medio per =1

I valori attesi dei due stimatori risultano 𝐸(𝑇1) = 1

2𝐸(𝑋1) +1

8𝐸(𝑋2) +1

4𝐸(𝑋3) +1

8𝐸(𝑋4) = 4 + 1 + 2 + 1

8 πœ‡ = πœ‡

𝐸(𝑇2) = 1

2𝐸(𝑋̄) = 1 2πœ‡

Lo stimatore 𝑇1Γ¨ quindi corretto, mentre 𝑇2Γ¨ distorto Le varianze dei due stimatori sono

𝑉(𝑇1) = 1

4𝑉(𝑋1) + 1

64𝑉(𝑋2) + 1

16𝑉(𝑋3) + 1

64𝑉(𝑋4) = 16 + 1 + 4 + 1

64 𝜎2 =

= 22

64𝜎2 = 11 32 𝑉(𝑇2) =1

4𝑉(𝑋̄) =1 4

𝜎2 4 = 1

16

Di conseguenza i due errori quadratici medi sono

(11)

𝑀𝑆𝐸(𝑇1) = 𝑉(𝑇1) = 11 32

𝑀𝑆𝐸(𝑇2) = 𝑉(𝑇2) + [𝐡(𝑇2)]2 = 1

16+ (1

2πœ‡ βˆ’ πœ‡)

2

= 1 16+1

4πœ‡2

Ponendo πœ‡ = 1 risulta 𝑀𝑆𝐸(𝑇2) = 1

16+1 4= 5

16 =10

32 < 𝑀𝑆𝐸(𝑇1)

3. Data una popolazione di media  e varianza 2, si estragga un campione bernoulliano di 2 elementi e si considerino i seguenti stimatori di 

𝑇1 = 1

3𝑋1+2 3𝑋2 𝑇2 =3

4𝑋1 +1 4𝑋2

Si individui quello piΓΉ efficiente

I due valori attesi sono 𝐸(𝑇1) = 1

3𝐸(𝑋1) +2

3𝐸(𝑋2) = (1 3+2

3) πœ‡ = πœ‡ 𝐸(𝑇2) = 3

4𝐸(𝑋1) +1

4𝐸(𝑋2) = (3 4+1

4) πœ‡ = πœ‡

pertanto entrambi gli stimatori sono corretti. Per valutarne l’efficienza basta quindi confrontare le loro varianze, che risultano pari a

𝑉(𝑇1) = 1

9𝑉(𝑋1) +4

9𝑉(𝑋2) = (1 9+4

9) 𝜎2 = 5

9𝜎2 = 0. 5Μ„πœŽ2 𝑉(𝑇2) = 9

16𝑉(𝑋1) + 1

16𝑉(𝑋2) = ( 9 16+ 1

16) 𝜎2 = 10

16𝜎2 = 0.625𝜎2 Si può quindi concludere che lo stimatore T1 è più efficiente di T2

(12)

4. Considerata la seguente funzione dei dati campionari

𝑇 =βˆ‘π‘›βˆ’3𝑖=1 𝑋𝑖 𝑛 βˆ’ 3 +2

𝑛𝑋𝑛

si verifichi se si tratta di uno stimatore consistente del parametro 

Il valore atteso Γ¨ dato da 𝐸(𝑇) = βˆ‘π‘›βˆ’3𝑖=1 𝐸(𝑋𝑖)

𝑛 βˆ’ 3 +2

𝑛𝐸(𝑋𝑛) = (𝑛 βˆ’ 3)πœ‡ 𝑛 βˆ’ 3 +2

π‘›πœ‡ = (𝑛 + 2 𝑛 ) πœ‡ per cui lo stimatore Γ¨ asintoticamente corretto.

La varianza di T Γ¨

𝑉(𝑇) =βˆ‘π‘›βˆ’3𝑖=1 𝑉(𝑋𝑖) (𝑛 βˆ’ 3)2 + 4

𝑛2𝑉(𝑋𝑛) = (𝑛 βˆ’ 3)𝜎2 (𝑛 βˆ’ 3)2 + 4

𝑛2𝜎2 = 𝜎2

𝑛 βˆ’ 3+4𝜎2 𝑛2 Dato che risulta

π‘›β†’βˆžπ‘™π‘–π‘šπΈ(𝑇) = πœ‡

π‘›β†’βˆžπ‘™π‘–π‘šπ‘‰(𝑇) = 0 si conclude cheT Γ¨ uno stimatore consistente di 

Riferimenti

Documenti correlati

In realtΓ  il ballottaggio, che rimette a tutti la scelta, si spiega proprio per aver introdotto una soglia al primo turno: ed Γ¨ mero effetto ottico da prestidigitatore sostenere

As the terminal part of the polyamine inhi- bitor extends toward the exit of the active site cavity, where is the region with the highest variability in amino acid residues within

Through this research, efficiency of the design and general structure of both landing pages have been studied, in order to understand participants’ emotional impression

(A–D) Cytofluorimetric assessment of cell cycle profiles (A,B) or the levels of phospho(p)H3 (S10) (A,C) and/or pH3 and Ξ³H2AX (D) in representative RES-CRC-SC left untreated or

House of Cards, serie televisiva prodotta dalla Netflix, costituisce una assoluta novitΓ  nel panorama della serialitΓ  televisiva e nell’ambito specifico dei political drama.

[r]

The Green Point Formation of the Cow Head Group in western Newfoundland (Canada) 24.. represents the Global Stratotype Section and Point (GSSP) for the Cambrianβ€’Ordovician