• Non ci sono risultati.

13. STIMA INTERVALLARE 13.1 Generalità sugli intervalli di confidenza

N/A
N/A
Protected

Academic year: 2021

Condividi "13. STIMA INTERVALLARE 13.1 Generalità sugli intervalli di confidenza"

Copied!
10
0
0

Testo completo

(1)

13. STIMA INTERVALLARE

13.1 Generalità sugli intervalli di confidenza

In occasione di un’indagine campionaria effettuata per conoscere il valore ignoto di un parametro , l’ennupla estratta fornisce, tramite il calcolo del valore assunto da uno stimatore T, una stima t0 del parametro ignoto , ma il valore di questa stima dipende da quali unità sono entrate a far parte del campione ed è quindi solo uno dei possibili valori che T può assumere.

Il valore t0 assunto dalla v.c. T sul campione effettivamente estratto è chiamato stima puntuale di  ed è chiaro che, anche se lo stimatore T ha proprietà ottimali, la probabilità di estrarre un campione che fornisca il valore vero del parametro, ossia la probabilità P(T=), diminuisce al crescere dei possibili valori di T ed è uguale a zero se T è una variabile continua.

Di conseguenza conviene prendere in considerazione, piuttosto che il singolo valore t0 dello stimatore T, un opportuno intervallo di valori che contenga al suo interno, con un livello di probabilità prestabilito, il valore vero del parametro .

Questo intervallo di valori, delimitato da due estremi, 1(T) e 2(T), corrispondenti a due funzioni di T, fornisce una stima intervallare di , di solito indicata con la locuzione intervallo di confidenza di .

Lo scopo dell’indagine campionaria consiste nel costruire un intervallo 1(T), 2(T) che contiene quasi certamente il valore vero del parametro , per cui si fissa un livello di probabilità sufficientemente elevato e, sulla base di questo valore, si costruisce l'intervallo di confidenza. Questo livello di probabilità, detto anche livello di confidenza o livello di copertura, viene usualmente indicato con la notazione 1 e i valori più comunemente utilizzati sono 0.90, 0.95 e 0.99.

In teoria si possono costruire infiniti intervalli di confidenza per un prefissato livello di probabilità 1, a seconda di come si distribuisce la probabilità residua  (corrispondente alla probabilità che l’intervallo non contenga il valore vero ma ignoto del parametro), ma è evidente che l’intervallo più conveniente è quello di minore ampiezza.

Si può dimostrare che, per una distribuzione simmetrica intorno all’origine, l’intervallo di minore ampiezza è quello costruito in modo da isolare una uguale probabilità /2 sulla sua sinistra e sulla sua

(2)

Per esempio, considerato un campione di numerosità n estratto da una popolazione normale di varianza nota, per ottenere una stima del parametro  si utilizza lo stimatore media campionaria. Sotto le condizioni ricordate questo stimatore ha la seguente distribuzione di probabilità

X~ 

 

μ n N

2

,

per cui, considerando la v.c. standardizzata, risulta

σ n μ

ZX~N

 

0,1 13.1.1

Tenendo presente la simmetria della N(0, 1) rispetto all’origine, i due quantili che isolano una probabilità pari ad /2 rispettivamente sulla sinistra e sulla destra della distribuzione sono –z1/2 e z1/2, per cui valgono le seguenti uguaglianze

2

2 /

/

1 α

n z σ

μ

P X 



  

 ,

2

2 /

/

1 α

n z σ

μ

P X 



  

 ,

e anche

 



 1 /2  z1 /2 1 σ n

μ z X

P . 13.1.2

Isolando il parametro ignoto  risulta

 



    



 

 1 /2    1 /2 1 /2 1 /2 1

n z σ

μ X n z σ

X n P

z σ μ n X

z σ

P .

(3)

Per cambiare il segno di  occorre moltiplicare per 1 tutti i termini della disequazione e quindi cambiarne il verso, per cui si ottiene infine

 

  1 /2    1 /2 1 n z σ

μ X n z σ

X

P . 13.1.3

L’intervallo



 

 

n z σ

n X z σ

X 1α/2 , 1α/2 13.1.4

costituisce l'intervallo di confidenza di  al livello di probabilità 1 in quanto si ha una probabilità pari ad /2 che l'estremo inferiore sia inferiore a  e una stessa probabilità che l'estremo superiore sia superiore a : si ha quindi una probabilità pari a 1 che l'intervallo così costruito contenga .

Data la simmetria della normale standardizzata rispetto all’origine, questo è anche l’intervallo di confidenza di minore ampiezza.

Va sottolineato che il campione effettivamente estratto darà luogo a un intervallo che contiene al suo interno  oppure a un intervallo che non contiene il vero valore del parametro, per cui il valore della probabilità 1 non si riferisce al risultato ottenuto sul campione osservato, ma alla regola utilizzata per costruire un intervallo di confidenza.

Con riferimento ai possibili intervalli costruiti sulla base di tutti i possibili campioni di numerosità n, infatti, una proporzione pari a 1 di questi intervalli conterrà il valore vero del parametro ignoto, mentre la restante proporzione  non lo conterrà. In una particolare occasione di campionamento, quindi, non si potrà mai essere certi che l’intervallo costruito contenga il valore del parametro ignoto.

Nella successiva figura 13.1.1, per esempio, sono rappresentati graficamente gli intervalli di confidenza costruiti sulla base di cinque possibili campioni casuali di n elementi provenienti da una normale di varianza nota.

Fissato un certo valore di probabilità 1 tutti questi intervalli di confidenza hanno una stessa ampiezza, pari alla differenza fra i due estremi

z σ z σ

σ X z

X α/ α/ 2 α/



 

 13.1.5

(4)

che, come si vede, dipende da , da 2 e da n.

Figura 13.1.1

Rappresentazione grafica di alcuni intervalli di confidenza di 

Nell’esempio descritto nella figura 13.1.1 solo quattro intervalli contengono il valore vero del parametro ignoto, mentre un quinto ha l'estremo destro inferiore a .

Una volta estratto il campione ed ottenuto il valore x di X, l'intervallo di confidenza di  è delimitato dagli estremi

xz1α/2σ/ n, xz1α/2σ/ n

13.1.6

e si può concludere l’indagine affermando che il valore vero di , con una probabilità pari ad 1, è compreso fra questi due estremi.

In generale, il procedimento utilizzato per la costruzione di un intervallo di confidenza di un parametro  si basa su una quantità (X1, X2, ..., Xn, ), detta quantità pivotale, che è una funzione delle n v.c. Xi (per i

= 1, 2, ..., n) e del parametro ignoto . La distribuzione di probabilità di questa funzione deve essere nota e non deve dipendere da alcuna caratteristica ignota della distribuzione di probabilità delle n v.c.

campionarie.

Nell’esempio preso in considerazione la funzione

(5)

σ n μ X

, 13.1.7

considerata sotto ipotesi che sia nota la varianza della popolazione, è una quantità pivotale.

La 13.1.6, infatti, è una funzione della media campionaria, e quindi delle n v.c. campionarie Xi, e di  e ha una distribuzione N(0, 1) quale che sia il valore di .

Esempio

Da una popolazione con distribuzione normale di parametro ignoto e di varianza 2 = 4 è stato estratto un campione di 16 elementi la cui media aritmetica è risultata uguale a 5.

L'intervallo di confidenza di al livello di probabilità del 95% si costruisce tenendo presente che z0,975=1.96 e risulta uguale a (4.02, 5.98).

Si conclude quindi che il valore vero di , con probabilità pari al 95%, è compreso fra 4.02 e 5.98.

Come sottolineato in precedenza, la costruzione di un intervallo di confidenza al livello di probabilità  comporta necessariamente la possibilità di ottenere un intervallo che non contiene il parametro, ossia di fare un’affermazione errata con probabilità . Si potrebbe quindi pensare di ridurre questa possibilità di errore diminuendo il valore di . All’aumentare di , però, aumenta di conseguenza l’ampiezza dell’intervallo di confidenza, così che l’affermazione sul parametro  ha una maggiore probabilità di essere vera, ma è anche meno informativa. Se non si fosse disposti ad accettare la possibilità di commettere errori, infatti, si potrebbe solo affermare con certezza che il parametro  di una popolazione normale è compresa tra  e +, ma questa conclusione sarebbe del tutto inutile.

D’altra parte, se si riduce l'ampiezza dell'intervallo, aumenta di conseguenza la probabilità di fare un'affermazione errata.

In generale, dalla 13.1.5 si nota che l’ampiezza di un intervallo di confidenza di  per una popolazione di varianza nota aumenta al crescere del livello di probabilità 1 e del valore di 2 mentre diminuisce all’aumentare del numero di unità statistiche rilevate.

(6)

13.2 Intervallo di confidenza di quando non è nota la varianza della popolazione

Nel paragrafo precedente è stato determinato l'intervallo di confidenza di  sotto la condizione che sia nota la varianza della popolazione, ma nelle situazioni reali questo parametro è generalmente ignoto, per cui la funzione 13.1.1 non è una quantità pivotale. La varianza 2 può essere però stimata in modo corretto e coerente mediante lo stimatore Sc2 per cui, al posto della 13.1.1, si può utilizzare la funzione

n S

μ X

c

~ tn-1 13.2.1

che è una quantità pivotale e si distribuisce come una t di Student con n1 gradi di libertà.

In base a tale distribuzione, seguendo lo stesso procedimento utilizzato in precedenza, dato che anche la t è simmetrica rispetto allo 0, si ottiene l’intervallo di confidenza di , i cui estremi dipendono dai quantili della tn1 di ordine /2 e di ordine 1/2 anziché dai quantili di ordine /2 e di ordine 1/2 della normale standard.

Tenendo presente che

1 2 , 2 1

,

1



n

n t

t , dalla seguente relazione

 



   

1

1 2 , 2 1

1 ,

1 n

n c t

n S

μ t X

P 13.2.2

si ottiene infatti la seguente uguaglianza

 

 



11 /2 11 /2 1

n t S

μ X n t S

X

P n c n c

analoga alla 13.1.3 e, quindi, il seguente intervallo di confidenza

   

 

   

n α s t

x n, α s t

x n11 /2 c n 11 /2 c . 13.2.3

(7)

Esempio 13.2.1

Si calcoli l’intervallo di confidenza di al livello di probabilità del 95% sulla base del campione riportato nella tabella 12.3.1, di media 10.8 e varianza corretta 4.01

9 6110 .

3  .

Dato che t9,0.975 = 2.262, l’intervallo di confidenza è dato da





  

10 1 2.262 4.0 10.80 10 ,

1 2.262 4.0 10.80

per cui il valore vero di , con probabilità pari a 0.95, è compreso fra 9.3674 e 12.2326 circa.

In questo caso l’intervallo così determinato contiene il valore vero della media della popolazione che è uguale a 10.

Quando la numerosità campionaria è elevata, i quantili della distribuzione t di Student possono essere approssimati dai quantili della distribuzione normale standard e questa approssimazione viene di solito utilizzata a partire da n ≥ 30.

In questi casi, quindi, si utilizza la seguente distribuzione approssimata

n S

μ X

c

~ N(0, 1) n ≥ 30 13.2.4

e gli estremi dell’intervallo di confidenza di  al livello 1 sono approssimati da



 

 

n z s

x n, z s

x 1 α/2 c 1α/2 c . 13.2.5

La medesima soluzione può essere utilizzata anche quando non si ha nessuna informazione sulla distribuzione della variabile Z nella collettività, purché il campione sia sufficientemente numeroso. Anche se la 13.2.5 viene comunemente utilizzata a partire da una numerosità campionaria n ≥ 30 sarebbe meglio utilizzarla per campioni più numerosi (n ≥ 50).

Esempio 13.2.2

In un campione di 243 uova di cuculo1 è stata rilevata la larghezza in millimetri, ottenendo la distribuzione indicata nella tabella successiva. Si vuole determinare l’intervallo di confidenza della media della larghezza delle uova nella popolazione al livello di probabilità 1= 0,90.

(8)

Larghezza di un campione di 243 uova di cuculo larghezza frequenza

13.75-|14.25 1

14.25-|14.75 1

14.75-|15.25 5

15.25-|15.75 9

15.75-|16.25 73 16.25-|16.75 51 16.75-|17.25 80 17.25-|17.75 15

17.75-|18.25 7

18.25-|18.75 0

18.75-|19.25 1

243

Si ottiene x16.5432 e sc0.6596 per cui, data l’elevata numerosità campionaria, l'intervallo di confidenza approssimato al livello 1= 0.90 è dato da

16.4736,16.6128

243 0.6596 1.645 16.5432 243 ,

0.6596 1.645

16.5432 

 

  

(9)

13.3 Intervallo di confidenza di

L’intervallo di confidenza della proporzione  di unità statistiche che nella popolazione presentano una determinata caratteristica di interesse si basa sulla distribuzione del suo stimatore che, come si è visto in precedenza, è una binomiale di parametri  e n, dove n è la numerosità del campione.

La determinazione dell’intervallo di confidenza basato su una distribuzione di massa risulta piuttosto complesso ma, per un campione sufficientemente numeroso, il teorema limite centrale consente di approssimare la distribuzione binomiale di con una distribuzione normale di valore atteso  e di varianza pari a

 

n π π1

. La funzione

 

n π π

π P

 1 ˆ

non è tuttavia una quantità pivotale, in quanto dipende dalla varianza della proporzione campionaria.

Si può però ottenere una quantità pivotale stimando questa varianza, ossia sostituendo  con la stima campionaria e, quindi, considerando la funzione

 

n P P

P π 1 ˆ ˆ

ˆ

  N(0, 1) per n 13.3.1

che al crescere della numerosità campionaria tende a una distribuzione normale standard.

In analogia a quanto visto in precedenza risulta

   

 



      ˆ1 ˆ 1

ˆ ˆ ˆ1

ˆ 1 /2 1 /2

n P z P

n P P z P

P

P 13.3.2

per cui l’intervallo di confidenza di  è delimitato dai due estremi

(10)

   





   

n p z p

n p p z p

pˆ 1/2 ˆ1 ˆ , ˆ 1/2 ˆ1 ˆ

Esempio

In occasione di un referendum abrogativo viene effettuato un sondaggio preliminare su un campione di 1000 elementi. Sapendo che su 1000 intervistati 650 sono favorevoli all’abrogazione della legge, la proporzione campionaria di persone favorevoli all’abrogazione è pˆ 0.65 e l’intervallo di confidenza ad un livello di confidenza del 99% è delimitato dagli estremi





    

1000 35 . 0 65 . 576 0 . 2 65 . 0 1000 ,

35 . 0 65 . 576 0 . 2 65 .

0 .

L’intervallo di confidenza approssimato è quindi [0.6111, 0.6889].

Riferimenti

Documenti correlati

Sia (Ω, A, P) uno spazio

Nell'ambito di un’indagine sui consumi delle famiglie italiane è stato osservato un campione di n = 320 unità. È risultato che le famiglie intervistate spendono mediamente 62 euro

Nell'ambito di un’indagine sui consumi delle famiglie italiane è stato osservato un campione di n = 320 unità. È risultato che le famiglie intervistate spendono mediamente 62 euro

La rigidezza di alcune molle prodotte da una azienda, da indagini fatte nel tempo, segue una distribuzione normale con deviazione standard pari a 3.1 N/mm. Determinare un

La rigidezza di alcune molle prodotte da una azienda, da indagini fatte nel tempo, segue una distribuzione normale con deviazione standard pari a 3.1 N/mm.

Costruire l’intervallo di confidenza della quota di individui con tale caratteristica nella popolazione al livello di probabilità

Su un campione casuale di 10 elementi estratto da una popolazione normale si è ottenuta una media pari a 15 ed una varianza campionaria corretta pari a 3.5.. Su un campione di

Noti i dati di un campione di dimensione N individua una regione attorno al valore misurato (media) che contiene il valore atteso (vero) con probabilità (intervallo di confidenza)