1
Lezione 23
STIMA INTERVALLARE – INTERVALLI DI CONFIDENZA Nelle lezioni precedenti
- è stato descritto il metodo di massima verosimiglianza, che consente di determinare la funzione dei dati campionari T=g(X) da utilizzare per stimare un parametro ignoto ,
- è stata determinata la distribuzione di probabilità degli stimatori più comunemente usati,
- è stato calcolato il valore atteso e la varianza di tali stimatori - sono state studiate le proprietà che tali stimatori presentano.
In questa lezione si studierà il procedimento da seguire per ottenere una stima di un parametro ignoto della popolazione a partire dal valore assunto dallo stimatore sul campione effettivamente estratto.
La considerazione alla base del procedimento che verrà descritto è la seguente:
anche quando lo stimatore T del parametro ignoto possiede proprietà ottimali, la probabilità di ottenere una stima t che corrisponde esattamente al valore del parametro, ossia la probabilità P(T=), è estremamente bassa e diminuisce al crescere dei possibili valori di T, per cui è addirittura nulla se T è una variabile casuale continua.
Per questo motivo si utilizza, anziché il valore “puntuale” della stima t di T ottenuta sul campione estratto, un opportuno intervallo di valori di T che contiene al suo interno, con un livello di probabilità prestabilito, il valore vero del parametro .
Il valore t assunto dallo stimatore T sul campione estratto viene chiamato stima puntuale ma, per stimare , si utilizza un intervallo di valori, che costituisce la cosiddetta stima intervallare o intervallo di confidenza di
Considerato uno stimatore T del parametro ignoto , l’intervallo di confidenza di
è delimitato da due estremi 1(T) e 2(T), che dipendono dalla distribuzione di probabilità dello stimatore e che sono scelti in modo tale da contenere al loro interno il valore ignoto del parametro con un elevato livello di probabilità. Questo livello di probabilità, prefissato a priori, viene chiamato livello di confidenza o livello di copertura.
In generale il valore di questa probabilità, indicata da 1−, viene fissato pari a 0.90, 0.95 o 0.99, così che si può affermare che l’intervallo di confidenza ottenuto contiene al suo interno il valore ignoto del parametro con una probabilità rispettivamente pari al 90%, 95% o 99%. Si ha quindi una probabilità pari ad che l’intervallo ottenuto non contenga al suo interno il parametro ignoto.
Dato che l’intervallo di confidenza di si determina sulla base dello stimatore utilizzato, i suoi estremi 1(T) e 2(T) dipendono dalla distribuzione di T, dal valore della probabilità 1− prefissata e da come si decide di suddividere la probabilità residua alla sinistra e alla destra dei due estremi che delimitano l’intervallo.
Si possono infatti costruire infiniti intervalli di confidenza per un prefissato 1−, a seconda di come si distribuisce la probabilità che l’intervallo non contenga il parametro ma, a parità di ogni altra condizione, l’intervallo migliore è quello di minore ampiezza.
Per una distribuzione unimodale e simmetrica intorno all’origine, l’intervallo più corto è quello delimitato dai due quantili di ordine /2 e 1−/2, ossia da quei particolari valori 1(T) e 2(T) che isolano un’area di probabilità pari ad /2
3
rispettivamente alla loro sinistra e alla loro destra, come si nota dalla figura successiva, in cui è riportato il grafico di una N(0, 1). Dalla figura risulta che a tutti i punti interni all’intervallo così costruito è associata una densità di probabilità maggiore rispetto ai punti al di fuori ed è questo il motivo per cui questo intervallo è il più corto fra tutti i possibili intervalli a cui è associata una stessa probabilità 1−
Una volta determinate le caratteristiche ottimali di un intervallo di confidenza in generale, nelle pagine seguenti sono riportati gli intervalli che vengono comunemente utilizzati per i diversi parametri della popolazione.
INTERVALLO DI CONFIDENZA DI
Gli intervalli di confidenza per utilizzano sempre la media campionaria 𝑋̄ come stimatore del parametro, ma la distribuzione di 𝑋̄ assume forme diverse a seconda della distribuzione della variabile Z nella popolazione e della numerosità campionaria utilizzata.
1) La variabile Z ha una distribuzione normale di varianza nota
Questo caso è poco realistico, in quanto è abbastanza improbabile che non si conosca il valore della media di Z ma si conosca il valore della sua varianza.
Quando, comunque, questa ipotesi può essere considerata ragionevole, la distribuzione della variabile casuale media campionaria risulta, come si è detto in una lezione precedente, anch’essa normale, di parametri
𝑋̅~𝑁 (𝜇,𝜎2 𝑛 )
Effettuando la trasformazione di standardizzazione si ottiene
𝑋̄ − 𝜇
𝜎 √𝑛⁄ ~𝑁(0,1)
e va notato come l’unico elemento incognito è costituito proprio dal valore del parametro , in quanto
- 𝑋̄ è la media campionaria, il cui valore è determinato, una volta estratto il campione
- 𝜎 è la deviazione standard della Z, nota per ipotesi - 𝑛 è la numerosità campionaria
-
Sulla base della distribuzione riportata nel riquadro azzurro si può quindi ottenere l’intervallo di confidenza di .
5
Dato che si tratta di una 𝑁(0,1) l’intervallo di confidenza più corto è quello delimitato dai due quantili di ordine /2 e 1−/2 della normale standard, ossia da 𝑧𝛼 2⁄ e 𝑧1−𝛼 2⁄ .
Per ottenere l’intervallo di confidenza di è a questo punto sufficiente partire dalla seguente disuguaglianza
𝑃 (−𝑧1−𝛼 2⁄ < 𝑋̄ − 𝜇
𝜎 √𝑛⁄ ≤ 𝑧1−𝛼 2⁄ ) = 1 − 𝛼
e isolare il parametro ignoto .
Moltiplicando tutti i termini per 𝜎 √𝑛⁄ si ottiene
𝑃 (−𝑧1−𝛼 2⁄ 𝜎
√𝑛 < 𝑋̄ − 𝜇 ≤ 𝑧1−𝛼 2⁄ 𝜎
√𝑛) = 1 − 𝛼
e, sottraendo 𝑋̄ da tutti i termini, risulta
𝑃 (−𝑋̄−𝑧1−𝛼 2⁄ 𝜎
√𝑛 < −𝜇 ≤ −𝑋̄ + 𝑧1−𝛼 2⁄ 𝜎
√𝑛) = 1 − 𝛼
infine, moltiplicando per (-1) tutti i termini e cambiando di conseguenza i segni di disuguaglianza, si ha
𝑃 (𝑋̄ − 𝑧1−𝛼 2⁄ 𝜎
√𝑛 < 𝜇 ≤ 𝑋̄+𝑧1−𝛼 2⁄ 𝜎
√𝑛) = 1 − 𝛼
Questa disuguaglianza sta a significare che il parametro ignoto risulta contenuto in un intervallo delimitato dagli estremi
[𝑥̄ − 𝑧1−𝛼 2⁄ 𝜎
√𝑛, 𝑥̄ + 𝑧1−𝛼 2⁄ 𝜎
√𝑛]
con una probabilità 1−.
La probabilità 1− non si riferisce al risultato ottenuto, ma alla regola utilizzata.
Va infatti notato che, mentre il valore del parametro è fisso, anche se ignoto, gli estremi dell’intervallo sono variabili casuali che assumono un valore diverso a seconda di quali unità sono entrate a far parte del campione (in quanto varia il valore della media campionaria).
Nella figura successiva è riportato un grafico che mostra la situazione descritta:
sulla base di 10 possibili campioni estratti da una stessa popolazione sono stati costruiti gli intervalli di confidenza corrispondenti, nove dei quali (evidenziati in verde) contengono al loro interno, mentre quello evidenziato in rosso non lo contiene
Si è così ottenuto l’intervallo di confidenza di quando Z ha una distribuzione normale di varianza notta e gli estremi di questo intervallo
𝑥̄ ∓ 𝑧1−𝛼 2⁄ 𝜎
√𝑛
indicano che, considerati tutti i possibili campioni casuali di 𝑛 elementi
7
provenienti da una normale di varianza nota, gli intervalli di confidenza di hanno tutti una stessa ampiezza, pari a
2𝑧1−𝛼 2⁄ 𝜎
√𝑛
L’intervallo di confidenza di ha un’ampiezza che aumenta al crescere del livello 1− e della varianza 𝜎2, mentre diminuisce all’aumentare di 𝑛.
ESEMPIO
Da una popolazione in cui una variabile di interesse si distribuisce in modo normale con varianza 𝜎2 = 9 è stato estratto un campione di 16 elementi la cui media è risultata uguale a 6. Calcolare l’intervallo di confidenza di al livello di probabilità 1−=0.95.
Tenendo presente che =0.05, per cui =0.025, il quantile della normale standard da utilizzare per la costruzione dell’intervallo di confidenza è quello di ordine 1-=1−0.025=0.975.
Dalla tavola B, posto p=0.975, si ottiene il quantile z0.975=1.96, per cui l’intervallo di confidenza di risulta approssimativamente
𝑥̄ ∓ 𝑧𝛼/2 𝜎
√16 = 6 ∓ 1.963 4= {
4.53 7.47
In generale, l’intervallo di confidenza di un qualsiasi parametro si basa su una funzione (X1, X2, ..., Xn, ), detta quantità pivotale, che è una funzione delle 𝑛 variabili casuali Xi (per i = 1, 2, ..., n) e del parametro ignoto .
La distribuzione di probabilità di (X1, X2, ..., Xn, ) deve essere nota e deve dipendere dal solo parametro oggetto di indagine.
La funzione
𝑋̄ − 𝜇 𝜎 √𝑛⁄
è una quantità pivotale nel caso considerato, in quanto ha una distribuzione nota e dipende dal solo parametro ignoto .
2) La variabile Z ha una distribuzione normale di varianza non nota e la numerosità campionaria è piccola (minore o uguale a 30)
Quando la varianza della popolazione non è nota, la funzione precedentemente utilizzata non è una quantità pivotale, perché dipende, oltre che da , anche dal parametro ignoto 𝜎2.
Per ottenere una quantità pivotale è però sufficiente sostituire al posto di tale parametro il valore dello stimatore corrispondente, ossia la varianza campionaria corretta 𝑠𝑐2.
La funzione
𝑋̄ − 𝜇
𝑆𝑐⁄√𝑛~ 𝑡𝑛−1
si distribuisce come una t di Student con 𝑛 − 1 gradi di libertà, pari quindi alla
9
numerosità campionaria meno 1.
Anche questa distribuzione è unimodale e simmetrica rispetto all’origine, per cui l’intervallo di confidenza più corto è quello delimitato dai due quantili di ordine
/2 e 1−/2, rispettivamente indicati da
𝑡𝑛−1,𝛼 2⁄ e 𝑡𝑛−1,1−𝛼 2⁄
Per ottenere l’intervallo di confidenza di si segue il procedimento descritto in precedenza, sostituendo al posto dei quantili della normale standard i quantili della ti di Student. Tenendo presente che
𝑡𝑛−1,𝛼 2⁄ = −𝑡𝑛−1,1−𝛼 2⁄
si parte quindi dalla seguente disuguaglianza
𝑃 [−𝑡𝑛−1,1−𝛼 2⁄ < 𝑋̄ − 𝜇
𝑆𝑐⁄√𝑛 ≤ 𝑡𝑛−1,1−𝛼 2⁄ ] = 1 − 𝛼
e si isola il parametro ignoto . Il risultato finale corrisponde a
𝑃 [𝑋̄ − 𝑡𝑛−1,1−𝛼 2⁄ 𝑆𝑐
√𝑛 < 𝜇 ≤ 𝑋̄+𝑡𝑛−1,1−𝛼 2⁄ 𝑆𝑐
√𝑛] = 1 − 𝛼
per cui il parametro ignoto risulta contenuto in un intervallo centrato sulla media campionaria e delimitato dagli estremi
𝑥̄ ∓ 𝑡𝑛−1,1−𝛼 2⁄ 𝑠𝑐
√𝑛
con una probabilità 1−.
ESEMPIO
Si calcoli l’intervallo di confidenza di al livello di probabilità del 99% su un campione di 21 elementi proveniente da una popolazione normale sapendo che la media campionaria è 20 e la varianza corretta è 16.
Tenendo presente che =0.01, per cui =0.005, il quantile della normale standard da utilizzare per la costruzione dell’intervallo di confidenza è quello di ordine 1-=1−0.005=0.995.
Dalla tavola della t di Student, posto k=20 e p=0.995, si ottiene il quantile t20, 0.975=2.845, per cui l’intervallo di confidenza di
20 ∓ 2.845√16 21
per cui l’intervallo di confidenza, approssimato a 4 cifre decimali, corrisponde a [17.5167, 22.4833]
3) La variabile Z ha una distribuzione normale di varianza non nota e la numerosità campionaria è elevata (maggiore di 30)
L’unica differenza rispetto al caso precedente è dovuta al fatto che la numerosità campionaria è abbastanza elevata da poter utilizzare il teorema limite fondamentale, per cui la distribuzione della funzione
𝑋̄ − 𝜇
𝑆𝑐⁄√𝑛~ 𝑁(0, 1)
può essere approssimata da una normale standard.
In questo caso gli estremi dell’intervallo di confidenza per al livello di confidenza 1− sono
11
𝑥̄ ∓ 𝑧1−𝛼 2⁄ 𝑠𝑐
√𝑛
Anche in questo caso l’intervallo è centrato sulla media campionaria.
ESEMPIO
Su un campione di 100 elementi proveniente da una popolazione normale la media è pari a 25 e la varianza corretta a 49. Determinare l’intervallo di confidenza approssimato di al livello 1− = 0.90
Tenendo presente che =0.10, per cui =0.05, il quantile della normale standard da utilizzare per la costruzione dell’intervallo di confidenza è quello di ordine 1-=1−0.05=0.95.
Dalla tavola B, posto p=0.95, si ottiene il quantile z0.975=1.645, per cui l’intervallo di confidenza di al livello 1− = 0.90 risulta approssimativamente
[25 − 1.645√ 49
100, 25 + 1.645√49
100] = [23.8485, 26.1515]
4) La variabile Z ha una distribuzione non nota e la numerosità campionaria è elevata
Quando non è si conosce nulla della variabile Z, per cui non è nota la sua varianza e neppure la sua distribuzione, il teorema limite fondamentale richiederebbe una numerosità campionaria pari ad almeno 50 elementi, ma spesso viene utilizzato anche per una numerosità superiore alle 30 unità.
In queste condizioni si utilizza la medesima funzione del caso precedente
𝑋̄ − 𝜇
𝑆𝑐⁄√𝑛~ 𝑁(0, 1)
e si ottiene quindi un intervallo di confidenza delimitato dai seguenti valori
𝑥̄ ∓ 𝑧1−𝛼 2⁄ 𝑠𝑐
√𝑛
La costruzione di intervalli di confidenza al livello di probabilità 1− comporta necessariamente la possibilità di ottenere un intervallo che non contiene il parametro con probabilità . Si potrebbe quindi pensare di ridurre il valore di ma, all’aumentare di 1− aumenta l’ampiezza dell’intervallo di confidenza, così che l’informazione è meno accurata (se non si fosse disposti ad accettare la possibilità di commettere errori si potrebbe solo affermare che assume valori compresi tra − e + e questa informazione sarebbe del tutto inutile). D’altra parte, se si riduce l'ampiezza dell'intervallo, aumenta di conseguenza la probabilità di fare un'affermazione errata.
In generale, considerati i diversi intervalli di confidenza costruiti per il parametro
si nota che la loro ampiezza aumenta al crescere del livello di probabilità 1− e diminuisce all’aumentare di 𝑛. Infine, se la varianza della popolazione è nota, l’intervallo di confidenza per tende ad aumentare al crescere di 𝜎2.
13
INTERVALLO DI CONFIDENZA DI
Tenendo presente la circostanza che i campioni effettivamente utilizzati hanno di solito una numerosità sufficientemente elevata da poter utilizzare il teorema limite fondamentale, la determinazione dell’intervallo di confidenza della proporzione di unità che presentano un determinata caratteristica verrà effettuata considerando la distribuzione asintotica dello stimatore 𝑃̂.
Per una numerosità 𝑛 sufficientemente elevata, si è visto che la distribuzione della proporzione campionaria può essere approssimata da
𝑃̂~𝑁 (𝜋,𝜋(1 − 𝜋)
𝑛 )
Effettuando l’operazione di standardizzazione si ottiene la funzione 𝑃̂ − 𝜋
√𝜋(1 − 𝜋) 𝑛
che però non è una quantità pivotale, in quanto la deviazione standard che compare al denominatore è funzione del parametro ignoto 𝜋.
Per stimare questa varianza si può però sostituire al posto del parametro 𝜋 il valore dello stimatore proporzione campionaria, per cui la varianza 𝜋(1−𝜋)
𝑛 può essere stimata dal valore di
𝑃̂(1 − 𝑃̂) 𝑛 calcolato sul campione estratto.
La funzione
𝑃̂ − 𝜋
√𝑃̂(1 − 𝑃̂) 𝑛
~𝑁(0, 1) per 𝑛 → +∞
che è una quantità pivotale funzione delle 𝑛 variabili casuali Xi (per i = 1, 2, ..., n) e del parametro ignoto , tende a distribuirsi come una normale standard al crescere della numerosità campionaria e può essere utilizzata per ottenere l’intervallo di confidenza di 𝜋.
Seguendo sempre il procedimento utilizzato in precedenza, questo intervallo di confidenza è delimitato dai due estremi
𝑝̂ ∓ 𝑧1−𝛼/2√𝑝̂(1 − 𝑝̂) 𝑛
dove la proporzione campionaria 𝑝̂ corrisponde anche alla media del campione.
ESEMPIO
In un campione di 500 ragazzi estratti casualmente dalla popolazione di interesse 100 sono risultati disoccupati. Si vuole determinare l’intervallo di confidenza della proporzione di ragazzi disoccupati al livello di probabilità 1− = 0.99.
La proporzione campionaria è pari a 𝑝̂ =100
500 = 0.2
mentre 𝑧1−𝛼/2 = 𝑧0.995 = 2.576, per cui l’intervallo di confidenza è delimitato da questi due estremi
0.2 ∓ 2.576√0.2 × 0.8 500
e risulta approssimativamente [0.1539, 0.2461]
15
ESERCIZI
1. Su un campione casuale di 20 elementi estratto da una popolazione normale la media è risultata pari a 2 e la varianza corretta a 4. Determinare l’intervallo di confidenza di ai livelli di probabilità: 𝑎) 1− = 0.95; 𝑏) 1− = 0.99
Soluzione
La situazione analizzata rientra nel caso 2), per cui l’intervallo di confidenza va calcolato sulla base dei quantili della t di Student con un numero di gradi di libertà pari a 20−1=19.
Per i due livelli di probabilità considerati si ottiene quindi 𝑎) 𝑡19,0.975 = 2.093 ⇒ 2 ∓ 2.093√ 4
20= {
1.06398 2.93602 𝑏) 𝑡19,0.995 = 2.861 ⇒ 2 ∓ 2.861√ 4
20= {
0.72052 3.27948
2. Date le seguenti osservazioni relative ad un campione casuale proveniente da una popolazione normale
2.0 1.2 1.3 1.4 0.4 0.7 0.5 0.5
determinare l’intervallo di confidenza di al livello di probabilità 1− = 0.95 Soluzione
Anche questa situazione rientra nel caso 2), per cui l’intervallo di confidenza va calcolato sulla base dei quantili della t di Student con un numero di gradi di libertà pari a 8−1=7.
Sul campione si ottengono i seguenti risultati 𝑥̄ = 1
𝐸(𝑋2) = 1.28 𝑉(𝑋) = 0.28
La varianza campionaria corretta risulta quindi pari a 𝑆𝑐2 =8
7× 0.28 = 0.32 per cui si ha
𝑡7,0.975 = 2.365 ⇒ 1 ∓ 2.365√0.32 8 = {
0.527 1.473
3. Date le seguenti osservazioni relative ad un campione casuale di 250 elementi, Classi Frequenze relative
-2 − 2 0.2
2 − 6 0.2
6 − 8 0.6
1.00
determinare l’intervallo di confidenza di al livello di probabilità 1− = 0.99 Soluzione
La situazione analizzata rientra nel caso 4), per cui l’intervallo di confidenza va calcolato sulla base dei quantili della t normale standard.
Sul campione si ottengono i seguenti risultati 𝑥̄ = 5
𝐸(𝑋2) = 32.6 𝑉(𝑋) = 7.6
La varianza campionaria corretta risulta quindi pari a 𝑆𝑐2 =250
249× 7.6 ≈ 7.6305 per cui si ottiene
𝑧0.995 = 2.576 ⇒ 5 ∓ 2.576√7.6305 250 ≈ {
4.5500 5.4500
4. Su un campione di 3000 piantine estratte in modo casuale da una coltura, 150 presentano una determinata malattia. Costruire l’intervallo di confidenza della proporzione di piantine malate al livello di probabilità 1− = 0.90.
Soluzione
Sulla base dei dati campionari risulta 𝑥̄ = 𝑝̂ = 150
3000 = 0.05 Risulta quindi
𝑧0.95 = 1.645 ⇒ 0.05 ∓ 1.645√0.05 × 0.95 3000 = {
0.04345 0.05655
17
5. Su un campione di 8 elementi estratto da una popolazione normale la media è risultata pari a 4.375 e la varianza a 2.3594. Costruire l’intervallo di confidenza di
al livello di probabilità 1− = 0.95.
Soluzione
La situazione analizzata rientra nel caso 2), per cui l’intervallo di confidenza va calcolato sulla base dei quantili della t di Student con un numero di gradi di libertà pari a 8−1=7. Va però determinato anche il valore della varianza campionaria corretta, che risulta pari a
𝑆𝑐2 =8
7× 2.3594 ≈ 2.6965 Si ottiene quindi
𝑡7,0.975 = 2.365 ⇒ 4.375 ∓ 2.365√2.6965
8 = {
3.0019 5.7481