• Non ci sono risultati.

Lezione 20 In numerose situazioni reali un

N/A
N/A
Protected

Academic year: 2021

Condividi "Lezione 20 In numerose situazioni reali un"

Copied!
18
0
0

Testo completo

(1)

Lezione 20

In numerose situazioni reali un’indagine campionaria ha lo scopo di stimare il valore ignoto di una certa caratteristica della popolazione. Esempi di questo tipo si hanno quando l’indagine si pone l’obiettivo di stimare il reddito medio delle famiglie, il fatturato delle aziende, il numero di disoccupati, il prezzo medio della benzina, la proporzione di spettatori che ha seguito un particolare programma televisivo. In queste situazioni la caratteristica ignota della popolazione che si vuole stimare attraverso l’indagine campionaria viene detta parametro.

Vedremo in seguito che le indagini campionarie possono essere effettuate per motivi diversi, come, per esempio, per valutare

- se esiste una relazione fra due variabili o se queste sono indipendenti, - se la distribuzione di una variabile può essere approssimata da un certo

modello matematico,

- se la proporzione di unità con una certa caratteristica, o la media di una certa variabile, risulta la stessa in due popolazioni diverse.

In ogni caso, quando l’indagine è di tipo campionario, l’estensione dei risultati ottenuti all’intera popolazione non è immediata, ma occorre conoscere le caratteristiche dei possibili risultati campionari e le loro relazioni con le caratteristiche ignote della popolazione.

Nel caso di una popolazione dicotomica (e quindi assimilabile a un’urna contenente palline di due colori diversi) abbiamo visto attraverso la distribuzione binomiale che i possibili campioni, estratti con ripetizione,

(2)

possono risultare più o meno simili alla popolazione da cui il campione proviene. Da un’urna che contiene uno stesso numero di palline bianche e nere possono essere infatti estratti campioni composti da palline tutte bianche o tutte nere, ma i campioni più probabili sono quelli che risultano composti da un numero all’incirca uguale di palline bianche e nere.

La proporzione campionaria 𝑃̂ “proporzione di palline bianche estratte” può quindi assumere valori più o meno vicini al parametro 𝜋 “proporzione di palline bianche nell’urna”, ma i valori più probabili di 𝑃̂ non si discostano molto da 𝜋.

L’obiettivo delle prossime pagine sarà quello di analizzare le caratteristiche di altri indici calcolati sul campione (in particolare la media campionaria) e di valutare le loro relazioni con le caratteristiche di interesse nella popolazione.

Per ottenere questi risultati è però necessario partire dallo studio della composizione di tutti i possibili campioni che possono essere selezionati a partire da una popolazione nota e dal calcolo della probabilità associata a ciascuno di questi campioni.

(3)

DISTRIBUZIONE DI PROBABILITÀ DELL'ENNUPLA CAMPIONARIA Data, per esempio, una popolazione in cui Z ha la seguente distribuzione

Z Frequenze assolute Frequenze relative

1 5 0.5

2 4 0.4

3 1 0.1

10 1.0

si determinerà quanti e quali sono i possibili campioni di n elementi che possono essere estratti e si calcolerà la probabilità associata a ciascuno di questi campioni.

In questo modo si ottiene la cosiddetta distribuzione di probabilità dell'ennupla campionaria.

Nel capitolo relativo alle variabili casuali si è visto che se si procede all’estrazione di una singola unità statistica per rilevare il valore assunto dalla variabile Z su questa unità, resta definita la variabile casuale X “valore di Z sull’unità estratta” e la distribuzione di probabilità della X corrisponde alla distribuzione di frequenza della variabile Z.

Se si estraggono due unità statistiche e su ciascuna di esse si rileva il valore della variabile Z restano definite due variabili casuali:

- X1 “valore di Z sulla prima unità estratta”

- X2 “valore di Z sulla seconda unità estratta”.

Se è nota la distribuzione di frequenza della variabile Z, è nota la distribuzione di probabilità delle due variabili casuali X1 e X2 e, se l’estrazione è effettuata con ripetizione, le due variabili casuali sono indipendenti fra loro, per cui la loro

(4)

distribuzione di probabilità congiunta corrisponde al prodotto delle probabilità marginali.

Per esempio, considerando la distribuzione di Z riportata nella tabella precedente, si possono determinare tutte le possibili coppie di valori delle due variabili casuali X1 e X2, o della variabile casuale doppia X1,X2.

A ciascuna di queste coppie di valori può essere associata la probabilità corrispondente, pari al prodotto delle probabilità marginali delle due variabili casuali.

X1,X2 Probabilità congiunta 1, 1 0.5×0.5 = 0.25 1, 2 0.5×0.4 = 0.20 1, 3 0.5×0.1 = 0.05 2, 1 0.4×0.5 = 0.20 2, 2 0.4×0.4 = 0.16 2, 3 0.4×0.1 = 0.04 3, 1 0.1×0.5 = 0.05 3, 2 0.1×0.4 = 0.04 3, 3 0.1×0.1 = 0.01

1.00

In questo modo si è determinata la distribuzione di probabilità congiunta di tutti i campioni di 2 elementi che possono essere estratti dalla popolazione considerata.

Questo stesso procedimento, che può essere esteso a un campione di numerosità n qualsiasi, consente di determinare la distribuzione di probabilità dell’ennupla campionaria.

(5)

In generale, data la distribuzione di frequenza della variabile di interesse Z, per

un campione di numerosità n sono determinate n variabili casuali Xi (con i = 1, 2, ..., n) “valore di Z sulla i-esima unità estratta”, che hanno tutte una

distribuzione di probabilità corrispondente alla distribuzione di frequenza della variabile Z.

Se il campionamento è con ripetizione, le variabili casuali Xi sono i.i.d e costituiscono nel loro insieme una variabile casuale a n dimensioni la cui funzione di probabilità congiunta è uguale al prodotto delle n distribuzioni di probabilità marginali.

Nel seguito utilizzeremo le seguenti notazioni

- X indica la variabile casuale n-variata composta da n variabili casuali Xi

i.i.d.

- x indica la generica determinazione della variabile X,

- L(x) indica la funzione di probabilità congiunta, pari al prodotto delle n probabilità marginali delle singole Xi.

In alcuni casi è noto che la distribuzione di una variabile Z può essere ben approssimata da un modello teorico (come, per esempio, da un modello normale). In questi casi lo scopo dell’indagine campionaria consiste nell’ottenere informazioni sui valori di tutti o di alcuni dei parametri che caratterizzano tale modello.

(6)

STATISTICHE CAMPIONARIE

I valori campionari effettivamente rilevati dipendono da quali unità statistiche sono entrate a far parte del campione, per cui nel campione selezionato si osserva una particolare ennupla x di valori che si può discostare in misura minore o maggiore dalla vera struttura distributiva della variabile Z nella popolazione.

Si è visto in precedenza come la sequenza di palline bianche e nere estratte dall’urna dava origine a una proporzione campionaria che poteva somigliare più o meno alla vera proporzione di palline bianche e nere presenti nell’urna.

Per dare un esempio di quanto accade realmente in una indagine campionaria, si pensi di richiedere a un qualsiasi software statistico di simulare l’estrazione di n elementi da una popolazione di distribuzione nota e di analizzare il campione così simulato.

Per esempio, la seguente sequenza ordinata di 10 osservazioni è stata ottenuta da un software che ha simulato un’estrazione di 10 valori da una popolazione normale di parametri =10 e 2=4

7.89 7.96 8.81 10.17 10.64 11.78 12.49 12.54 12.68 13.03

Su questo campione la media risulta pari a 10.8 e la varianza a 3.61, per cui entrambi questi risultati sono abbastanza prossimi ai due parametri della popolazione.

Chiedendo al software di simulare un altro campione, sempre composto da 10 elementi, si sarebbe ottenuta una differente sequenza e, di conseguenza, un diverso valore della media e della varianza. Si dimostrerà però che,

(7)

all'aumentare della numerosità campionaria n, aumenta la probabilità di ottenere dei risultati campionari che forniscono stime attendibili dei parametri della popolazione.

Cominciando a considerare il caso più semplice, in cui l’indagine campionaria è condotta per stimare un parametro ignoto della popolazione (ad esempio una media o una proporzione), si comprende come, una volta estratta l’ennupla campionaria, la si usa per calcolare una opportuna funzione in grado di stimare il parametro ignoto.

È quindi abbastanza naturale utilizzare i dati raccolti per calcolare sul campione la medesima caratteristica che si vuole stimare per la popolazione;

pertanto sembra ragionevole, per esempio, calcolare il valore della proporzione campionaria 𝑃̂ per stimare il parametro 𝜋 e il valore della media campionaria 𝑋̅ per stimare il parametro 𝜇.

Questo argomento verrà ripreso in seguito e si forniranno i criteri per individuare la migliore funzione dei dati campionari da utilizzare per stimare i parametri ignoti di una popolazione, ma per il momento è importante sottolineare la considerazione riportata nel riquadro successivo.

Nota la distribuzione di probabilità congiunta dell’ennupla campionaria, da quest’ultima si può ottenere la distribuzione di probabilità di una qualsiasi funzione dei dati campionari.

Per esempio, considerata nuovamente la precedente distribuzione di probabilità congiunta dei campioni di due elementi

(8)

X1,X2 Probabilità congiunta 𝑋̅

1, 1 0.5×0.5 = 0.25 1.0 1, 2 0.5×0.4 = 0.20 1.5 1, 3 0.5×0.1 = 0.05 2.0 2, 1 0.4×0.5 = 0.20 1.5 2, 2 0.4×0.4 = 0.16 2.0 2, 3 0.4×0.1 = 0.04 2.5 3, 1 0.1×0.5 = 0.05 2.0 3, 2 0.1×0.4 = 0.04 2.5 3, 3 0.1×0.1 = 0.01 3.0

1.00

si può determinare il valore 𝑥̅ assunto dalla media 𝑋̅ dei due elementi estratti (che assume i valori riportati nella terza colonna della tabella) e la sua distribuzione di probabilità. Questa distribuzione si ottiene sommando le probabilità associate a tutti quei campioni che forniscono uno stesso valore 𝑥̅

di 𝑋̅ (per una maggiore comprensione del procedimento si sono indicate mediante uno stesso colore le righe relative a campioni che forniscono uno stesso valore della media).

La variabile casuale media campionaria per un campione di 2 elementi presenta quindi la seguente distribuzione di probabilità

𝑋̅ 𝑝(𝑥̄)

1.0 0.25

1.5 0.20+0.20=0.40 2.0 0.05+0.16+0.05=0.26 2.5 0.04+0.04=0.08

3.0 0.01

1.00

In generale, una qualsiasi funzione dei dati campionari viene usualmente indicata mediante la notazione

(9)

T = g(X)

ed è chiamata statistica campionaria, mentre il valore assunto da tale funzione sui dati effettivamente estratti

t = g(x)

indica una particolare determinazione della variabile casuale T.

Considerata una variabile Z di tipo discreto, la distribuzione di probabilità di T

= g(X), e quindi la probabilità 𝑃(𝑇 = 𝑡), si ottiene associando ad ogni valore t di T la somma delle probabilità di tutte le ennuple che forniscono un valore di T esattamente uguale a t.

La funzione dei dati campionari T = g(X) è una variabile casuale, funzione delle n variabili casuali Xi, che viene utilizzata per stimare un parametro ignoto della popolazione.

Per questo motivo, considerato un generico parametro  (che si legge “teta”) che caratterizza la distribuzione della variabile di interesse Z, la variabile casuale T viene anche chiamata stimatore di , mentre la determinazione t che la variabile casuale T assume sul campione osservato è detta stima di .

(10)

Riassumendo quanto detto finora

- Il campione osservato è una determinazione di una variabile casuale ad n dimensioni costituita dalle n variabili Xi i.i.d. caratterizzate da una funzione di probabilità che corrisponde alla distribuzione di frequenza della variabile di interesse Z nella popolazione

- ogni funzione dei dati campionari T = g(X) è una variabile casuale a una dimensione la cui funzione di probabilità dipende dalla funzione di probabilità congiunta delle Xi

- La funzione dei dati campionari T = g(X) viene utilizzata per stimare un parametro ignoto della variabile Z nella popolazione e per tale motivo viene detta stimatore, mentre il valore t assunto dallo stimatore sul campione estratto è detto stima del parametro.

Fra le possibili funzioni dei dati campionari che verranno considerate nelle prossime lezioni vale la pena ricordare la media campionaria, data dalla media delle n variabili casuali Xi, “valore di Z sulla i-esima unità estratta”

𝑋 = 1

𝑛∑ 𝑋𝑖

𝑛

𝑖=1

,

che, una volta estratto il campione, assume il valore

𝑥 = 1 𝑛∑ 𝑥𝑖

𝑛

𝑖=1

(11)

Va osservato che se la variabile Z è dicotomica e si indica con 𝜋 la proporzione di unità della popolazione che presentano la caratteristica di interesse, le Xi si distribuiscono come una variabile casuale di Bernoulli di parametro 𝜋. In questo caso la media campionaria 𝑋, pari al rapporto fra il numero di variabili casuali Zero-Uno che assumono valore 1 (corrispondente al numero di unità con la caratteristica di interesse) sul numero complessivo di individui esaminati, coincide con la proporzione campionaria

𝑋 =1

𝑛∑ 𝑋𝑖 = 𝑃̂

𝑛

𝑖=1

Un altro stimatore che sarà utilizzato di frequente è la varianza campionaria

𝑆2 = 1

𝑛∑(𝑋𝑖 − 𝑋)2

𝑛

𝑖=1

il cui valore numerico, calcolato sul campione osservato, corrisponde a

𝑠2 = 1

𝑛∑(𝑥𝑖 − 𝑥)2

𝑛

𝑖=1

(12)

ESEMPI

1. Considerata un’urna contenente 20 palline di cui 4 bianche, 6 rosse e 10 gialle, si consideri un esperimento che consiste nell’estrazione di due palline con ripetizione. Considerata la variabile casuale “numero medio di palline bianche estratte” si ne determini la distribuzione di probabilità

Indicata con X la variabile casuale “numero di palline bianche estratte”, la sua distribuzione è una Binomiale (2, 0.2), per cui

X P(X=x) 0 0.82=0.64 1 2×0.8×0.2=0.32 2 0.22=0.04

1.00

La media campionaria, o proporzione campionaria, 𝑋 = 𝑃̂ =𝑋

𝑛

assume quindi la seguente distribuzione di probabilità 𝑋̄ 𝑃(𝑥̄)

0.0 0.64 0.5 0.32 1.0 0.04 1.00

(13)

2. Considerata un’urna contenente 3 palline numerate con i valori 1, 2 e 3, si consideri un esperimento che consiste nell’estrazione di due palline con ripetizione.

Indicate rispettivamente con X1 e X2 le due variabili casuali “punteggio alla prima estrazione” e “punteggio alla seconda estrazione” se ne determini la distribuzione di probabilità.

Indicata con S la variabile casuale “somma dei punteggi” se ne determini la distribuzione di probabilità

Si ottiene

X1 P(x1) 1 1/3 2 1/3 3 1/3 1.00 X2 P(x2)

1 1/3 2 1/3 3 1/3 1.00

S P(s)

2 1/3×1/3=1/9

3 1/3×1/3+1/3×1/3=2/9 4 1/3×1/3+1/3×1/3+1/3×1/3=3/9 5 1/3×1/3+1/3×1/3=2/9

6 1/3×1/3=1/9

1.00

(14)

CARATTERISTICHE DELLE STATISTICHE CAMPIONARIE

Considerata una variabile discreta Z di media  e varianza 2 e un campione di n elementi estratto con ripetizione, si è visto come le n variabili Xi “valore di Z sull’i-esima unità estratta” sono i.i.d. con una distribuzione di probabilità che corrisponde alla distribuzione di frequenza della variabile Z, per cui il valore atteso e la varianza di ciascuna Xi corrisponde, rispettivamente, alla media e alla varianza di Z.

Sulla base di queste considerazioni è facile determinare il valore atteso e la varianza dello stimatore media campionaria

𝑋̅ = 1

𝑛∑ 𝑋𝑖

𝑛

𝑖=1

Il valore atteso della media campionaria risulta pari a 𝐸(𝑋̅) = 𝐸 (1

𝑛∑ 𝑋𝑖

𝑛

𝑖=1

) = 1

𝑛𝐸 (∑ 𝑋𝑖

𝑛

𝑖=1

) = 1

𝑛∑[𝐸(𝑋𝑖)]

𝑛

𝑖=1

=1

𝑛𝑛𝜇 = 𝜇

mentre la sua varianza è 𝑉(𝑋̅) = 𝑉 (1

𝑛∑ 𝑋𝑖

𝑛

𝑖=1

) = 1

𝑛2𝑉 (∑ 𝑋𝑖

𝑛

𝑖=1

) = 1

𝑛2∑[𝑉(𝑋𝑖)]

𝑛

𝑖=1

= 1

𝑛2𝑛𝜎2 = 𝜎2 𝑛

Da questi risultati deriva che, al crescere della numerosità campionaria, la distribuzione di 𝑋 tende a concentrarsi intorno al suo valore atteso  per cui, all’aumentare di n, diventa via via più improbabile ottenere dei valori della

(15)

media campionaria che si discostano di molto dal valore vero del parametro  della popolazione.

Si dice che la variabile casuale media campionaria “converge in probabilità” al parametro  della popolazione.

Le stesse considerazioni valgono per la variabile casuale 𝑃̂. In questo caso, considerata una variabile Z dicotomica e indicata con 𝜋 la proporzione di unità che nella popolazione presentano la caratteristica di interesse, le n variabili casuali Xi sono i.i.d. e hanno una distribuzione Zero-Uno di parametro 𝜋, per cui il valore atteso di ciascuna Xi corrisponde a 𝜋 e la loro varianza è𝜋(1 − 𝜋).

Il valore atteso della proporzione campionaria è 𝐸(𝑃̂) = 𝐸 (1

𝑛∑ 𝑋𝑖

𝑛

𝑖=1

) = 1

𝑛𝐸 (∑ 𝑋𝑖

𝑛

𝑖=1

) = 1

𝑛∑[𝐸(𝑋𝑖)]

𝑛

𝑖=1

=1

𝑛𝑛𝜋 = 𝜋

mentre la sua varianza è 𝑉(𝑃̂) = 𝑉 (1

𝑛∑ 𝑋𝑖

𝑛

𝑖=1

) = 1

𝑛2𝑉 (∑ 𝑋𝑖

𝑛

𝑖=1

) = 1

𝑛2∑ 𝑉(𝑋𝑖)

𝑛

𝑖=1

= 1

𝑛2𝑛𝜋(1 − 𝜋)

= 𝜋(1 − 𝜋) 𝑛

Al crescere della numerosità campionaria, la distribuzione di 𝑃̂ tende a concentrarsi intorno al suo valore atteso 𝜋 per cui, all’aumentare di n, diventa via via più improbabile ottenere dei valori della proporzione campionaria che si discostano di molto dal valore vero del parametro 𝜋.

(16)

La variabile casuale proporzione campionaria converge quindi in probabilità al parametro 𝜋della popolazione.

Per la varianza campionaria si ottengono risultati parzialmente diversi dai precedenti.

Il valore atteso della varianza campionaria 𝑆2 risulta infatti pari a

𝐸(𝑆2) =𝑛 − 1 𝑛 𝜎2

ed è quindi minore della varianza 𝜎2 della variabile Z nella popolazione, ma il rapporto

𝑛 − 1 𝑛 tende a 1 al crescere di 𝑛.

Tenuto conto del fatto che la varianza della varianza campionaria 𝑉(𝑆2) tende a zero al crescere di 𝑛, si può affermare che la variabile casuale 𝑆2 converge in probabilità alla varianza 𝜎2 della Z nella popolazione.

In realtà, come vedremo meglio in seguito, l’interesse per il valore della varianza 𝜎2 della variabile Z deriva quasi sempre dall’interesse per il parametro , in quanto la variabilità della media campionaria dipende dalla varianza 𝜎2 della popolazione, che però di solito non è nota.

(17)

ESERCIZI

1. Data un’urna contenente 2 palline bianche, 3 nere e 5 rosse si consideri un esperimento che consiste nell’estrazione di 4 palline con ripetizione. Si determini la distribuzione della variabile casuale Y “numero di palline bianche presenti nel campione”, il suo valore atteso e la sua varianza. Si determini valore atteso e varianza della variabile casuale 𝑃̂ “proporzione di palline bianche presenti nel campione”.

𝑌~𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙𝑒(4, 0.2)

𝐸(𝑌) = 𝑛𝜋 = 4 × 0.2 = 0.8

𝑉(𝑌) = 𝑛𝜋(1 − 𝜋) = 4 × 0.2 × 0.8 = 0.64 𝐸(𝑃̂) = 𝜋 = 0.2

𝑉(𝑃̂) = 𝜋(1 − 𝜋)

𝑛 = 0.2 × 0.8

4 = 0.04

2. Data una variabile Z che nella popolazione si distribuisce in modo normale con media pari a 100 e varianza pari a 25, calcolare la probabilità che la media di un campione casuale di 16 elementi estratto da questa popolazione assuma un valore compreso fra 98 e 102.

Dato che

𝑋̅~𝑁 (100,25 16) la probabilità richiesta risulta

𝑃(98 < 𝑋̄ ≤ 102) = Φ (102 − 100

5/4 ) − Φ (98 − 100

5/4 ) = 2Φ(1.6) − 1 =

= 2 × 0.9452 − 1 = 0.8904

(18)

3. Data una popolazione in cui la variabile di interesse ha una media pari a 10 e una varianza pari a 25, calcolare la probabilità che la media campionaria di un campione casuale di 100 elementi estratto da questa popolazione assuma un valore: a) inferiore o uguale a 9, b) maggiore di 13

In base al teorema limite centrale la distribuzione della media campionaria è

𝑋̅~𝑁 (10, 25

100 = 0.25) per cui le probabilità richieste risultano

𝑎)𝑃(𝑋̄ ≤ 9) = Φ (9 − 10

0.5 ) = Φ(−2) = 1 − Φ(2) = 1 − 0.9772 = 0.0228 𝑏) 𝑃(𝑋̄ > 13) = 1 − Φ (13 − 10

0.5 ) = 1 − Φ(6) ≅ 0.0000. ..

4. Determinare la probabilità che in un campione bernoulliano di 1.000 elementi la proporzione di elementi con una certa caratteristica A sia compresa fra 0.19 e 0.22 sapendo che la proporzione di elementi con tale caratteristica nella popolazione è pari a 0.2.

La variabile di interesse Z nella popolazione ha una distribuzione Zero-Uno di parametro 𝜋 = 0.2. A causa dell’elevata numerosità campionaria, la distribuzione asintotica della media campionaria o proporzione campionaria tende a una normale

𝑋̅ = 𝑃̂~𝑁 (π; π × (1 − π)

𝑛 )

pertanto la probabilità richiesta risulta

𝑃(0.19 < 𝑋̄ ≤ 0.22) = Φ (

0.22 − 0.2

√0.2 × 0.8 1000 )

− Φ (

0.19 − 0.2

√0.2 × 0.8 1000 )

=

= Φ(1.58) − Φ(−079) = Φ(1.58) + Φ(079) − 1=

=0.9429 + 0.7852 − 1=0.7281

Riferimenti

Documenti correlati

Osservazione 3.5 Nel caso in cui E `e un insieme finito o numerabile, segue dalla Proposi- zione 3.4 che la coppia (E, µ X ) `e uno spazio di probabilit`a discreto. Va tuttavia

Quanto visto nel caso discreto nella Proposizione 3.60 riguardo alla funzione di ripartizione del massimo e del minimo di variabili casuali indipendenti continua a valere per

Per tale punto si tracci la tangente alla circonferenza di centro (0, 0) e raggio 1, e sia L la lunghezza del segmento i cui estremi sono i punti d’intersezione di tale tangente con

Un acquirente compera 12 macchine di questo tipo e vuole sapere qual è la probabilità che al massimo una di esse si guasti entro 2 anni. Dopo 5 anni, quanto è il numero di

Esercitazione: Trasformazione di Variabili Casuali. Misure Meccaniche e Termiche

[r]

non identifica in modo univoco l’evento corrispondente ma, così come nella statistica descrittiva si aveva solo l’interesse a conoscere la distribuzione di

Come sappiamo, in una data prova non si può conoscere quale valore assumerà la nostra variabile casuale; ma se conosciamo tutti i possibili valori che la nostra variabile