Popolazione Parametri Valori fissi, spesso non noti
Campione Statistiche
o Stimatori
Variabili casuali, le cui determinazioni dipendono dalle particolari osservazioni scelte
Parametri e statistiche
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche -di Scienze Politiche - Anno accademico Anno accademico 20122012--20132013 Cristina Davino Cristina Davino
Parametri: valori caratteristici della popolazione
Statistiche o v.c. campionarie o stimatori o
statistiche test: funzioni delle osservazioni campionarie
Statistica calcolata o stima: numero ottenuto applicando la statistica al campione osservato
Distribuzione campionaria: valori che la statistica assume al variare del campione nell’universo campionario
Parametri e statistiche
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche di Scienze Politiche -- Anno accademico 2012Anno accademico 2012--20132013 Cristina Davino Cristina Davino
Distribuzioni campionarie
Le conclusioni inferenziali, basate sull’unico campione osservato, devono essere giudicate sulla base della distribuzione di probabilità dei possibili campioni che potevano essere generati e dei quali quello osservato
costituisce una realizzazione particolare.
La stima
• Si suppone che la popolazione, seppur incognita, si distribuisca secondo una legge di probabilità completamente caratterizzata sa un parametro θ o da un insieme di parametri.
• Sulla base di un campione casuale X
1, X
2, …, X
nsi vuole trovare un valore o un insieme di valori per θ che siano la migliore approssimazione possibile del valore incognito della popolazione.
La stima
La stima puntuale
Per stimare uno stesso parametro si possono usare più statistiche (più stimatori) ognuno delle quali fornisce valori potenziali per il parametro.
La stima per intervalli
Si cerca un intervallo che ha una particolare confidenza o probabilità di includere il parametro della popolazione
( 1 2 ) 1
P t < θ < t = − α
Livello di confidenza
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche -di Scienze Politiche - Anno accademico Anno accademico 20122012--20132013 Cristina Davino Cristina Davino
La stima puntuale
Occorre definire delle regole in base alle quali si possa discriminare tra stimatori alternativi:
1. Proporre stimatori “naturali”
2. Determinare la probabilità con cui uno stimatore tende a produrre stime diverse da θ
Proprietà degli stimatori
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche di Scienze Politiche -- Anno accademico 2012Anno accademico 2012--20132013 Cristina Davino Cristina Davino
La stima puntuale: la correttezza
Uno stimatore t è uno stimatore corretto del parametro θ se:
( )
E t = θ
( ) X = µ
E X
( ) n
E n 1
ˆ
2 2−
= σ
σ σ ˆ
2è uno stimatore corretto di µ
è uno stimatore distorto di σ
2( )
2 1
1
n
i i
X X
S n
=
−
= −
∑
è uno stimatore corretto di σ
2La stima puntuale
• Anche se lo stimatore presenta proprietà ottimali, una volta ottenuto il campione le stime difficilmente coincideranno con il parametro incognito
• A parità di stimatore, campioni diversi conducono a stime diverse
• Il valore numerico della singola stima non fornisce
informazioni sul probabile campo di variazione delle stime del parametro
Stima per intervalli
L’intervallo di confidenza per la media della popolazione
( )
~ 0,1 X
nN n σ
µ
−
µµ µµ
2
~ ,
X N n µ σ
• Popolazione X ∼ N ( µ σ ;
2)
• P t (
1< µ < t
2) = − 1 α
• Stimatore di µ media campionaria
α 2 α 2
t
1t
20 0 0 0
α 2 α 2
-Z
αααα/2Z
αααα/2La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche -di Scienze Politiche - Anno accademico Anno accademico 20122012--20132013 Cristina Davino Cristina Davino
• Popolazione X ∼ N ( µ σ ;
2)
• P t (
1< µ < t
2) = − 1 α
• Stimatore di µ media campionaria
• (
1 2) (
2 2)
P t < µ < t = − 1 α = P − z
α< Z < z
αZ X
n µ σ
= −
2 2
P z X z
n
α α
µ σ
−
− < <
1 α
= −
L’intervallo di confidenza per la media della popolazione
2 2
n 1
P z X z
n n
α α
σ σ
µ µ
α
− ⋅ ≤ ≤ ⋅ = −
+
2 2
1
P z z
n n
X α X α
σ σ
µ
α
− ⋅ ≤ ≤ ⋅ = −
+
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche di Scienze Politiche -- Anno accademico 2012Anno accademico 2012--20132013 Cristina Davino Cristina Davino
2 2
P z X z
n
α α
µ σ
−
− < <
1 α
= −
L’intervallo di confidenza per la media della popolazione
2 2
n 1
P z X z
n n
α α
σ σ
µ µ
α
− ⋅ ≤ ≤ ⋅ = −
+
2 2
1
P z z
n n
X α X α
σ σ
µ
α
− ⋅ ≤ ≤ ⋅ = −
+
Una macchina produce bulloni il cui peso ha distribuzione Normale con media µµµµ=63 grammi e varianzaσσσσ2=0,8.
Scegliendo a caso 8 bulloni, qual è l’intervallo che con probabilità 0,95 comprenderà la loro media?
Una macchina produce bulloni il cui peso ha distribuzione Normale con media µµµµ=incognita e varianzaσσσσ2=0,8.
Scelti a caso 8 bulloni, il loro peso medio è risultato pari a 62,6 grammi. Qual è l’intervallo che, con probabilità 0,95, contiene il parametri incognito µµµµ?
0, 89 0, 89
62, 6 1, 96 62, 6 1, 96 0, 95
8 8
P − ⋅ ≤
µ
≤ + ⋅ =
0, 89 0, 89
63 1, 96 63 1, 96 0, 95
8 Xn 8
P
− ⋅ ≤ ≤ + ⋅ =
(
63 0, 62 n 63 0, 62)
0, 95P − ≤X ≤ + =
(
62,38 Xn 63, 62)
0, 95P ≤ ≤ =
(
62, 6 0, 62 62, 6 0, 62)
0, 95P − ≤
µ
≤ + =(
61, 98 63,22)
0, 95P ≤
µ
≤ =2 2
P X z X z 1
n n
α α
σ σ
µ α
− < < + = −
•
Dopo aver estratto il campione ( x
1, x
2, K x
n)
:2 2
P x z x z 1
n n
α α
σ σ
µ α
− < < + = −
Per 1-α α α α = 68%
2
1, 00 z
α=
Per 1-α α α α = 95%
2
1, 96 z
α=
Per 1-α α α α = 99%
2
2,58 z
α=
L’intervallo di confidenza per la media della popolazione
Quando il parametro µ della popolazione è incognito, il miglior modo per stimarlo è utilizzare la media campionaria.
Quando la numerosità campionaria n è sufficientemente elevata si ha:
E’ quindi possibile dire che, con probabilità 1-α, l’intervallo:
contiene il parametro incognito µ.
µ σ
∼
2
; X N
n
2
x z
α
n
⋅ σ m
L’intervallo di confidenza per la media della popolazione
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche -di Scienze Politiche - Anno accademico Anno accademico 20122012--20132013 Cristina Davino Cristina Davino
Si supponga di aver estratto 10 campioni di 36 unità da una popolazione normale con media µ=10 e varianza pari a 36. Per ognuno di questi campioni si è calcolata la media campionaria e l’intervallo di confidenza al 95%.
Estremi dell’intervallo:
• a X 1, 96 n
= − σ b X 1, 96 n
= + σ Campione
X Estremo
inferiore a Estremo superiore b
1 8.75 6.79 10.71
2 11.75 9.79 13.71
3 8.45 6.49 10.41
4 9.70 7.74 11.66
5 10.50 8.54 12.46
6 9.00 7.04 10.96
7 11.15 9.19 13.11
8 10.50 8.54 12.46
9 7.75 5.79 9.71
10 10.10 8.14 12.06
L’intervallo di confidenza per la media della popolazione
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche di Scienze Politiche -- Anno accademico 2012Anno accademico 2012--20132013 Cristina Davino Cristina Davino
0 2 4 6 8 10 12 14 16
1 2 3 4 5 6 7 8 9 10
Num ero del cam pione
a, b, media campionaria
NO
µ
L’intervallo di confidenza per la media
della popolazione
L’altezza delle matricole universitarie di sesso maschile può essere considerata una variabile con distribuzione Normale, con media incognita e varianza pari a 10,66.
Per stimare l’altezza media si estrae un campione casuale di 58 matricole e si misura l’altezza media, che risulta pari a 175,4 cm. Si definisca l’intervallo che, ad un livello di fiducia del 90, del 95 e del 99 per cento contenga il parametro incognito della popolazione.
( )
~ ; 10, 66
X N µ n = 58 x = 175, 4 cm
0, 90
1 0, 95
0, 99 α
− =
3,265 3,265
175, 4 1, 96 175, 4 1, 96 0, 95
58 58
P − ⋅ ≤
µ
≤ + ⋅ =
3,265 3,265
175, 4 2,58 175, 4 2,58 0, 99
58 58
P − ⋅ ≤
µ
≤ + ⋅ =
3,265 3,265
175, 4 1, 64 175, 4 1, 64 0, 90
58 58
P − ⋅ ≤
µ
≤ + ⋅ = P
(
175, 4−0,705≤µ
≤175, 4+0,705)
=0, 90(
175, 4 0, 840 175, 4 0, 840)
0, 95P − ≤
µ
≤ + =(
175, 4 1,106 175, 4 1,106)
0, 99P − ≤
µ
≤ + =Esercizio
L’altezza delle matricole universitarie di sesso maschile può essere considerata una variabile con distribuzione Normale, con media incognita e varianza pari a 10,66.
Per stimare l’altezza media si estrae un campione casuale di 58 matricole e si misura l’altezza media, che risulta pari a 175,4 cm. Si definisca l’intervallo che, ad un livello di fiducia del 90, del 95 e del 99 per cento contenga il parametro incognito della popolazione.
Esercizio
( )
~ ; 10, 66
X N µ n = 58 x = 175, 4 cm
0, 90
1 0, 95
0, 99 α
− =
(
174, 6 176,2)
0, 95P ≤
µ
≤ =(
174,3 176,5)
0, 99P ≤
µ
≤ =(
174,7 176,1)
0, 90P ≤
µ
≤ = x m0,7050, 840 x m
1,106 x m
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche -di Scienze Politiche - Anno accademico Anno accademico 20122012--20132013 Cristina Davino Cristina Davino
n > 30? X ∼ ∼ ∼ ∼ N?
σ σ σ σ noto?
NO NO
NO SI SI
SI
α
⋅ σ m
2
x z n
α
⋅ σ m
2
x t n
La stima per intervalli
?
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche di Scienze Politiche -- Anno accademico 2012Anno accademico 2012--20132013 Cristina Davino Cristina Davino
La stima per intervalli
(
2)
~ ; X N µ σ X
nn σ
µ
− X
ns n
µ
−
%
( )
21
1 1
n i i
s x x
n
== −
− ∑
%
~ t
n−1La stima della media La stima della media con distribuzione nota e
con distribuzione nota e varianza varianza incognita incognita X k n
⋅ σ m
( ) ( )
; 1 ; 1
2 2
0, 95
n n
s s
P X t X t
n n
α −
µ
α −
− ⋅ ≤ ≤ + ⋅ =
% %
2 2
0, 95
P X z X z
n n
α α
σ σ
µ
− ⋅ ≤ ≤ + ⋅ =
• La funzione di densità della v.c. di Student è sempre simmetrica, con valore medio pari a 0, ed assume una forma molto simile a quello della Normale standardizzata alla quale tende assai velocemente al crescere dei gradi di libertà.
• Per valori di n piccoli o moderati, la v.c. di Student si caratterizza per una curtosi leggermente più elevata e per code più “pesanti” della v.c. Normale.
µ µµ
µ X
f(x)
X f(x)
( ) 0 ; ( )
2
E X Var X n
= = n
−
La distribuzione t di Student
La stima per intervalli
Esempio Esempio
L’altezza delle matricole universitarie di sesso maschile può essere considerata una variabile con distribuzione Normale, con media e varianza incognite.
Per stimare l’altezza media si estrae un campione casuale di 18 matricole e si misura l’altezza media, che risulta pari a 175,4 cm, con sqm campionario corretto pari a 4,4 cm. Si definisca l’intervallo che, ad un livello di fiducia del 95% contenga il parametro incognito della popolazione.
(
2)
~ ;
X N
µ
σ n =18 x=175, 4cm 1−α=0, 95(
2)
~ ; X N µ σ X
nn σ
µ
− X
ns n
µ
−
%
( )
21
1 1
n i i
s x x
n
== −
− ∑
%
~ t
n−1La stima della media La stima della media con distribuzione nota e
con distribuzione nota e varianza varianza incognita incognita
4, 4 s%= cm
X k n
⋅ σ m
X k s n
⋅
% m
0,025;17 2,110
t =
175, 4 2,11 4, 4
⋅ 18
m 175, 4 m 2,19
173,2177,6
( ) ( )
; 1 ; 1
2 2
0, 95
n n
s s
P X t X t
n n
α −
µ
α −
− ⋅ ≤ ≤ + ⋅ =
% %
(
173,2 177, 6)
0, 95P ≤
µ
≤ =Un'azienda che imbottiglia una bibita gassata vuole indagare sulla forza della pressione interna della bibita presente in una lattina. Supponendo che la forza della pressione sia una v.c.
con s.q.m. 28psi, si consideri un campione casuale di 20 lattine con pressione media pari a 235psi. Si determini un intervallo di confidenza al 95% per la pressione media delle lattine prodotte dall'azienda nel caso in cui il valore della pressione possa essere considerato distribuito normalmente.
Esercizio
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche -di Scienze Politiche - Anno accademico Anno accademico 20122012--20132013 Cristina Davino Cristina Davino
X~ N(?; 28) σ=28
n=20 1-α=0,95 1 , 96
2
α=
235 z
= x
20 96 28
, 1 235 m
[ 222 , 73 ; 245 , 27 ]
z=1,96 z=2,33
ldf=90% z=1,64
ldf=95%
ldf=99%
Esercizio
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche di Scienze Politiche -- Anno accademico 2012Anno accademico 2012--20132013 Cristina Davino Cristina Davino
• Si cerca un intervallo che ha una particolare confidenza o probabilità di includere il parametro della popolazione
( 1 2 ) 1
P t < θ < t = − α
Livello di confidenza
La stima per intervalli
( )
( )
X ∼ B n π ; n π 1 − π
( 1 )
X B ;
n n
π π
π
−
∼
• : numero di successi in n prove
• : proporzione di successi in n prove
π π π
π proporzione di successi nella popolazione
p proporzione di successi in un campione di ampiezza n P: v.c proporzione campionaria
( 1 )
P ;
n N
n
π π
→∞ π
−
∼
Z= P - ( ) ( 0;1 )
1
N n
π π − π ∼ V.C. Proporzione campionaria
La proporzione di successi nella popolazione
• Popolazione :
( 1 )
X B ;
n n
π π
π
−
∼
• P t (
1< π < t
2) = − 1 α
• Stim atore di π proporzione cam pionaria P
( 1 )
P ;
n
N
n
π π
π
→∞
−
∼
Z= P - ( ) ( 0;1 )
1 N
n π π − π ∼
La stima per intervalli
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche -di Scienze Politiche - Anno accademico Anno accademico 20122012--20132013 Cristina Davino Cristina Davino
La proporzione di successi nella popolazione
( 1 2 ) ( 2 2 )
P t < π < t = − 1 α = P − z α < Z < z α
( 1 )
Z P
n π
π π
= −
−
( ) ( )
2 2
1 1
P P z P z 1
n n
α α
π π π π
π α
− −
− < < + = −
• Dopo aver estratto il campione ( x
1, x
2, K x
n) e sostituendo al parametro ignoto della popolazione il suo stimatore p:
( ) ( )
2 2
1 1
p p p p 1
P p z p z
n n
α π α α
− −
− < < + = −
La stima per intervalli
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche di Scienze Politiche -- Anno accademico 2012Anno accademico 2012--20132013 Cristina Davino Cristina Davino
Quando il parametro π della popolazione è incognito, il miglior modo per stimarlo è utilizzare la proporzione campionaria.
Quando la numerosità campionaria n è sufficientemente elevata si ha:
E’ quindi possibile dire che, con probabilità 1-α, l’intervallo:
contiene il parametro incognito π.
( 1 )
P ;
n
N
n
π π
→∞
π
−
∼
( ) ( )
2 2
1 1
p p p p 1
P p z p z
n n
α
π
αα
− −
− < < + = −
La stima per intervalli
La proporzione di successi nella popolazione
Esercizio
La stima di una proporzione La stima di una proporzione
Da un’indagine condotta su un campione casuale di 280 matricole universitarie è risultato che il 36% si dichiara insoddisfatto della nuova Riforma.
Qual è l’intervallo che, ad un livello di fiducia del 95%, comprende il parametro incognito della popolazione?
Esercizio
La stima di una proporzione La stima di una proporzione
Da un’indagine condotta su un campione casuale di 280 matricole universitarie è risultato che il 36% si dichiara insoddisfatto della nuova Riforma.
Qual è l’intervallo che, ad un livello di fiducia del 95%, comprende il parametro incognito della popolazione?
Parametro:
πππ π
(Proporzione nella popolazione) Stimatore:
p
(Proporzione campionaria)( )
=π
E p
( ) π
⋅(
−π )
= 1
Var p n
Per campioni grandi
( )
π π
π
⋅ −
~ ; 1 p N
n n=280 p=0,36 1-
α α α α
= 0,95( )
α α
π
π π
α
−
− ≤ ≤ = −
⋅ −
2 2 1
1
P z p z
n
( ) ( )
α α
π π π π
π
α ⋅ − ⋅ −
⇒ − ⋅ ≤ ≤ + ⋅ = −
2 2
1 1
1
P p z p z
n n
α
=
2
1, 96 z
( ) π ( )
⋅ − ⋅ −
⇒ − ⋅ ≤ ≤ + ⋅ =
0,36 1 0,36 0,36 1 0,36
0, 36 1, 96 0,36 1, 96 0, 95
280 280
P
;
( π )
⇒P0,36−0, 056≤ ≤0,36+0, 056 =0, 95 ⇒ P
(
0,303≤π
≤0, 416)
=0, 95La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche -di Scienze Politiche - Anno accademico Anno accademico 20122012--20132013 Cristina Davino Cristina Davino
Un rivenditore di automobili vorrebbe stimare la proporzione di clienti che posseggono ancora l'automobile acquistata cinque anni prima.
Dai registri del rivenditore si seleziona un campione casuale di 200 clienti, di cui 82 posseggono ancora l'automobile acquistata cinque anni prima. Si definisca una stima per intervalli per la proporzione nella popolazione ad un livello di confidenza del 95%.
Esercizio
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche di Scienze Politiche -- Anno accademico 2012Anno accademico 2012--20132013 Cristina Davino Cristina Davino
n=200 1-α=0,95 1 , 96
2 α = z 41
, 0 200
82 =
= p
( )
200 41 , 0 1
* 41 , 96 0 , 1 41 ,
0 −
m
[ 0 , 3418 ; 0 , 4781 ]
Esercizio
V Parametro della
popolazione (incognito)
= v
Stima del campione
ε Errore di campionamento
±
Quando il parametro µ della popolazione è incognito, il miglior modo per stimarlo è utilizzare la media campionaria.
z σ n
α
•
Valore legato al livello di
2fiducia desiderato
2
x z
α
n
⋅ σ m
La numerosità campionaria
Popolazione N
È l’insieme finito o infinito di unità, definito nei contenuti, nello spazio e nel tempo, oggetto dell’indagine statistica
È costituito da un certo numero di unità, estratte con qualche procedimento da una popolazione, al fine di rappresentarla quanto ai caratteri oggetto di studio
Campione n
“La numerosità ottima di un campione è quella che consente di ottenere gli obiettivi dell’indagine al minimo costo e sarà il numero minimo in base al quale le stime raggiungeranno il livello di attendibilità atteso .”
(L. Fabbris: L’indagine campionaria - NIS)
La numerosità campionaria
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche -di Scienze Politiche - Anno accademico Anno accademico 20122012--20132013 Cristina Davino Cristina Davino
Campione Campione casuale casuale
E’ un campione estratto da una popolazione in cui tutte le unità hanno probabilità non nulla di essere estratte.
Un campione è
rappresentativo… …quando è estratto in modo casuale (e non quando è grande!).
Un campione
grande… …è associato ad un minore errore delle stime.
Quindi… …la cosa migliore è avere un campione grande scelto in modo casuale ;
ma… …è molto meglio avere un campione piccolo estratto in modo casuale che un campione grande estratto
“a casaccio”.
Una riflessione
La stima La stima Universit
Universitààdi Macerata di Macerata ––FacoltFacoltààdi Scienze Politiche di Scienze Politiche -- Anno accademico 2012Anno accademico 2012--20132013 Cristina Davino Cristina Davino