• Non ci sono risultati.

STATISTICA 1- parte 1/2

N/A
N/A
Protected

Academic year: 2021

Condividi "STATISTICA 1- parte 1/2"

Copied!
32
0
0

Testo completo

(1)

STATISTICA 1- parte 1/2

In statistica la parola popolazione indica l’insieme di tutte le possibili osservazioni relative ad un fenomeno. Popolazione é, ad esempio, l’insieme di tutti gli abitanti di una cittá, di una regione, degli iscritti a Matematica Informatica, ecc.

Puo’ succedere (troppo costoso, troppo complicato,…) che non sia possibile analizzare singolarmente tutti gli elementi di una popolazione. Ad esempio :

o il numero delle zanzare di uno stagno : non é possibile catturale tutte…

o il numero dei leucociti nel sangue di una persona : si dovrebbe avere a disposizione tutto il sangue…

o la percentuale di lampadine funzionanti : si dovrebbero provare tutte...

Il campione é un sottoinsieme della popolazione, cioé un numero di elementi della popolazione che ne riproduce le caratteristiche.

Non potendo conoscere i parametri che specificano la popolazione ( media,varianza,…) si utilizzano i dati del campione per poterli determinare.

Queste tecniche statistiche si chiamano INFERENZA STATISTICA.

CARATTERISTICA X DELLA POPOLAZIONE

CARATTERISTICA X DEL CAMPIONE

ANALISI DATI CAMPIONE

Molto importante é selezionare il campione in modo corretto, cioé :

o rappresentativo della popolazione ( se, ad esempio, si estrae un campione da una popolazione umana per effettuare misurazioni sull’altezza non si puo’ avere un campione formato da soli maschi o sole femmine).

o Formato da elementi fra di loro indipendenti (se, ad esempio, si estrae un campione da una popolazione umana per effettuare misurazioni sull’altezza non si puo’ avere un campione formato da elementi della stessa famiglia in quanto l’altezza dei figli dipende in parte da quella dei genitori).

(2)

Nel corso verranno esaminate alcune delle tecniche che permettono di ottenere informazioni circa i parametri sconosciuti di una caratteristica di una popolazione a partire dai dati di un campione.

La distribuzione campionaria

La caratteristica relativa ad una popolazione ha una distribuzione (o legge) : conoscendo tutti i valori di una variabile ( si pensi ad esempio al peso di una popolazione umana) é possibile calcolarne la media, la varianza, la funzione di ripartizione cumulata, ecc.

Ad esempio si consideri la popolazione umana costituita da n=20 elementi i cui dati relativi alle variabili altezza e peso sono riportati nella tabella seguente :

Tabella dei dati

N ALTEZZA (cm)

PESO (kg)

N ALTEZZA (cm)

PESO (kg)

1 180 65 11 170 65

2 180 60 12 180 65

3 180 50 13 180 80

4 160 50 14 175 55

5 160 45 15 170 70

6 160 45 16 180 65

7 165 55 17 170 75

8 170 55 18 170 70

9 180 70 19 175 80

10 180 80 20 160 50

I principali indici statistici delle variabili altezza e peso sono :

Variabile N Media Mediana StDev Minimo Massimo Q1 Q3

ALTEZZA 20 172.25 172.50 7.66 160 180 166.25 180 PESO 20 62.50 65 11.23 45 80 51.25 70

(3)

I valori assunti dalle due variabili sono riportati nelle seguenti tabelle e rappresentate dai grafici a barre.

Peso Conteggi 45 2 50 3 55 3 60 1 65 4 70 3 75 1 80 3 totale 20

Altezza Conteggi 160 4 165 1 170 5 175 2 180 8 totale 20

Tabella distribuzione variabile peso

valori Freq. Assoluta Freq. Relativa Freq. percentuale Freq. % cumulata

45 2 0.10 10 10

50 3 0.15 15 25

55 3 0.15 15 40

60 1 0.05 5 45

65 4 0.20 20 65

70 3 0.15 15 80

75 1 0.05 5 85

80 3 0.15 15 100

totale 20 1 100

(4)

La caratteristica della popolazione su cui si intende svolgere l’analisi statistica é una variabile aleatoria che viene di solito indicata con la lettera X.

Si consideri ora una popolazione dalla quale si vogliono estrarre dei campioni di numerositá n relativi ad una variabile X .

Ogni elemento della popolazione ha la stessa probabilitá di essere estratto, quindi estraendo n elementi questi avranno la stessa probabilitá di estrazione di ogni altra n-upla di elementi (insieme contenente n elementi) che si estraggono con le stesse modalitá .

Ad ogni elemento estratto si fa corrispondere un valore reale, quindi i valori del campione si possono considerare come una possibile realizzazione di una variabile aleatoria X ed é possibile calcolare la media campionaria, la varianza campionaria, ecc.

Per meglio capire il concetto di distribuzione campionaria si consideri il seguente esempio che prende in esame due popolazioni X e Y :

POPOLAZIONE X

x 1 2 3 4 5

P(x) 0.2 0.2 0.2 0.2 0.2

5 4

3 2

1 0,250

0,225

0,200

0,175

0,150

POPOLAZIONE Y

y 1 2 3 4 5

P(y) 0.4 0.2 0.2 0.1 0.1

5 4

3 2

1 0,40 0,35 0,30 0,25 0,20 0,15 0,10

Nella prima popolazione, gli elementi cui corrispondono i valori da 1 a 5 sono equamente distribuiti, mentre nella seconda popolazione vi sono il 40 % di elementi con il numero 1, il 20 % con il numero 2 e cosi via.

(5)

Le medie e le varianze delle due popolazioni sono:

( )

( )

5

1

5 2

2

1 5

1

5 2

2 1

( ) ( ) 3

var( ) ( ) 2

( ) ( ) 2 .3

( ) ( ) 1 .8 1

X i i

i

X i

i

Y i i

i

Y i

i

E X x p x

X x E X

E Y y p y

V a r Y y E Y

µ σ µ

σ

=

=

=

=

= = =

= = =

= = =

= = =

Il problema del campionamento consiste nello stimare i parametri µ (media) e σ2 (varianza) delle popolazioni usando le informazioni fornite da un campione.

Nella tabella seguente sono riportati tutti i possibili campioni di numerositá 2 ottenibili dalle due popolazioni, la probabilitá di estrazione, la media e varianza di ogni campione.

Campioni (n=2) Probabilitá di estrazione Media Varianza

X Y

(1,1) 0.2*0.2 = 0.04 0.4*0.4 = 0.16 1 0

(1,2) 0.04 0.2*0.4 = 0.08 1.5 0.25

(1,3) 0.04 0.2*0.4 = 0.08 2 1

(1,4) 0.04 0.2*0.4 = 0.08 2.5 2.25

(1,5) 0.04 0.2*0.4 = 0.08 3 4

(2,1) 0.04 0.4*0.2 = 0.08 1.5 0.25

(2,2) 0.04 0.2*0.2 = 0.04 2 0

(2,3) 0.04 0.2*0.2 = 0.04 2.5 0.25

(2,4) 0.04 0.2*0.1 = 0.02 3 1

(2,5) 0.04 0.2*0.1 = 0.02 3.5 2.25

(3,1) 0.04 0.4*0.2 = 0.08 2 1

(3,2) 0.04 0.2*0.2 = 0.04 2.5 0.25

(3,3) 0.04 0.2*0.2 = 0.04 3 0

(3,4) 0.04 0.2*0.1 = 0.02 3.5 0.25

(3,5) 0.04 0.2*0.1 = 0.02 4 1

(4,1) 0.04 0.1*0.4 = 0.08 2.5 2.25

(4,2) 0.04 0.1*0.2 = 0.02 3 1

(4,3) 0.04 0.1*0.2 = 0.02 3.5 0.25

(4,4) 0.04 0.1*0.1 = 0.01 4 0

(4,5) 0.04 0.1*0.1 = 0.01 4.5 0.25

(5,1) 0.04 0.1*0.4 = 0.08 3 4

(5,2) 0.04 0.1*0.2 = 0.02 3.5 2.25

(5,3) 0.04 0.1*0.2 = 0.02 4 1

(5,4) 0.04 0.1*0.1 = 0.01 4.5 0.25

(5,5) 0.04 0.1*0.1 = 0.01 5 0

(6)

Nelle tabelle seguenti sono riportate le distribuzioni campionarie delle medie e delle varianze delle due popolazioni X e Y .

DISTRIBUZIONE DELLA MEDIA DI X

x 1 1.5 2 2.5 3 3.5 4 4.5 5

p(x) 0.04 0.08 0.12 0.16 0.20 0.16 0.12 0.08 0.04

DISTRIBUZIONE DELLA MEDIA DI Y

y 1 1.5 2 2.5 3 3.5 4 4.5 5

p(y) 0.16 0.16 0.20 0.16 0.16 0.08 0.05 0.02 0.01

DISTRIBUZIONE DELLA VARIANZA DEI CAMPIONI ESTRATTI DA X var(X) 0 0.25 1 2.25 4

p(var(X)) 0.20 0.32 0.24 0.16 0.08

DISTRIBUZIONE DELLA VARIANZA DEI CAMPIONI ESTRATTI DA Y var(Y) 0 0.25 1 2.25 4

p(var(Y)) 0.26 0.30 0.24 0.12 0.08

Quindi:

• la variabile aleatoria X ha come media E(X) = 3 = µX

• la variabile aleatoria Y ha come media E(Y) = 2.3 = µY. Inoltre

5

i i=1

E(Var(X))=var(x ) (var( )) 0*0.20 0.25*0.32 1*0.24 2.25*0.16 4*0.08 1p xi = + + + + = E(Var(Y)) = 0.905

Questi valori non coincidono con la varianza delle rispettive popolazioni , ma con la metá di tali valori.

La regola generale é che la varianza della distribuzione delle medie ha come valore quello della varianza della popolazione divisa per la numerositá campionaria.

In generale X rappresenta una caratteristica della popolazione con E(X)=µ sconosciuta e Var(X)=σ2 sconosciuta.

Se X1,X2,…,Xn é un campione estratto da X si considerano X1,X2,…,Xn variabili aleatorie con la stessa legge ( e quindi con uguale media e varianza) di X.

(7)

Il calcolo di media e varianza di n X +X +...+X1 2 n

X = n porta ai seguenti risultati :

E(X)=E X1 ... Xn E(X ) ...1 E X( n) ... n

n n n

µ µ µ

n µ

+ + + + + +

⎞ = = =

=

X1 ... var(X ) ... var(1 2 ) 22 2

var(X)=var Xn Xn n

n n n n

σ σ

+ + + +

⎞ = =

=

Riassumendo la distribuzione delle medie ha la stessa media della distribuzione della popolazione ma dispersione minore pari a

2

n n

σ = σ

. Tale quantitá viene chiamata errore standard della media ( mean standard error) e viene indicata con σ . x

Quindi estraendo campioni casuali da una popolazione con media µ, la media campionaria sará vicina a µ.

STIMATORI (stima puntuale)

Uno degli scopi della statistica inferenziale é quello di ottenere informazioni circa i parametri di una popolazione ( che si devono considerare fissi ) a partire da valori determinati in base al campione.

I valori del campione possono essere considerati come i valori assunti da variabili aleatorie che hanno la stessa legge della popolazione dalla quale provengono.

Ricapitolando :

X1,X2,...,Xn sono n variabili aleatorie indipendenti con la legge uguale a X ; x1,x2,...,xn sono i valori assunti dalle n variabili aleatorie (realizzazione).

Si cercano indicazioni il piú possibile precise sui parametri ignoti di una popolazione ( di solito media e varianza) attraverso i valori campionari.

La metodologia per risolvere questi problemi viene definita stima .

La stima dei parametri di una popolazione si effettua attraverso uno STIMATORE, funzione dei valori del campione, che fornisce un valore approssimato del parametro.

Quindi uno stimatore é una funzione T(X1,X2,...,Xn) del campione.

Il valore di uno stimatore per un dato (assegnato) campione viene detto STIMA.

Riassumendo :

T(X1,X2,...,Xn) é uno STIMATORE t(x1,x2,...,xn) é una STIMA

(8)

Lo stimatore T é in pratica una “regola” che si utilizza per determinare il possibile valore del parametro incognito (media, varianza). Quando la regola é stata stabilita saranno i valori del campione a determinare la stima t del parametro.

Se una caratteristica X (v.a.) della popolazione ha legge f(x) significa che ciascun elemento del campione X1,X2,...,Xn é una v.a. di legge f(x) ed é possibile determinare f(x1),...,f(xn).

É sempre nota la legge di X ma non sono noti ( sono incogniti) uno o piú parametri della sua distribuzione.

X ha legge Binomiale [X~B(n,p)] -- ma ---Æ p é sconosciuto X ha legge di Poisson [X~Poi(k)] -- ma ---Æ k é sconosciuto X ha legge di Gaussiana [X~N(µ,σ)] -- ma ---Æ µ e/o σ sono sconosciuti Riassumendo :che cosa significa estrarre un campione da X ?

Se X ha legge f(x) una Binomiale con n=10 e con p incognito uno dei possibili grafici per f(x) é riportato sotto.

---Æ X1,X2,...,Xn ~ B(10,p)

o Il campione X1,X2,...,Xn estratto da X é formato da n v.a. ciascuna di legge B(10,p).

o I valori x1,x2,...,xn del campione dipendono dalla legge f(x).

Stimatori per la media (variabili quantitative)

Sia X una caratteristica di legge f(x) della popolazione P. Si suppone tale legge conosciuta ma avente media µ incognita.

La principale proprietá che deve avere uno stimatore é quella di essere il piú possibile vicino al parametro che si deve stimare.Uno stimatore con questa proprietá si dice non distorto o accurato .

Uno stimatore T si dice non distorto se la sua media (E(T)) é uguale al parametro da stimare;in altre parole lo stimatore puo’ assumere valori diversi dalla media µ della popolazione ma la media dei valori assunti sará uguale a µ.

(9)

ESEMPIO : X variabile quantitativa ( relativa ad una popolazione P) di media µ incognita.

1 2 n

n

X +X +...+X

X = n é uno stimatore non distorto per µ in quanto E(X )=n µ. Quali fra i seguenti stimatori sono non distorti ?

1 1

S =X +X 2

2 SI NO S =2 X +X +X1 2 2

3 SI NO S =3 X +X +X1 2 3

3 SI NO

Stimatori per la proporzione (variabili qualitative)

Quando si vuole stimare il valore di una proporzione si procede assumendo come valore dello stimatore il valore della proporzione rispetto ai dati del campione.

ESEMPIO

Una scatola contiene palline rosse e bianche. Si vuole stimare la proporzione di palline rosse attraverso i dati di un campione.

Indicando con NR il numero di rosse e N la numerositá del campione si ottiene che la stima della proprzione vale

l NR

p = N

ESEMPIO

Sia una popolazione composta da 3 individui di sesso femminile e 1 di sesso maschile. Si estraggono campioni di numerositá 2 per stimare la proporzione di individui di sesso femminile.

1 2 3

{ , , , }F F F M Ω =

La caratteristica X ha legge di Bernoulli di parametro p=0.75, cioé

( ) 3 0.75

4

( ) 1 0.25

4 P X F

P X M

= = =

= = =

X X1 X2 X3 X4

x F1 F2 F3 M

(10)

Nella tabella seguente sono riportati i possibili campioni e la loro frequenza:

numero campione

Composizione Frequenza numero campione

Composizione Frequenza

1 M M 1/16 9 F1 F2 1/16

2 M F1 1/16 10 F1 F3 1/16

3 M F2 1/16 11 F2 F1 1/16

4 M F3 1/16 12 F2 F3 1/16

5 F1 M 1/16 13 F3 F3 1/16

6 F2 M 1/16 14 F3 F1 1/16

7 F3 M 1/16 15 F3 F2 1/16

8 F1 F1 1/16 16 F3 F3 1/16

Se si utilizza quale stimatore Sp di p la frequenza degli individui di sesso femminile nel campione si ottengono i seguenti valori :

o nel campione [M,M] la frequenza di individui di sesso femminile vale zero (1 volta) o nel campione [M,F] la frequenza di individui di sesso femminile vale 0.5 ( 6 volte) o nel campione [F,F] la frequenza di individui di sesso femminile vale 1 (9 volte) La tabella seguente riporta la legge dello stimatore Sp

Sp frequenza

0 1/16 0.5 6/16

1 9/16

Si puo’ osservare che nessuno degli stimatori vale 0.75 che é la vera frequenza nella popolazione. Lo stimatore Sp é non distorto in quanto E(Sp)=0.75, infatti :

E(Sp)=0*1/16 + 0.5*6/16 + 1*9/16 = 0.75.

Stimatori per la varianza (variabili quantitative)

L’errore di campionamento degli stimatori non distorti é misurato dalla varianza E[(T-µ)2].

Si é giá visto che la varianza della media di un campione di n elementi vale

2

var(X) n

=σ . Come si puo’ costruire lo stimatore della varianza ? Se la media della popolazione non é nota viene stimata dalla media campionaria x .

(11)

Lo stimatore S2 cercato potrebbe avere espressione : 2 ( )2

1

1 n

i i

R X X

n =

= .

Si vuole verificare se é non distorto, cioé se E(S2)=σ2.

Le seguenti operazioni servono per verificare se lo stimatore é o no distorto : o Si osserva che vale la seguente uguaglianza : Xi− =µ (XiX) (+ X µ)

o Quindi si ha che : (Xiµ)2 =(XiX) (2+ X µ) (2+2 XiX) (* X µ)

o Ripetendo la stessa operazione per tutti gli n elementi del campione si ha :

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

2 2

2

1 1

2 2

1 1

2 *

2

n n

i i i

i i

n n

i i

i i

X X X X X X X

X X n X X X X

µ µ

µ µ

= =

= =

µ

= + + =

= + +

1. Essendo inoltre ( )

1

0

n i i

X X

=

=

Si ha che

o ( )2 ( )2 ( )2

1 1

n n

i i

i i

E X µ E X X n E X µ

= =

= +

o ( )2 ( )2 2

1 1

n n

i i

i i

E X µ E X µ nσ

= =

= =

o E(X µ)2=var( )X =σn2

o ( )2 2

1

1

n i i

E X X n

n σ

=

=

Ne segue che 2

(

2

1

1 n

i i

)

R X X

n =

= é DISTORTO.

Si verifica facilmente che lo stimatore non distorto per la varianza é:

( )

2

2

1

1 1

n i i

S X

n =

=

X

(12)

Se la media della popolazione é nota (µ nota) allora lo stimatore non distorto della varianza vale

( )

2

2

1

1 n

i i

R X X

n =

=

ESEMPIO

Si consideri la popolazione :

POPOLAZIONE X

x 1 5 7 9

P(x) 0.25 0.25 0.25 0.25

La media vale 5.5 e la varianza 8.75.

( )

5

1

5 2

2 1

( ) ( ) 5.5

var( ) ( ) 8.75

X i i

i

X i

i

E X x p x

X x E X

µ σ

=

=

= = =

= = =

Nella tabella seguente sono riportati tutti i 16 campioni di numerositá 2 , la media e la somma dei quadrati degli scarti dalla mediadi ciascuno.

Valori campione Media 2 ( )2

1

i k

i

X X

=

[1,1] (1+1)/2=1 0

[1,5] 3 (1 3) 2+ −(5 3)2=8

[1,7] 4 18 [1,9] 5 32

[5,1] 3 8

[5,5] 5 0

[5,7] 6 2

[5,9] (5+7)/2=7 8

[7,1] 4 18

[7,5] 6 2

[7,7] 7 0

[7,9] 8 2

[9,1] 5 32

[9,5] 7 8

[9,7] 8 2

[9,9] 9 0

(13)

La somma delle varianze di ciascun campione vale

( )2 2 2 ( )2

2 2

1 1 1 1

1 1 140

4 4 16 8.75

k k

i k i k

j i j i

x x x x

= = = =

⎛ ⎞ =⎛ ⎞ = =

⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠

∑ ∑ ∑ ∑

essendo, in questo caso, n=2 si ha :

( )

( )

2 2 2

2

1 1

2 2 2

2

1 1

1 1 8.75

4.375

4 2

1 1 8.75

8.75 ( )

1 4 1

k

i k

j i

k

i k

j i

R x x

n

S x x

n

= =

= =

⎛ ⎞

= ⎜ ⎟⎝ ⎠ = =

⎛ ⎞

= − ⎝ ⎠⎜ ⎟ = =

∑ ∑

∑ ∑ =VAR X

Un altro criterio per giudicare la bontá di uno stimatore é il criterio della consistenza. Uno stimatore T di µ e consistente se, al tendere della dimensione del campione all'infinito,

P[T=µ]=1

ció significa che, man mano che la dimensione del campione aumenta, la stima ottenuta tende al vero valore del parametro ignoto. Condizione sufficiente é che la varianza dello stimatore per n grande tenda a zero.

E possibile verificare che la media campionaria X é uno stimatore consistente del parametro µ della popolazione.

Infatti applicando la disuguaglianza di Cebicev alla variabile casuale media si ottiene

{ }

22 22

lim lim 1 x lim 1 1

n P x n n

n

σ σ

µ ε

ε ε

→∞ →∞ →∞

< = =

per cui si puo affermare che la media campionaria converge stocasticamente, o in probabilitá, alla media della popolazione.

Questo significa che é la probabilitá che si verifichi la relazione x = µ che tende alla certezza, ma non che per n grande si ha sempre x = µ .

Infine, si consideri il criterio dell'efficienza. Se Tl e T2 sono ambedue stimatori non distorti di µ , ma per le loro varianze campionarie vale σ12 <σ22, é da considerarsi preferibile Tl, che viene definito piú efficiente o piú preciso.

(14)

ESERCIZI

Esercizio 1

Si vuole analizzare il comportamento dello stimatore media campionaria per stimare la media µ di una variabile quantitativa (altezza) di una popolazione X .

X X1 X2 X3

x 160 171 173

Si estraggono campioni di numerositá 2.

o Calcolare il valore di µ (media della popolazione)

o Scrivere in una tabella tutti i possibili campioni di numerositá 2 estratti dalla popolazione e i relativi valori della media campionaria.

CAMPIONE Media campionaria

[160, 171] 165.5

... ...

o Costuire la tabella della distribuzione (legge ) della variabile media campionaria e calcolarne la media.

Esercizio 2

Una scatola contiene 5 palline rosse e 10 palline nere. Si vuole stimare la percentuale di palline nere mediante l’estrazione di campioni di numerositá 2.

o Calcolare il valore di p (frequenza di palline nere nella popolazione) o Quali valori assume lo stimatore Sp?

o Con quale frequenza vengono assunti i valori di Sp ? o Quale é la legge di Sp ?

o Calcolare E(Sp).

Esercizio 3

Ripetere l’esercizio 2 nel caso in cui la scatola contenga 10 palline rosse e 10 palline nere . Confrontare la legge della variabile media campionaria nei due casi.

(15)

Intervalli di confidenza per la media

La media X costituisce una stima puntuale di µ, ma poiché viene ottenuta attraverso una funzione dei valori campionari, varia al variare dei valori del campione estratto. É quindi molto rischioso fornire informazioni sulla media della popolazione in questo modo.

Adottando invece una stima per intervallo é possibile avere informazioni sia sul valore numerico del parametro incognito che sul grado di attendibilitá (probabilitá) della stima stessa.

Costruire un intervallo di confidenza (o fiducia) per il parametro incognito θ significa scegliere un valore 1-α ∈ [0,1] e determinare un intervallo (a,b) in modo che :

La probabilitá che il parametro θ incognito appartenga ad (a,b) sia uguale a 1-α P(θ∈ (a,b))=1- α

dove:

1- α = livello di significativitá α = probabilitá di errore

Intervalli di confidenza per la media da popolazione di legge Normale con varianza nota

Sia X una caratteristica della popolazione ( X é una variabile aleatoria) con media µ incognita , varianza σ2 nota e X1,X2,...,Xn un campione estratto da X. [ X~N(µ,σ2) ]

Un intervallo di confidenza per la media µ a livello di fiducia (o significativitá) 1- α é un intervallo centrato in x tale che :

P(µ∈ (X -δ,X +δ))=1- α

Quindi :

P( µ∈ (X -δ,X +δ)) = P(X -δ < µ < X +δ) = P(|X -µ| < δ) =

| |

/ /

µ δ

σ σ

<

⎟⎟

⎜⎝

P X

n n

Poiché Z = ( )

/ X

n µ σ

ha legge N(0,1) si ha che :

(16)

| |

/ /

µ δ

σ σ

<

⎟⎟

⎜⎝

P X

n n = | | / δ σ

⎞⎟

<

⎟⎟

⎜⎝

P Z n = 1- α

| | / δ σ

⎞⎟

<

⎟⎟

⎜⎝

P Z

n = / /

δ δ

σ σ

⎞⎟

⎜− < <

⎟⎟

⎜⎝

P Z

n n =

= / /

δ δ

σ σ

< <−

P Z P Z

n n

=

/ 1 /

δ δ

σ σ

< − − <

P Z P Z

n n = -1+2*

/ δ σ

⎞⎟

⎜ <

⎟⎟

⎜⎝

P Z n = 1- α.

Utilizzando questa ultima uguaglianza si ottiene :

1 2

1 2

1 ;

/ 2 /

P Z z

n n

z n

α

α

δ α δ

σ σ

δ σ

⎞⎟

< = − =

⎟⎟

⎜⎝

=

L’intervallo di confidenza cercato risulta :

1 1

2 2

,

X Z X Z

n n

α α

σ σ

⎞⎟

+

⎟⎟

⎜⎝

ESEMPIO

Si estrae un campione di numerositá n=100 da una popolazione di legge N(µ,225).

Si determini un intervallo di confidenza per la media a livello 95%.

Si deve determinare il valore di δ tale che

| | | | 0.95

225 / 100 1,5

δ δ

< = <

P Z P Z

=

Si deve determinare il valore di z tale che l’area a sinistra di –z valga 0.025 e quella a destra di z valga 0.025.

(17)

Il livello di fiducia ( o confidenza) del 95% significa che 1- α = 0.95, cioé che α=0.05.

0.975 1 2

1.96 Z α Z

= =

Riassumendo : 1.96 2.94 1.5

δ = ⇒ =δ per cui :µ ⎡X2.94,X +2.94

In generale l’ampiezza dell’intervallo di confidenza vale

1 2

2 α σ

z

n

quindi il valore dipende sia dal livello che dal numero di elementi del campione.

Piú precisamente AUMENTA all’aumentare del livello e DIMINUISCE all’aumentare del numero di elementi del campione.

Si noti che l’intervallo di confidenza é una variabile aleatoria. Per ottenere un risultato numerico si deve sostituire a X il valore x relativo ai dati del campione.

In questo caso si ottiene una REALIZZAZIONE dell’intervallo di fiducia.

intervallo di confidenza 2.94, 2.94

realizzazione intervallo di confidenza 2.94, 2.94

X X

x x

+

⇒ − +

(18)

Esempi di

1 2

Z α

Intervallo di confidenza a livello 90% 0.95 1 2

1.65 Z α Z

= =

Intervallo di confidenza a livello 95% 0.975 1 2

1.96 Z α Z

= =

Intervallo di confidenza a livello 99% 1 0.995 2

2.58 Z α Z

= =

(19)

In generale se si vuole determinare un intervallo di confidenza per la media a livello (1-α) si deve determinare il valore z tale che ( )

2

> =α

P Z z , cioé la somma delle aree delle due “code” deve valere α.

ESERCIZIO

Sia X una popolazione di legge Normale di media sconosciuta e varianza uguale a 16, cioé X~N(µ,16). Si estrae da X un campione di numerositá 64 e si osserva un valore x64 =10.5.

• Determinare gli intervalli di confidenza per la media a livello 90%, 95% e 99%, calcolando per ciascuno l’ampiezza.

• Determinare l’ampiezza degli intervalli nel caso in cui il campione abbia numerositá 81 e si abbia ancora x81 =10.5

• Commentare i risultati ottenuti.

ESEMPIO DI SIMULAZIONE DI INTERVALLI DI CONFIDENZA

• La media della popolazione vale zero e la varianza vale 1.

• Il livello di confidenza vale 0.90.

• Tutti gli intervalli hanno la stessa ampiezza.

• Su 22 intervalli 2 non contengono il valore vero della media.

(20)

Scelta della numerosità campionaria

L’ampiezza dell’intervallo di confidenza per la media µ con σ2 noto è, a livello 1-α,

1 2

2* α σ

z

n

_____|________________|_______________|_____

1 2 α

σ

X z

n X

1 2 α

σ +

X z

n Ciò significa che, usando X quale stimatore di µ, l’errore E= |X -µ | è minore o uguale a

1 2 α

σ z

n con livello 1-α.

In una situazione nella quale sia possibile scegliere la numerosità campionaria n si può

determinare il valore di n in modo che l’errore che si commette stimando la media µ con X sia minore o uguale ad un valore specificato E.

Riassumendo si ha che, quando

2 1 2

ασ

≅ ⎜ z

n E

⎟ l’errore | X -µ | non eccede un valore prefissato E.

Il valore

2 1 2

ασ

≅ ⎜

z

n E

⎟ deve ovviamente essere arrotondato agli interi.

ESEMPIO

Si vuole determinare il valore di n in modo che l’errore E sia uguale a 1.5 stimando, a livello 95%,la media del peso in grammi di cubi di plastica con σ2=4 (σ=2)

2 1 2

2 1.96 2

6.83 7 1.5

ασ

= =

z

n E

(21)

NOTA

Nella costruzione degli intervalli di confidenza per la media sono presenti le seguenti variabili :

• n numerosità campionaria;

• 2E ampiezza dell’intervallo di confidenza;

• 1-α livello di confidenza;

• σ deviazione standard.

_____|________________|_______________|_____

1 2 α

σ

X z

n X

1 2 α

σ +

X z

n Sono spesso da esaminare le seguenti relazioni :

• fissando sia il valore del livello di confidenza 1-α che di σ la dimensione dell’intervallo diminuisce all’aumentare di n;

• quando il valore del livello di confidenza 1-α è fissato ,all’aumentare di σ si deve aumentare il valore della numerosità campionaria n per avere una ampiezza fissata dell’intervallo.

• se il valore di σ è fissato e il livello di confidenza 1-α aumenta, si deve aumentare il valore di n per avere una ampiezza desiderata.

(22)

Intervallo di confidenza per la media unilaterale 1. Intervallo di confidenza sinistro a livello 1-α è :

X z1 α n µ + σ

0 X z1 α n

σ +

2. Intervallo di confidenza destro a livello 1-α è :

X z1 α n

σ µ

X z1

α n σ

0

Riferimenti

Documenti correlati

Tuttavia, questa variabile pu` o essere osservata solo se ` e positiva, poich` e se vale 0 non possiamo sapere se l’insetto studiato fosse effettivamente presente su quella foglia..

&#34;'Ghiunque abbia favellato della popolazione, e l'abbia come l'indizio o della forza o della prosperità o del- l'ordine o della moralità o dell' industria di uno

Altre circostanze che mantengono alta in alcune provincie la cifra dei nati illegittimi riconosciuti, sono le difficoltà che talvolta s'incontrano nel procurarsi i

dizione sociale del capo famiglia. Famiglie residenti secondo iI numero dei membri residenti e la condizione sociale del capo famiglia:. nella provincia e nel

PARTE C): Conclusione della procedura di inferenza statistica con ipotesi di distribuzione a 3 parametri, applicazione di test e decisione sui valori di progetto.. Ipotesi

Il presente studio, condotto nel 2001-2004, è stato final- izzato alla valutazione della consistenza della popolazione nei parchi di Nervi, mediante il metodo distance sampling

Anche nel 2011, in tendenza con gli anni precedenti, la Provincia ha presentato un saldo della mobilità interregionale pari a 166.659 prestazioni, ovvero ha erogato a residenti

Parte del vantaggio delle donne rispetto all’attesa di vita è biologico: esse sembrano essere più resistenti degli uomini per ogni età, durante la prima infanzia e anche in