• Non ci sono risultati.

Probabilità e Statistica

N/A
N/A
Protected

Academic year: 2021

Condividi "Probabilità e Statistica"

Copied!
27
0
0

Testo completo

(1)

Probabilità e Statistica

In statistica la parola popolazione indica l’insieme di tutte le possibili osservazioni relative ad un fenomeno. Popolazione é, ad esempio, l’insieme di tutti gli abitanti di una cittá, di una regione, degli iscritti a STID,ecc.

Puo’ succedere (troppo costoso, troppo complicato,…) che non sia possibile analizzare singolarmente tutti gli elementi di una popolazione. Ad esempio :

o il numero delle zanzare di uno stagno : non é possibile catturale tutte…

o il numero dei leucociti nel sangue di una persona : si dovrebbe avere a disposizione tutto il sangue…

o la percentuale di lampadine funzionanti : si dovrebbero provare tutte...

Il campione é un sottoinsieme della popolazione, cioé un numero di elementi della popolazione che ne riproduce le caratteristiche.

Non potendo conoscere i parametri che specificano la popolazione ( media,varianza,…) si utilizzano i dati del campione per poterli determinare.

Queste tecniche statistiche si chiamano INFERENZA STATISTICA.

CARATTERISTICA X DELLA POPOLAZIONE

CARATTERISTICA X DEL CAMPIONE

ANALISI DATI CAMPIONE

Molto importante é selezionare il campione in modo corretto, cioé :

o rappresentativo della popolazione ( se, ad esempio, si estrae un campione da una popolazione umana per effettuare misurazioni sull’altezza non si puo’ avere un campione formato da soli maschi o sole femmine).

o Formato da elementi fra di loro indipendenti (se, ad esempio, si estrae un campione da una popolazione umana per effettuare misurazioni sull’altezza non si puo’ avere un campione formato da elementi della stessa famiglia in quanto l’altezza dei figli dipende in parte da quella dei genitori).

(2)

La distribuzione campionaria

La caratteristica relativa ad una popolazione ha una distribuzione (o legge) : conoscendo tutti i valori di una variabile ( si pensi ad esempio al peso di una popolazione umana) é possibile calcolarne la media, la varianza, la funzione di ripartizione cumulata, ecc.

Ad esempio si consideri la popolazione umana costituita da n=20 elementi i cui dati relativi alle variabili altezza e peso sono riportati nella tabella seguente :

Tabella dei dati

N ALTEZZA

(cm)

PESO (kg)

N ALTEZZA

(cm)

PESO (kg)

1 180 65 11 170 65

2 180 60 12 180 65

3 180 50 13 180 80

4 160 50 14 175 55

5 160 45 15 170 70

6 160 45 16 180 65

7 165 55 17 170 75

8 170 55 18 170 70

9 180 70 19 175 80

10 180 80 20 160 50

I principali indici statistici delle variabili altezza e peso sono :

Variabile N Media Mediana StDev Minimo Massimo Q1 Q3

ALTEZZA 20 172.25 172.50 7.66 160 180 166.25 180

PESO 20 62.50 65 11.23 45 80 51.25 70

(3)

I valori assunti dalle due variabili sono riportati nelle seguenti tabelle e rappresentate dagli istogrammi

Peso Conteggi 45 2 50 3 55 3 60 1 65 4 70 3 75 1 80 3 totale 20

Altezza Conteggi 160 4 165 1 170 5 175 2 180 8 totale 20

Tabella distribuzione variabile peso

valori Freq. Assoluta Freq. Relativa Freq. percentuale Freq. % cumulata

45 2 0.10 10 10

50 3 0.15 15 25

55 3 0.15 15 40

60 1 0.05 5 45

65 4 0.20 20 65

70 3 0.15 15 80

75 1 0.05 5 85

80 3 0.15 15 100

totale 20 1 100

(4)

La caratteristica della popolazione su cui si intende svolgere l’analisi statistica é una variabile aleatoria che viene di solito indicata con la lettera X.

Si consideri ora una popolazione dalla quale si vogliono estrarre dei campioni di numerositá n relativi ad una variabile X .

Ogni elemento della popolazione ha la stessa probabilitá di essere estratto, quindi estraendo n elementi questi avranno la stessa probabilitá di estrazione di ogni altra n-upla di elementi (insieme contenente n elementi) che si estraggono con le stesse modalitá .

Ad ogni elemento estratto si fa corrispondere un valore reale, quindi i valori del campione si possono considerare come una possibile realizzazione di una variabile aleatoria X ed é possibile calcolare la media campionaria, la varianza campionaria, ecc.

Per meglio capire il concetto di distribuzione campionaria si consideri il seguente esempio che prende in esame due popolazioni X e Y :

POPOLAZIONE X

x 1 2 3 4 5 P(x) 0.2 0.2 0.2 0.2 0.2

POPOLAZIONE Y

y 1 2 3 4 5 P(y) 0.4 0.2 0.2 0.1 0.1

Nella prima popolazione, gli elementi cui corrispondono i valori da 1 a 5 sono equamente distribuiti, mentre nella seconda popolazione vi sono il 40 % di elementi con il numero 1, il 20 % con il numero 2 e cosi via.

(5)

Le medie e le varianze delle due popolazioni sono:

( )

( )

5

1

5 2

2

1 5

1

5 2

2 1

( ) ( ) 3

var( ) ( ) 2

( ) ( ) 2 .3

( ) ( ) 1.8 1

X i i

i

X i

i

Y i i

i

Y i

i

E X x p x

X x E X

E Y y p y

V a r Y y E Y

µ σ µ

σ

=

=

=

=

= = =

= = =

= = =

= = =

Il problema del campionamento consiste nello stimare i parametri µ (media) e σ2 (varianza) delle popolazioni usando le informazioni fornite da un campione.

Nella tabella seguente sono riportati tutti i possibili campioni di numerositá 2 ottenibili dalle due popolazioni, la probabilitá di estrazione, la media e varianza di ogni campione.

Campioni (n=2) Probabilitá di estrazione Media Varianza

X Y

(1,1) 0.2*0.2 = 0.04 0.4*0.4 = 0.16 1 0

(1,2) 0.04 0.2*0.4 = 0.08 1.5 0.25

(1,3) 0.04 0.2*0.4 = 0.08 2 1

(1,4) 0.04 0.2*0.4 = 0.08 2.5 2.25

(1,5) 0.04 0.2*0.4 = 0.08 3 4

(2,1) 0.04 0.4*0.2 = 0.08 1.5 0.25

(2,2) 0.04 0.2*0.2 = 0.04 2 0

(2,3) 0.04 0.2*0.2 = 0.04 2.5 0.25

(2,4) 0.04 0.2*0.1 = 0.02 3 1

(2,5) 0.04 0.2*0.1 = 0.02 3.5 2.25

(3,1) 0.04 0.4*0.2 = 0.08 2 1

(3,2) 0.04 0.2*0.2 = 0.04 2.5 0.25

(3,3) 0.04 0.2*0.2 = 0.04 3 0

(3,4) 0.04 0.2*0.1 = 0.02 3.5 0.25

(3,5) 0.04 0.2*0.1 = 0.02 4 1

(4,1) 0.04 0.1*0.4 = 0.08 2.5 2.25

(4,2) 0.04 0.1*0.2 = 0.02 3 1

(4,3) 0.04 0.1*0.2 = 0.02 3.5 0.25

(4,4) 0.04 0.1*0.1 = 0.01 4 0

(4,5) 0.04 0.1*0.1 = 0.01 4.5 0.25

(5,1) 0.04 0.1*0.4 = 0.08 3 4

(5,2) 0.04 0.1*0.2 = 0.02 3.5 2.25

(5,3) 0.04 0.1*0.2 = 0.02 4 1

(5,4) 0.04 0.1*0.1 = 0.01 4.5 0.25

(5,5) 0.04 0.1*0.1 = 0.01 5 0

(6)

Nelle tabelle seguenti sono riportate le distribuzioni campionarie delle medie e delle varianze delle due popolazioni X e Y .

DISTRIBUZIONE DELLA MEDIA DI X

x 1 1.5 2 2.5 3 3.5 4 4.5 5

p(x ) 0.04 0.08 0.12 0.16 0.20 0.16 0.12 0.08 0.04

DISTRIBUZIONE DELLA MEDIA DI Y

y 1 1.5 2 2.5 3 3.5 4 4.5 5

p(y ) 0.16 0.16 0.20 0.16 0.16 0.08 0.05 0.02 0.01

DISTRIBUZIONE DELLA VARIANZA DEI CAMPIONI ESTRATTI DA X var(X) 0 0.25 1 2.25 4

p(var(X)) 0.20 0.32 0.24 0.16 0.08

DISTRIBUZIONE DELLA VARIANZA DEI CAMPIONI ESTRATTI DA Y var(Y) 0 0.25 1 2.25 4

p(var(Y)) 0.26 0.30 0.24 0.12 0.08

Quindi:

• la variabile aleatoria X ha come media E( X ) = 3 = µX

• la variabile aleatoria Y ha come media E( Y ) = 2.3 = µY. Inoltre

5

i i=1

E(Var(X))=var(x ) (var( )) 0*0.20 0.25*0.32 1*0.24 2.25*0.16 4*0.08 1p xi = + + + + = E(Var(Y)) = 0.905

Questi valori non coincidono con la varianza delle rispettive popolazioni , ma con la metá di tali valori.

La regola generale é che la varianza della distribuzione delle medie ha come valore quello della varianza della popolazione divisa per la numerositá campionaria.

In generale X rappresenta una caratteristica della popolazione con E(X)=µ sconosciuta e Var(X)=σ2 sconosciuta.

Se X1,X2,…,Xn é un campione estratto da X si considerano X1,X2,…,Xn variabili aleatorie con la stessa legge ( e quindi con uguale media e varianza) di X.

(7)

Il calcolo di media e varianza di n X +X +...+X1 2 n

X = n porta ai seguenti risultati :

X1 ... E(X ) ...1 ( ) ...

E(X)=E Xn E Xn n

n n n

µ µ µ

n µ

+ + + + + +

⎞ = = =

=

X1 ... var(X ) ... var(1 2 ) 22 2

var(X)=var Xn Xn n

n n n n

σ σ

+ + + +

⎞ = =

=

Riassumendo la distribuzione delle medie ha la stessa media della distribuzione della popolazione ma dispersione minore pari a

2

n n

σ = σ

. Tale quantitá viene chiamata errore standard della media ( mean standard error) e viene indicata con σx.

Quindi estraendo campioni casuali da una popolazione con media µ, la media campionaria sará vicina a µ.

STIMATORI (stima puntuale)

Uno degli scopi della statistica inferenziale é quello di ottenere informazioni circa i parametri di una popolazione ( che si devono considerare fissi ) a partire da valori determinati in base al campione.

I valori del campione possono essere considerati come i valori assunti da variabili aleatorie che hanno la stessa legge della popolazione dalla quale provengono.

Ricapitolando :

X1,X2,...,Xn sono n variabili aleatorie indipendenti con la legge uguale a X ; x1,x2,...,xn sono i valori assunti dalle n variabili aleatorie (realizzazione).

Si cercano indicazioni il piú possibile precise sui parametri ignoti di una popolazione ( di solito media e varianza) attraverso i valori campionari.

La metodologia per risolvere questi problemi viene definita stima .

La stima dei parametri di una popolazione si effettua attraverso uno STIMATORE, funzione dei valori del campione, che fornisce un valore approssimato del parametro.

Quindi uno stimatore é una funzione T(X1,X2,...,Xn) del campione.

Il valore di uno stimatore per un dato (assegnato) campione viene detto STIMA.

Riassumendo :

T(X1,X2,...,Xn) é uno STIMATORE t(x1,x2,...,xn) é una STIMA

Lo stimatore T é in pratica una “regola” che si utilizza per determinare il possibile valore del parametro incognito (media, varianza). Quando la regola é stata stabilita saranno i valori del campione a determinare la stima t del parametro.

(8)

Se una caratteristica X (v.a.) della popolazione ha legge f(x) significa che ciascun elemento del campione X1,X2,...,Xn é una v.a. di legge f(x) ed é possibile determinare f(x1),...,f(xn).

É sempre nota la legge di X ma non sono noti ( sono incogniti) uno o piú parametri della sua distribuzione.

X ha legge Binomiale [X~B(n,p)] -- ma ---Æ p é sconosciuto

X ha legge di Gaussiana [X~N(µ,σ)] -- ma ---Æ µ e/o σ sono sconosciuti Riassumendo :che cosa significa estrarre un campione da X ?

Se X ha legge f(x) una Binomiale con n=10 e con p incognito uno dei possibili grafici per f(x) é riportato sotto.

---Æ X1,X2,...,Xn ~ B(10,p)

o Il campione X1,X2,...,Xn estratto da X é formato da n v.a. ciascuna di legge B(10,p).

o I valori x1,x2,...,xn del campione dipendono dalla legge f(x).

2.2 Stimatori per la media (variabili quantitative)

Sia X una caratteristica di legge f(x) della popolazione P. Si suppone tale legge conosciuta ma avente media µ incognita.

La principale proprietá che deve avere uno stimatore é quella di essere il piú possibile vicino al parametro che si deve stimare.Uno stimatore con questa proprietá si dice non distorto o accurato .

Uno stimatore T si dice non distorto se la sua media (E(T)) é uguale al parametro da stimare;in altre parole lo stimatore puo’ assumere valori diversi dalla media µ della popolazione ma la media dei valori assunti sará uguale a µ.

ESEMPIO : X variabile quantitativa ( relativa ad una popolazione P) di media µ incognita.

1 2 n

n

X +X +...+X

X = n é uno stimatore non distorto per µ in quanto E(X )=n µ . Quali fra i seguenti stimatori sono non distorti ?

1 1

S =X +X 2

2 SI NO 2 X +X +X1 2

S = 2

3 SI NO 3 X +X +X1 2

S = 3

3 SI NO

(9)

2.3 Stimatori per la varianza (variabili quantitative)

L’errore di campionamento degli stimatori non distorti é misurato dalla varianza E[(T-µ)2].

Si é giá visto che la varianza della media di un campione di n elementi vale

2

var(X) n

=σ . Come si puo’ costruire lo stimatore della varianza ? Se la media della popolazione non é nota viene stimata dalla media campionaria x .

Lo stimatore S2 cercato potrebbe avere espressione : 2 ( )2

1

1 n

i i

R X X

n =

= .

Si vuole verificare se é non distorto, cioé se E(S2)=σ2.

Le seguenti operazioni servono per verificare se lo stimatore é o no distorto : o Si osserva che vale la seguente uguaglianza : Xi− =µ (XiX) (+ Xµ)

o Quindi si ha che : (Xiµ)2 =(XiX) (2+ X µ) (2+2 XiX) (* X µ)

o Ripetendo la stessa operazione per tutti gli n elementi del campione si ha :

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

2 2

2

1 1

2 2

1 1

2 *

2

n n

i i i

i i

n n

i i

i i

X X X X X X X

X X n X X X X

µ µ

µ µ

= =

= =

µ

= + + =

= + +

1. Essendo inoltre ( )

1

0

n i i

X X

=

=

Si ha che

o ( )2 ( )2 ( )2

1 1

n n

i i

i i

E X µ E X X n E X µ

= =

= +

o ( )2 ( )2 2

1 1

n n

i i

i i

E X µ E X µ nσ

= =

= =

o E(X µ)2=var( )X =σn2

o ( )2 2

1

1

n i i

E X X n

n σ

=

=

(10)

Ne segue che 2

(

2

1

1 n

i

i

)

R X X

n =

= é DISTORTO.

Si verifica facilmente che lo stimatore non distorto per la varianza é:

( )

2

2

1

1 1

n i i

S X

n =

=

X

Se la media della popolazione é nota (µ nota) allora lo stimatore non distorto della varianza vale

( )

2

2

1

1 n

i i

R X X

n =

=

ESEMPIO

Si consideri la popolazione :

POPOLAZIONE X

x 1 5 7 9

P(x) 0.25 0.25 0.25 0.25

La media vale 5.5 e la varianza 8.75.

( )

5

1

5 2

2 1

( ) ( ) 5.5

var( ) ( ) 8.75

X i i

i

X i

i

E X x p x

X x E X

µ σ

=

=

= = =

= = =

Nella tabella seguente sono riportati tutti i 16 campioni di numerositá 2 , la media e la somma dei quadrati degli scarti dalla mediadi ciascuno.

Valori campione Media 2 ( )2

1

i k

i

X X

=

[1,1] (1+1)/2=1 0

[1,5] 3 (1 3) 2+ −(5 3)2=8

[1,7] 4 18 [1,9] 5 32

[5,1] 3 8

[5,5] 5 0

[5,7] 6 2

[5,9] (5+7)/2=7 8

(11)

[7,1] 4 18

[7,5] 6 2

[7,7] 7 0

[7,9] 8 2

[9,1] 5 32

[9,5] 7 8

[9,7] 8 2

[9,9] 9 0

La somma delle varianze di ciascun campione vale

( )2 2 2 ( )2

2 2

1 1 1 1

1 1 140

4 4 16 8.75

k k

i k i k

j i j i

x x x x

= = = =

⎛ ⎞ =⎛ ⎞ = =

⎜ ⎟⎝ ⎠ ⎜ ⎟⎝ ⎠

∑ ∑ ∑ ∑

essendo, in questo caso, n=2 si ha :

( )

( )

2 2 2

2

1 1

2 2 2

2

1 1

1 1 8.75

4.375

4 2

1 1 8.75

8.75 ( )

1 4 1

k

i k

j i

k

i k

j i

R x x

n

S x x

n

= =

= =

⎛ ⎞

= ⎜ ⎟⎝ ⎠ = =

⎛ ⎞

= − ⎝ ⎠⎜ ⎟ = =

∑ ∑

∑ ∑ =VAR X

Un altro criterio per giudicare la bontá di uno stimatore é il criterio della consistenza. Uno stimatore T di µ e consistente se, al tendere della dimensione del campione all'infinito,

P[T=µ]=1

ció significa che, man mano che la dimensione del campione aumenta, la stima ottenuta tende al vero valore del parametro ignoto. Condizione sufficiente é che la varianza dello stimatore per n grande tenda a zero.

E possibile verificare che la media campionaria X é uno stimatore consistente del parametro µ della popolazione.

Infatti applicando la disuguaglianza di Cebicev alla variabile casuale media si ottiene

{ }

22 22

lim lim 1 x lim 1 1

n P x n n

n

σ σ

µ ε

ε ε

→∞ →∞ →∞

< = =

per cui si puo affermare che la media campionaria converge stocasticamente, o in probabilitá, alla media della popolazione.

(12)

Questo significa che é la probabilitá che si verifichi la relazione x = µ che tende alla certezza, ma non che per n grande si ha sempre x = µ .

Infine, si consideri il criterio dell'efficienza. Se Tl e T2 sono ambedue stimatori non distorti di µ , ma per le loro varianze campionarie vale σ12 <σ22, é da considerarsi preferibile Tl, che viene definito piú efficiente o piú preciso.

Intervalli di confidenza per la media

La media X costituisce una stima puntuale di µ, ma poiché viene ottenuta attraverso una funzione dei valori campionari, varia al variare dei valori del campione estratto. É quindi molto rischioso fornire informazioni sulla media della popolazione in questo modo.

Adottando invece una stima per intervallo é possibile avere informazioni sia sul valore numerico del parametro incognito che sul grado di attendibilitá (probabilitá) della stima stessa.

Costruire un intervallo di confidenza (o fiducia) per il parametro incognito θ significa scegliere un valore 1-α ∈ [0,1] e determinare un intervallo (a,b) in modo che :

La probabilitá che il parametro θ incognito appartenga ad (a,b) sia uguale a 1-α P(θ∈ (a,b))=1- α

dove:

1- α = livello di significativitá α = probabilitá di errore

Intervalli di confidenza per la media da popolazione di legge Normale con varianza nota

Sia X una caratteristica della popolazione ( X é una variabile aleatoria) con media µ incognita , varianza σ2 nota e X1,X2,...,Xn un campione estratto da X. [ X~N(µ,σ2) ]

Un intervallo di confidenza per la media µ a livello di fiducia (o significativitá) 1- α é un intervallo centrato in x tale che :

P(µ∈ (X -δ,X +δ))=1- α

Quindi :

P( µ∈ ( X -δ, X +δ)) = P( X -δ < µ < X +δ) = P(| X -µ| < δ) =

(13)

| |

/ /

µ δ

σ σ

<

⎟⎟

⎜⎝

P X

n n

Poiché Z = ( )

/ X

n µ σ

ha legge N(0,1) si ha che :

| |

/ /

µ δ

σ σ

<

⎟⎟

⎜⎝

P X

n n = | | / δ σ

⎞⎟

<

⎟⎟

⎜⎝

P Z

n = 1- α

| | / δ σ

⎞⎟

<

⎟⎟

⎜⎝

P Z

n = / /

δ δ

σ σ

⎞⎟

⎜− < <

⎟⎟

⎜⎝

P Z

n n =

= / /

δ δ

σ σ

< <−

P Z P Z

n n

=

/ 1 /

δ δ

σ σ

< − − <

P Z P Z

n n = -1+2*

/ δ σ

⎞⎟

⎜ <

⎟⎟

⎜⎝

P Z

n = 1- α.

Utilizzando questa ultima uguaglianza si ottiene :

1 2

1 2

1 ;

/ 2 /

P Z z

n n

z

n

α

α

δ α δ

σ σ

δ σ

⎞⎟

< = − =

⎟⎟

⎜⎝

=

L’intervallo di confidenza cercato risulta :

1 1

2 2

,

X Z X Z

n n

α α

σ σ

⎞⎟

+

⎟⎟

⎜⎝

ESEMPIO

Si estrae un campione di numerositá n=100 da una popolazione di legge N(µ,225).

Si determini un intervallo di confidenza per la media a livello 95%.

(14)

Si deve determinare il valore di δ tale che

| | | | 0.95

225 / 100 1,5

δ δ

< = <

P Z P Z

=

Si deve determinare il valore di z tale che l’area a sinistra di –z valga 0.025 e quella a destra di z valga 0.025.

Il livello di fiducia ( o confidenza) del 95% significa che 1- α = 0.95, cioé che α=0.05.

0.975 1 2

1.96 Z α Z

= =

Riassumendo : 1.96 2.94 1.5

δ = ⇒ =δ per cui :µ ⎡X2.94,X+2.94

In generale l’ampiezza dell’intervallo di confidenza vale

1 2

2 α σ

z

n

quindi il valore dipende sia dal livello che dal numero di elementi del campione.

Piú precisamente AUMENTA all’aumentare del livello e DIMINUISCE all’aumentare del numero di elementi del campione.

Si noti che l’intervallo di confidenza é una variabile aleatoria. Per ottenere un risultato numerico si deve sostituire a X il valore x relativo ai dati del campione.

In questo caso si ottiene una REALIZZAZIONE dell’intervallo di fiducia.

(15)

intervallo di confidenza 2.94, 2.94

realizzazione intervallo di confidenza 2.94, 2.94

X X

x x

+

⇒ − +

Esempi di

1 2

Z α

Intervallo di confidenza a livello 90% 0.95 1 2

1.65 Z α Z

= =

Intervallo di confidenza a livello 95% 0.975 1 2

1.96 Z α Z

= =

Intervallo di confidenza a livello 99% 0.995

1 2

2.58 Z α Z

= =

(16)

In generale se si vuole determinare un intervallo di confidenza per la media a livello (1-α) si deve determinare il valore z tale che ( )

2

> =α

P Z z , cioé la somma delle aree delle due “code” deve valere α.

ESERCIZIO

Sia X una popolazione di legge Normale di media sconosciuta e varianza uguale a 16, cioé X~N(µ,16). Si estrae da X un campione di numerositá 64 e si osserva un valore x64 =10.5.

• Determinare gli intervalli di confidenza per la media a livello 90%, 95% e 99%, calcolando per ciascuno l’ampiezza.

• Determinare l’ampiezza degli intervalli nel caso in cui il campione abbia numerositá 81 e si abbia ancora x81 =10.5

Commentare i risultati ottenuti.

La media della popolazione vale zero e la varianza vale 1.

Il livello di confidenza vale 0.90.

Tutti gli intervalli hanno la stessa ampiezza.

Su 22 intervalli 2 non contengono il valore vero della media.

(17)

NOTA

Nella costruzione degli intervalli di confidenza per la media sono presenti le seguenti variabili :

• n numerosità campionaria;

• 2E ampiezza dell’intervallo di confidenza;

• 1-α livello di confidenza;

• σ deviazione standard.

_____|________________|_______________|_____

1 2 α

σ

X z

n X

1 2 α

σ +

X z

n Sono spesso da esaminare le seguenti relazioni :

• fissando sia il valore del livello di confidenza 1-α che di σ la dimensione dell’intervallo diminuisce all’aumentare di n;

• quando il valore del livello di confidenza 1-α è fissato ,all’aumentare di σ si deve aumentare il valore della numerosità campionaria n per avere una ampiezza fissata dell’intervallo.

• se il valore di σ è fissato e il livello di confidenza 1-α aumenta, si deve aumentare il valore di n per avere una ampiezza desiderata.

(18)

TEST STATISTICI

Un test statistico e’ una regola di decisione

ESEMPIO

La durata di una lampadina e’ modellabile con una legge N(µ,σ2). Se la media µ e’ incognita so puo’

fare un test per capire, ad esempio, se µ>1500.

Cosa e’ necessario per poter effettuare un test ?

Si devono formulare delle IPOTESI H0 : ipotesi principale o nulla

H1 : ipotesi alternativa

Si deve stabilire il livello del test

Si utilizzano i dati del campione per stabilire se si accetta o no l’ipotesi H0

TEST PARAMETRICI

Supponiamo che il tempo di vita di una lampadina segua una legge normale di media sconosciuta e varianza uguale a 125 ore.

Si vuole verificare l’ipotesi che il tempo medio di vita (durata) di quel tipo di lampadina e’ di 1400 ore.

Per poter effettuare questa verifica si hanno a disposizione i dati relativi ad un campione di n=5 lampadine.

I valori della durata (in ore) delle lampadine del campione sono :

X1 X2 X3 X4 X5

1410 1380 1420 1420 1430 Poiche’ quel tipo di lampadina ha legge N(µ,125), ogni Xi ,i=1,2,3,4,5 , ha legge N(µ,125).

Con questi dati e’ possibile :

• Determinare uno stimatore e una stima per µ.

• Determinare un intervallo di confidenza per µ e una sua realizzazione.

Attraverso i test parametrici ( la media e’ un parametro) si vuole stabilire se sia “ragionevole”

pensare che il tempo media di vita sia di 1400 ore.

La regola di decisione che lega il campione al parametro su cui si vuole eseguire il test si chiama

(19)

Lo stimatore della media e’ : T X( ,...,1 X5)= X5 la cui legge e’ ,125 ( , )

Nµ 5 ⎞ = N µ

5 .

5

1410 1380 1420 1420 1430 5 1412

x + + + +

= = e’ una stima di µ.

Si decide di accettare l’ipotesi µ=1400 se x non e’ troppo lontano da 1400, cioe’ se e’ piccola la 5

differenza fra x e 1400. 5

(20)

Si supponga ore l’ipotesi H0 vera.

In questo caso µ=1400 e T~N(1400,25).

x e’ il valore che assume T relativamente al campione di 5 lampadine. 5

Il grafico della legge di T e’ riportato sotto

Per essere considerato “vicino” a 1400, x deve appartenere ad un intervallo [a,b] tale che P(5 x5 [a,b]) = 1-α, con il valore 1-α deciso da chi effettua il test. Anche in questo caso il valore dell’area di ciascuna delle due zone evidenziate e’ α/2 .

(21)

Si procede poi nel modo seguente per effettuare un test a livello α :

• Se x5∈ [a,b] si accetta l’ipotesi H0

• Se x5∉ [a,b] si rifiuta l’ipotesi H0

R= (-∞,a)∪(b, ∞) viene detta REGIONE DI RIFIUTO

Che cosa rappresenta il valore di α ?

Se il valore x5∈ R, cioe’ se la media dei valori dei dati del campione appartiene alla regione di rifiuto, si decide di rifiutare l’ipotesi H0 anche se, come supposto all’inizio, l’ipotesi e’ vera.

La probabilita’ che x5 ∈R vale α

α=P[rifiutare H0 / H0 vera] e’ detto ERRORE DI PRIMA SPECIE.

Nel caso preso in esame si ha che :

5 1412

x = . Si puo’ fissare il livello del test al 10%=0.10.

Si vogliono determinare i valori a e b tali che :

[ ] 1400 1400 0.90

5 5

a b

P a≤ ≤T b =P ≤ ≤Z = Se Z~N(0,1) dalle tavole si ottiene :

P(-1.64 ≤ Z ≤ 1.64) = 0.90.

(22)

Quindi :

1400 1.64 ( 1.64*5) 1400 1391.8 5

1400 1.64 (1.64*5) 1400 1408.2 5

( ,1391.8) (1408.2, )

a a

b a

R

= − ⇒ = − + =

⎪⎪⎨ −

= ⇒ = + =

⎪⎩

= −∞ +∞

x5 =1412∈R, quindi si rifiuta l’ipotesi H0 che la media del tempo di vita di questo tipo di lampadina sia uguale a 1400 .

Il test eseguito prima e’ un CASO PARTICOLARE di una serie di test sui parametri di una distribuzione normale.

La tabella seguente riporta le tre possibili tipologie di test per la media

0

1 0

: : H H

µ µ0

µ µ

=

test BILATERALE

0

1 0

: : H H

µ µ0

µ µ

=

>

test UNILATERALE DESTRO

0 : : H H

µ µ0

µ µ

=

<

test UNILATERALE SINISTRO

(23)

TEST BILATERALE SULLA MEDIA ( X di legge normale con varianza nota) Nel caso di test bilaterale le ipotesi sono :

0 0

1 0

: : H H

µ µ µ µ

=

e la regione di rifiuto e’ : R=(-∞,a)∪(b,+ ∞).

ESEMPIO

Si consideri un campione di taglia ( numerosita’) n=25 estratto da una popolazione di legge N(µ,100). Si vuole effettuare un test sulla media a livello 5%. Il valore della media del campione vale

5 20.5

x = .

In questo caso le ipotesi sono :

0

1 0

: 20

: 20

H H

µ µ

=

La statistica test e’ 1 2 ... 25 100

25 , 25

X X X

T = + + + Nµ . Se l’ipotesi H0 e’ vera si ha che T~N(20,4).

Per determinare la regione di rifiuto R si devono determinare due valori a e b tali che P(a ≤ T ≤ b) = 0.95, cioe’ facendo i conti :

20 20 20 20

2 2 0.95

4 4

a b a b

P ≤ ≤Z =P ≤ ≤Z =

Dalle tavole della legge N(0,1) si ottiene che :

20 1.96 2

20 1.96 2

a

b

= −

⎪⎪⎨ −

=

⎪⎩

(24)

quindi 20 1.96*2 20 1.96*2

a b

=

⎨ = +

16.08 23.92 a

b

=

⎨ =

Quindi essendo R= (-∞,16.08)∪(23.92,+ ∞) (area evidenziata nella figura sopra) si ha che

5 20.5

x = ∉ R e quindi si accetta l’ipotesi H0.

Si osservi che l’ipotesi H0 viene accettata quando il valore di x5 e’ compreso nell’intervallo [16.08 , 23.92].

Riferimenti

Documenti correlati

¾ Formato da elementi fra di loro indipendenti (se, ad esempio, si estrae un campione da una popolazione umana per effettuare misurazioni sull’altezza non è opportuno avere

I calcoli completi devono per` o essere contenuti nella brutta copia che va consegnata assieme alla bella copia.. Quesiti a

Un suo reparto produce un numero di pezzi giornalieri che varia casualmente di giorno in giorno; con un certo grado di estrapolazione, si supponga che questo numero X aleatorio

Ripetere il calcolo del punto 2 utilizzando per la media il valore 5.4 e per la varianza la stima più pessimistica, al 90%; per pessimistica si intenda qui la varianza più

Con un campione di n = 100 la forma della distribuzione delle medie è praticamente normale con un valore medio di 0.7502. La cosa importante è che, per campioni

I gruppi non presentano differenze significative riguardo a durata di malattia, numero e durata dei ricoveri e numero di episodi critici, eccezione fatta per

Il confronto dei risultati agli indici di controllo esecutivo dell'attenzione dell'Emotional Stroop Task ha mostrato invece una maggior

Dopo l’esclusione di questi due partecipanti, il campione finale di 145 soggetti era formato da: 53 pazienti con disturbi psicotici dell’umore (PM: 35 con disturbo