• Non ci sono risultati.

2 Esercizio 1 Data la formula della media della popolazione: µ ∈ ¯x ± z · σ √N L’intervallo di confidenza (Confidence Interval) puo’ essere stimato come segue

N/A
N/A
Protected

Academic year: 2021

Condividi "2 Esercizio 1 Data la formula della media della popolazione: µ ∈ ¯x ± z · σ √N L’intervallo di confidenza (Confidence Interval) puo’ essere stimato come segue"

Copied!
5
0
0

Testo completo

(1)

Esercitazioni Infostat ConfInt

Matteo Re, Alessandro Di Domizio 3 Maggio 2019

1 Introduzione

In questa esercitazione vedremo come stimare l’intervallo di confidenza da un campione che assumiamo essere derivante da una popolazione normlmente dis- tribuita.

L’esercitazione e’ basata su due esercizi pratici da svolgere in classe. Nel primo esercizio ci concentreremo sull’automazione del calcolo dell’intervallo di confi- denza mediante l’utilizzo di una funzione. Nel secondo esercizio utilizzeremo la funzione prodotta in esercizio 1 per effettuare dei test. Nel terzo esercizio vedremo alcuni esempi reali di calcolo dell’intervallo di confidenza.

2 Esercizio 1

Data la formula della media della popolazione:

µ ∈ ¯x ± z · σ

N

L’intervallo di confidenza (Confidence Interval) puo’ essere stimato come segue:

 −z · σ

N ,z · σ

N



Iniziamo ad implementare in R la formula per il calcolo dell’intervallo di confi- denza a partire da un vettore di osservazioni.

# C r e a z i o n e di un v e t t o r e di 1 0 0 o s s e r v a z i o n i

# p a r a m e t r i n o r m a l e : m e d i a =0, d e v i a z i o n e s t a n d a r d =1 obs < - r n o r m(1 0 0,0,1)

# Ora c a l c o l i a m o n e il v a l o r m e d i o N < - l e n g t h ( obs )

tot < - sum( obs )

# c a l c o l o m e d i a c a m p i o n a r i a

x b a r < - tot / N # v e r i f i c a t e che x b a r e ’ u g u a l e a m e a n ( obs )

# c a l c o l o v a r i a n z a c a m p i o n a r i a

s2 < - sum(( obs - x b a r )^2)/( n - 1) # e ’ u g u a l e a var ( obs ) ?

# la d e v i a z i o n e s t a n d a r d e ’ la r a d i c e d e l l a v a r i a n z a s t d d e v < - s q r t( s2) # v e r i f i c a t e che e ’ u g u a l e a sd ( obs )

(2)

Abbiamo la media campionaria (xbar):

¯ x = 1

N

N

X

i=1

xi

e la varianza del campione (s2):

s2= 1 N − 1

N

X

i=1

(xi− ¯x)2= 1 N − 1

N

X

i=1

(x2i − N ¯x2)

Ora iniziamo a ragionare sugli intervalli di confidenza. La prima cosa da fare e’

verificare se, ragionevolmente, possiamo considerare la distribuzione generatrice dei dati campionati gaussiana. Per verificare questa ipotesi possiamo vedere i grafici di probabilita’ utilizzando le funzioni R qqnorm() e qqline() come segue:

q q n o r m( obs ) # d i s e g n a i p u n t i

# NON c h i u d e t e il g r a f i c o a p p e n a g e n e r a t o ,

# d o b b i a m o a g g i u n g e r e u n a a r e t t a q q l i n e( obs ) # d i s e g n a la r e t t a

Abbiamo visto come valutare la normalita’ del campione in modo qualitativo mediante l’utilizzo di grafici ma e’ anche possibile effettuare un test statistico.

Il test piu’ utilizzato in questi casi (soprattutto per piccoli campioni, di nu- merosita’ inferiore a 30) e’ il Shapiro-Wilk test. Esso e’ disponibile in R nella libreria di base stats e, quindi, non e’ necessario installare alcun package ag- giuntivo per poterlo utilizzare. E’ bene ricordare che nei test di normalita’

H0, l’ipotesi nulla, e’ che i dati del campione siano provengano da una popo- lazione normalmente distributa. Di conseguenza se il test di normalita’ non e’

significativo, non possiamo rifiutare l’ipotesi nulla (che i dati sono distribuiti normalmente). Solo nel caso in cui il test sia statisticamente significativo (p- value< 0.05) possiamo rifiutare H0. In R il test di Shapiro-Wilk si utilizza come segue:

# T e st di n o r m a l i t a ’ di Shapiro - W i l k :

> m y d a t a < - r n o r m(2 0,0,1)

> s h a p i r o . t e s t ( x = m y d a t a )

Shapiro - W i l k n o r m a l i t y t e s t d a t a : m y d a t a

W = 0.9 7 2 1 3, p - v a l u e = 0.7 9 9 }

In questo esempio i dati del piccolo (n < 30) campione, se testati con Shapiro-Wilk portano ad un p-value > 0.05, quindi non possiamo rifiutare

(3)

allora l’intervallo di confidenza al 95% di µ e’

¯

x ± 1.96 · σ

N

Cio’ a cui dobbiamo prestare attenzione e’ l’associazione tra il valore della prob- abilita’ totale compresa nell’intervallo (95%) ed il valore di z (1.96). Tali coppie di valori si trovano in tabelle statistiche che vengono utilizzate come riferimento durante i calcoli. Una tabella ridotta che potete utilizzare e’ la seguente:

TAABELLA RIFERIMENTO VALORI z

Confidence level % z

50 0.67

68 1.00

80 1.29

90 1.64

95 1.96

96 2.00

99 2.58

99.7 3.00

99.9 3.29

Per costruire la funzione che calcola l’intervallo di confidenza dobbiamo fornire alcune informazioni. In particolare servono il valore di z (che definisce il grado di confidenza), la deviazione standard della popolazione ed il vettore delle os- servazioni (quest’ultimo serve per calcolare la media campionaria e per fornire il valore di N). Data la disponibilita’ di tali informazioni la funzione R puo’ essere scritta come segue:

# f u n z i o n e per il c a l c o l o dell ’ i n t e r v a l l o di c o n f i d e n z a : c o n f i n t < - f u n c t i o n( z , sdpop , o b s v e c t o r ){

# c o s t r u z i o n e v a r i a b i l e per r i s u l t a t i res < - rep(0,3)

n a m e s( res ) < - c(" x b a r "," I C l o w e r B o u n d "," I C u p p e r B o u n d ")

# c a l c o l o v a l o r i

x b a r < - m e a n( o b s v e c t o r ) res [1] < - x b a r

res [2] < - x b a r - ( z * s d p o p )/s q r t( l e n g t h ( o b s v e c t o r )) res [3] < - x b a r + ( z * s d p o p )/s q r t( l e n g t h ( o b s v e c t o r ))

# r e s t i t u z i o n e r i s u l t a t i r e t u r n( res )

}

(4)

3 Esercizio 2

Equipaggiati con la funzione confint appena scritta possiamo procedere con alcuni esperimenti. Procedete come segue:

• Create 3 vettori vec1, vec2 e vec3 di osservazioni campionate casualmente da una normale con parametri µ = 5 e σ = 1.5. I vattori dovranno avere rispettivamente lunghezza 5, 10 e 100

• Applicate ad essi la funzione confint() utilizzando z = 1.96 e σ = 1.5 Cosa osservate? C’e’ relazione tra la lunghezza dei vettori e l’ampiezza dell’intervallo di confidenza calcolato? Provate a ripetere i passaggi utilizzando diversi valori di σ. Le vostre conclusioni cambiano? Motivate la risposta.

4 Esercizio 3

Nella pratica statistica i reali valori di σ e µ non sono noti ed e’ quindi necessario procedere ad una stima di tali parametri a partire dal campione a disposizione.

Lo stimatore appropriato per la media di popolazione e’ la media campionaria.

Si procede poi alla stima dell’errore quadratico medio. Quest’ultimo, in parti- colare, puo’ essere stimato come segue:

σ2 N

Si procede, infine, con la stima dell’errore standard SE = s

N, in cui s vale :

s = v u u t

1 N − 1

N

X

i=1

(xi− ¯x)2

il calcolo della media campionaria in R e’ banale mentre SE puo’ essere calco- lato come segue:

# C a l c o l o SE di un v e t t o r e di o s s e r v a z i o n i di n o m e o b s v e c t s < - sd( o b s v e c t )

SE < - s /s q r t( l e n g t h ( o b s v e c t ))

Nel caso in cui il valore di σ della popolazione non sia noto sarebbe errato utilizzare la funzione confint (che richiede in input il vero valore di σ della popolazione). In questi casi possiamo procedere come segue per la stima di un intervallo di confidenza:

¯

x ± t · s/ N

(5)

• t e’ un coefficiente maggiore di 1.96 dipendente dalla dimensione del cam- pione

il coefficinete t si ottiene non dalla tavola della normale ma da quella della distribuzione t di Student . Si puo’ sostituire la tavola della distribuzione t di Studente con le seguenti istruzioni R:

LC < - 0.9 5 # L i v e l l o di c o n f i d e n z a n < - 1 1 # N u m e r o s i t a ’ c a m p i o n a r i a t < - qt( LC + (1- LC )/2, n -1)

Ora proviamo a confrontare gli intervalli di confidenza al 95% calcolati a partire dal medesimo campione assumendo nota la si popolazione ed utilizzando il metodo appena presentato.

• Costruite un vettore rndvect contenente 10 campionamenti da una normale avente µ = 0 e σ = 1

• Stimate intervallo di confidenza al 95% utilizzando la funzione confint()

• costruite una funzione per il cacolo del valore di t dato il livello di confi- denza.

• Utilizzate la funzione per calcolare t per LC = 0.95

• salvate il ritultato ottenuto in una variabile t095 ed utilizzatelo come segue:

SE < - sd( r n d v e c t )/s q r t( e n g t h ( r n d v e c t )) x b a r < - m e a n( r n d v e c t )

A < - xb a r - t * SE B < - xb a r + t * SE C o n f I n t T < - c( A , B )

Cosa osservate riguardo all’ampiezza degli intervalli di confidenza calcolati assumento la σ di popolazione nota e non nota (mediante t). Che conclusioni potete trarne? Motivate la risposta.

Riferimenti

Documenti correlati

Un gruppo di 294 donne sono state trattate con tale integratore: i pesi dei loro figli alla nascita hanno media campionaria 3244 g, e deviazione standard campionaria 669 g.. Le

Quindi la parabola ℘ cercata appartiene al fascio di coniche bitangenti alla retta per V perpendicolare all’ asse di simmetria e alla retta impropria.. Le coniche spezzate del

Some topics on modular functions, elliptic functions and transcendence theory. Sheet of

5.. Disegnando il triangolo si deduce che il minimo viene assunto sulla cf che passa per A e il massimo su quella che passa per C.

[r]

nota: tutte le metriche, anche se non esplicitamente richiesto, sono da consideraresi complete..

Si determini n in modo che la lunghezza dell’intervallo di confidenza (di livello 0.95) risulti minore o uguale a

Esempio di Calcolo della Portata di un micropalo φφφφ220 [mm] -