• Non ci sono risultati.

Corso di laurea in

N/A
N/A
Protected

Academic year: 2021

Condividi "Corso di laurea in"

Copied!
52
0
0

Testo completo

(1)

Corso di laurea in

STATISTICA MATEMATICA E TRATTAMENTO INFORMATICO DEI DATI

Raccolta delle prove scritte degli esami del corso di

STATISTICA INFERENZIALE

(2)

STATISTICA INFERENZIALE – SMID – a.a. 2002/3 Prova scritta del 22 gennaio 2003

PARTE 1

ESERCIZIO 1

Sia X una variabile casuale di media μ e varianza σ e siano 2 X e 1 X variabili casuali campionarie. 2 Si consideri lo stmatore della media Y=aX1+bX2, con a e b numeri reali.

Determinare a e b in modo che lo stimatore sia non distorto e di minima varianza.

ESERCIZIO 2

Si consideri il modello di regressione lineare Y = βX +ε. È noto che la stima dei minimi quadrati di β è 2

i i i

x y b x

∑ ∑

=

a) Verificare che la retta di regressione non passa per il baricentro, se le medie di X e Y non sono entrambe 0. (supponiamo, ragionevolmente, che b sia diverso da 1)

b) Quali altri proprietà del modello di regressione lineare non si conservano quando il modello è senza costante?

ESERCIZIO 3

Dai dati del censimento del 1991 risulta che il numero di abitazioni di una città è 300 000 e che la media dell’epoca di costruzione delle abitazioni è 1815 e lo scarto quadratico medio è 50 anni.

Uno statistico calcola l’intervallo di confidenza per la media dell’epoca di costruzione al 95%. Commentare.

ESERCIZIO 4

Una variabile definita su una popolazione ha distribuzione normale con varianza 1. Due campioni indipendenti, di 100 elementi ciascuno, portano entrambi a rifiutare, al livello del 5%, l”ipotesi che la media della variabile nella popolazione sia 5, con ipotesi alternativa unilaterale destra.

Se si considerano le 200 osservazioni precedenti come formanti un unico campione, avviene che la stessa ipotesi, allo stesso livello, sia:

4.1 sempre rifiutata 4.2 sempre accettata

4.3 talvolta rifiutata, talvolta accettata, a seconda del valore delle medie dei due campioni iniziali.

PARTE 2

ESERCIZIO 1

Il diametro di cavi in acciaio prodotti da una macchina utensile può essere modellato con una variabile casuale con distribuzione normale di deviazione standard nota uguale a 0.02 cm .

Un campione di taglia 10 fornisce i seguenti risultati: la media campionaria è 1.749 cm e la standard deviation campionaria è 0.025 cm.

1.1 Effettuare un test a livello 5% di: 0

1

: 1.75 : 1.75

μ μ

⎧ =

⎨ ≠

H H

1.2 Determinare l’errore di II specie se la media della popolazione vale 1.755 sotto l’ipotesi alternativa.

1.3 Determinare il valore minimo della numerosità campionaria tale che l’intervallo di confidenza per la media a livello del 95% sia più piccolo di 0.01.

ESERCIZIO 2

Da uno stagno vengono prelevati 100 flaconi di acqua di uguale dimensione. Per ciascun flacone viene registrato il numero di microorganismi di una particolare specie presenti nell’acqua; si ottengono i seguenti risultati:

n. microorganismi 0 1 2 3 4 5 6

n. flaconi 15 30 25 20 5 4 1

2.1 Calcolare la media campionaria.

2.2 Effettuare un test per verificare se il campione può provenire da una variabile casuale con distribuzione di Poisson di parametro 2.

(3)

ESERCIZIO 3

Si vuole verificare la correttezza di funzionamento di due diverse macchine A e B che lucidano lenti per occhiali. Si estrae un campione di 300 lenti dalla produzione giornaliera di ciascuna macchina e si ottengono 253 lenti correttamente lucidate dalla macchina A e 196 dalla macchina B.

Si vuole effettuare un test, a livello del 5%, per verificare se le due macchine hanno la stessa frequenza di lenti correttamente lucidate.

3.1 Effettuare il test sulla base dei risultati campionari, esplicitando le ipotesi, la statistica test, la decisione.

Preventivamente – se necessario – effettuare un test di uguaglianza delle varianze.

3.2 Determinare un intervallo di confidenza a livello 99% per la differenza delle frequenze di lenti correttamente lucidate.

ESERCIZIO 4

Si vuole stabilire se una variabile quantitativa (var_risp) dipende da due variabili qualitative (fattore1 e fattore2) con 3 e 2 livelli rispettivamente. Si effettua un eseprimento campionario con 48 prove ugualmente distribuite nei livelli delle due variabili. Si presuppone che i residui possano essere considerati con distribuzione normale, indipendenti e con uguale varianza. Si effettua una analisi della varianza con una modello comprendente l’interazione dei due fattori. I risultati sono i seguenti.

ANOVA: var_risp versus fattore1, fattore2 Factor Type Levels Values

fattore1 fixed 3 1 2 3 fattore2 fixed 2 1 2

Analysis of Variance for var_risp

Source DF SS MS F P fattore1 2 117.50 58.75 3.61 0.036 fattore2 1 21.11 21.11 1.30 0.261 fattore1*fattore2 2 35.63 17.82 1.09 0.344 Error 42 683.86 16.28

Total 47 858.10 a) Commentare i risultati.

b) Si vogliono utilizzare i dati sopra riportati per effettuare un test per il solo fattore 2, considerando quindi un modello di analisi della varianza a una via.

Quanto vale in questo caso la somma dei quadrati dei residui? E i corrispondenti gradi di libertà?

Completare la tabella ed effettuare il test per verificare la non influenza del fattore 2 in un modello a una via.

DF SS MS F

fattore2 1 21.11

Error

Total 47 858.10

(4)

Prova scritta del 13 febbraio 2003 PARTE 1

ESERCIZIO 1

Sia X una variabile aleatoria con distribuzione normale di mediaμ e varianza σ entrambe sconosciute. Al fine di 2 stimare il parametroμ si effettua un campionamento di numerosità 16. Si indichi con I la realizzazione 16α campionaria dell’intervallo di confidenza perμ a livello di significatività fissato 1−α.

Si amplia il campione percedente di altre 9 unità (ottenendo un campione totale di 25 elementi); si indichi con I 25α la realizzazione campionaria dell’intervallo di confidenza perμ nel campione totale allo stesso livello di significatività.

È vero che (effettuare dimostrazioni o produrre controesempi):

a) I16α ⊂I25α b) I16α ⊃I25α c) I16α ∩I25α =∅ d) I16α ∩I25α ≠∅ ESERCIZIO 2

Sia T uno stimatore non distorto di un parametro θ e sia U uno stimatore non distorto di un parametro ψ . 2.1 Dire se vale sempre o sotto quali condizioni che:

a) T + è uno stimatore non distorto del parametro U θ +ψ b) T ∗U è uno stimatore non distorto del parametro θ∗ψ

2.2 Nel caso in cui θ e ψ siano rispettivamente la media e la varianza di una variabile aleatoria normale e T e U i loro stimatori non distorti dire se

X S

2 è stimatore non distorto del parametro μσ2

ESERCIZIO 3

Si vuole verificare l’ipotesi, a livello di significatività α , che la media μ di una variabile aleatoria X abbia un valore fissato μ . Si effettuano due test con le seguenti ipotesi: 0

⎩⎨

=

=

1 1

0 0

: :

μ μ

μ μ H

H e

⎩⎨

=

=

2 1

0 0

: :

μ μ

μ μ H H

e si ottiene che l’errore di seconda specie nel primo test β è maggiore di quello del secondo test 1 β . 2 Che cosa vuol dire ?

PARTE 2

ESERCIZIO 1

Per verificare la produttività di due differenti qualità di grano in condizioni di campo aperto vengono scelte 16 aziende agricole e a metà di esse (scelte a caso) viene assegnata la qualità A e all’altra metà la qualità B.

Si indichino con X e A X le variabili aleatorie corrispondenti ai raccolti con i due tipi di grano. B I raccolti (misurati in un indice di produttività per acro) sono riportati nella seguente tabella.

A 86 87 56 93 84 92 75 79 B 80 77 91 58 90 76 66 82 Si ottengono le seguenti realizzazioni delle statistiche

xAi = 652

xAi2 = 54136

x

Bi= 620

x

B2i = 48930

1.1 Si effettui il test della somma dei ranghi per verificare le seguenti ipotesi:

⎪⎩

⎪⎨

<

=

B A

B A

X X

X X

F F H

F F H

: :

1 0

1.2 Si supponga che le varibili aleatorie X e A X abbiano distribuzione normale (con parametri sconosciuti). B Si effettui un test per verificare le seguenti ipotesi:

⎩⎨

>

=

B A

B A

H H

μ μ

μ μ : :

1 0

ESERCIZIO 2

Consideriamo il modello di regressione con una variabile risposta Y e 3 variabili esplicative X1, X2 e X3.

Supponiamo di avere stimato i 4 parametri β0, β1,β2 e β3 con gli stimatori B0,B1,B2 e B3 .

1. Se si modifica il modello considerando le due variabili esplicative (X1-X3) e (X2-X3), che cosa si puo’ dire sulle stime dei nuovi coefficienti (in funzione di quelli del modello originale) ?

(5)

2. Se X1 e X3 sono significative nel modello originale, e’ vero che (X1-X3) e’ significativa nel modello modificato ? (motivare la risposta).

ESERCIZIO 3

Si vuole verificare la quantità di zucchero immesso in una confezione da un macchinario. Si osservano 36 confezioni estratte a caso dalla produzione e si ottiene una media campionaria di 994 grammi. Si supponga che la varianza della quantità di zucchero inscatolata sia costante, pari a 36 g2.

3.3 Calcolare un intervallo di confidenza a livello del 95% per la media μ di zucchero inscatolata.

3.4 Determinare la probabilità che il contenuto medio di zucchero si discosti (in valore assoluto) daμ per meno di 3 grammi

3.5 Si effettua un test a livello del 5% per verificare le ipotesi

⎩⎨

= 1000 :

1000 :

1 0

μ μ H

H .

Determinare la potenza del test per il valore del parametro uguale a 998.

3.6 Discutere la scelta delle possibili ipotesi alternative nel caso di “compratore”, “produttore”, “ispettore”

ESERCIZIO 4

Si vuole studiare se una variabile, indicata con Y, possa avere una dipendenza lineare da 4 variabili esplicative, indicate con X1, X2, X3 e X4. Si effettua una regressione lineare su 120 osservazioni campionarie considerando un modello con costante e con variabili esplicative X1, X2, X3, X4.

I risultati sono i seguenti:

The regression equation is

Y = 19.2 - 0.177 X1 + 29.8 X2 + 21.8 X3 - 0.141 X4 Predictor Coef SE Coef T P Constant 19.157 6.358 3.01 0.003 X1 -0.1773 0.1130 -1.57 0.120 X2 29.8208 0.1747 170.72 0.000 X3 21.8453 0.1343 162.70 0.000 X4 -0.14055 0.08027 -1.75 0.083 S = 9.981 R-Sq = 99.8% R-Sq(adj) = 99.8%

Analysis of Variance

2000 1500

1000 2

1 0 -1 -2 -3

Fitted Value

Standardized Residual

Residuals Versus the Fitted Values

(response is Y)

Source DF SS MS F P Regression 4 6051937 1512984 15187.50 0.000 Residual Error 115 11456 100

Total 119 6063394 4.1 Commentare dettagliatamente.

4.2 Calcolare un intervallo di confidenza per il valore atteso di Y per una unità sperimentale che ha i seguenti valori y = 1952.76 i yˆ = 1932.35 stima di std(i Yˆi )= 2.30

Si effettua quindi una regressione considerando un modello con costante e con variabili esplicative X2 e X3.

I risultati di questa regressione lineare sono i seguenti:

The regression equation is Y = 18.0 + 29.9 X2 + 21.8 X3

Predictor Coef SE Coef T P Constant 17.969 6.413 2.80 0.006 X2 29.8972 0.1734 172.44 0.000 X3 21.8317 0.1358 160.78 0.000 S = 10.10 R-Sq = 99.8% R-Sq(adj) = 99.8%

Analysis of Variance

Source DF SS MS F P Regression 2 6051447 3025723 29631.82 0.000 Residual Error 117 11947 102

Total 119 6063394

4.3 Utilizzando questi dati e i precedenti effettuare un test di Fisher, a livello del 5%, per verificare se il modello con la costante e le variabili X2 e X3 mantiene significative informazioni.

(6)

Prova scritta del 28 aprile 2003 PARTE 1

ESERCIZIO 1

Sia X una variabile aleatoria con distribuzione normale di mediaμ sconosciuta e varianza 1. Si vuole effettuare un test per le iptesi H0 :μ=0 contro H0 :μ≠0 a livello di significatività 0.05.

Si effettuano 10 campioni da 1 unità sperimentale ciascuno ottenendo i seguenti valori 0.65 -0.75 0.43 -2.44 0.44 0.71 0.86 -1.22 -1.92 0.25 Dire quante volte si rifiuta l’ipotesi principale.

ESERCIZIO 2

Nella tabella a fianco sono riportati i risultati campionari di un’intervista effettuata su 54 persone, suddivisi fra maschi e femmine.

Senza effettuare i calcoli dire quale è la conclusione di un test χ di 2 indipendenza fra le variabili Opinione e Sesso.

M F

SI 10 10

FORSE 12 12

NO 5 5

ESERCIZIO 3

Si considerino i tre seguenti stimatori della media μ per campioni di dimensione n di una variabile aleatoria X con distribuzione normale di varianza 2.

(1) n

X Xn(1) = X1++ n

(2) 12 2

) 2

( X X

Xn = +

(3) n

X

Xn X n

2

) 1 3

( + +

= …

3.1 Dire quali sono non distorti.

3.2 Dire quali, fra i non distorti, sono consistenti.

ESERCIZIO 4

Una variabile casuale in una popolazione ha distribuzione normale con media μ sconosciuta e deviazione standard nota, σ =15. Si vuole verificare se la media della variabile casuale è 20 contro l’alternativa che sia diversa da 20.

Ad un campione si applica il test sulla media al livello del 5%.

a) Qual è la probabilità di rifiutare l’ipotesi principale quando nella popolazione si ha μ =20?

b) Che cosa si può dire circa la probabilità di rifiutare l’ipotesi principale quando nella popolazione si ha 20

μ ≠ ?

PARTE 2

ESERCIZIO 1

Un gruppo di 22 volontari viene esposto a vari tipi di virus influenzali e tenuto sotto controllo medico.

A un campione casuale di 10 volontari viene somministrato un farmaco e agli altri un placebo.

Nella tabella a fianco è riporta la durata in giorni dell’influenza.

Si indichi con X la variabile casuale che indica la durata dell’influenza nella popolazione.

Dal campione si ottengono le seguenti statistiche:

) ( 12

1 i P i

x

=

= 70 12 2( )

1 P i i

x

=

= 442

) ( 10

1 i F i

x

=

= 75.5 10 2( )

1 F i i

x

=

= 584.75

Placebo Farmaco (P) (F) 5.5 6.5 7.5 9.0 4.5 10.0 7.0 8.0 3.0 8.5 6.0 7.0 4.5 7.0 8.5 6.0 8.5 7.0 4.5 6.5 4.5 6.0

1.3 Si effettui un test per verificare l’uguaglianza delle varianze nelle due popolazioni (P e F) di cui si hanno i dati campionari.

1.4 Si effettui un test per verificare se il farmaco diminuisce la durata media dell’influenza. Giustificare la scelta dell’ipotesi pricipale e dell’alternativa.

(7)

ESERCIZIO 2

Una variabile casualeX ha densità: fX(x)=axa1 per x ∈[0,1], dipendente da un parametro a reale positivo.

3.1 Disegnare il grafico della densità per valori di a uguale a 2 e uguale a 3.

3.2 Calcolare il valore medio e la varianza di X in funzione del parametro a . Ricordare: IE X x fX x dx

A

) ( )

( =

e var(X) IE (X2) IE (X)2 x2fX(x)dx IE (X)2

A

⎟−

⎜⎜

=⎛

=

dove A è l’insieme su cui è definita la variabile casuale.

3.3 Si vuole stimare il parametro a . A tale fine si effettua un campionamento di 36 unità sperimentali e si ottiene un valore medio campionario pari a 0.33. Fornire una stima puntuale della media di X , del parametro a e della varianza di X .

3.4 Calcolare un intervallo di confidenza a livello al 95% per la media di X e un intervallo di confidenza allo stesso livello per il parametro a .

ESERCIZIO 3

Si vuole studiare se una variabile, indicata con Y, possa avere una dipendenza lineare da 3 variabili esplicative, indicate con X1, X2 e X3. Si effettua una regressione lineare su 100 osservazioni campionarie considerando un modello: Y =β01X12X23X3+ε.

I risultati sono i seguenti:

The regression equation is

Y = 1366 + 0.27 X1 + 23.0 X3 + 22.3 X4

Predictor Coef SE Coef T P Constant 1365.54 22.04 61.95 0.000 X1 0.268 5.148 0.05 0.959 X3 23.0040 0.3829 60.09 0.000 X4 22.3390 0.1593 140.19 0.000 S = 27.97 R-Sq = 99.6% R-Sq(adj) = 99.6%

Analysis of Variance

Source DF SS MS F P Regression 3 20495331 6831777 8730.39 0.000 Residual Error 96 75123 783

Total 99 20570453

4.4 Commentare dettagliatamente.

4.5 La matrice

( )

XtX 1 ha i seguenti valori:

0.620858 -0.109551 -0.007038 -0.000913 -0.109551 0.033865 0.000180 0.000080 -0.007038 0.000180 0.000187 -0.000010 -0.000913 0.000080 -0.000010 0.000032

Ricavare da questa e dai dati precedenti la covarianza e la correlazione fra gli stimatori dei parametri β e 0 β 1

(8)

Prova scritta del 16 giugno 2003 PARTE 1

ESERCIZIO 1

La media di una variabile casuale definita su una popolazione è sconosciuta, lo varianza è nota. Si fa l’ipotesi che la media della popolazione abbia un determinato valore. Ad uno stesso campione di dati si applicano, in relazione alla stessa ipotesi, due test sulla media: il primo, al livello del 5%; il secondo, al livello dell’1%. Per ciascuna delle quattro condizioni sotto indicate dire se è possibile o no (barrare la risposta corretta):

Esito del 1˚ test Esito del 2˚ test

accettare accettare possibile non possibile accettare rifiutare possibile non possibile rifiutare accettare possibile non possibile rifiutare rifiutare possibile non possibile ESERCIZIO 2

Sia X una variabile aleatoria con distribuzione normale di media sconosciutaμ e varianza nota uguale a 1.

Si deve stimare la media di una variabile aleatoria Y di cui si conosce la relazione con X :Y =X2. Spiegare se è un procedimento corretto stimare μ con X e poi stimare IE (Y) con X . 2

ESERCIZIO 3

Su un campione di 24 unità sperimentali si sono rilevate le variabili A e B.

Completare la tabella in modo che le due variabili siano indipendenti

A1 A2 B1 8 B2 6

ESERCIZIO 4

Sia X1,…,Xn un campione di numerosità n di variabili aleatorie di Bernoulli di parametro p . Sia

n n X X

S = 1+ + ; S indica il numero di successi nel campione. Sia Pˆ lo stimatore usuale di n p : n Pˆ=Sn .

1) Dimostrare che Pˆ massimizza la quantità:L(p)=pSn

(

1−p

)

nSn come funzione di p . 2) Come si può interpretare L(p)?

PARTE 2

ESERCIZIO 1

Si vuole verificare se un dado è equilibrato.

A tal fine viene lanciato 100 volte in condizioni indipendenti ottenendo i seguenti risultati:

faccia 1 2 3 4 5 6

n. uscite 25 18 0 18 20 19

Si effettuino due test di bontà di adattamento a livello del 5%

A. Test delχ 2

B. Test di Kolmogorov Smirnov.

ESERCIZIO 2

Sia X una variabile aleatoria la cui funzione di densità dipende da un parametro θ .

Siano D e 1 D due stimatori indipendenti del parametro entrambi non distorti e di varianza rispettivamente 2 σ e 12

22

σ . Si consideri lo stimatore D :

2 1 (1 )D D

D =λ + −λ con λ∈(0,1)

(9)

2.1 Dire se D è distorto.

2.2 Calcolare la varianza di D

.

2.3 Calcolare il valore di λ per cui la varianza di D è minima.

ESERCIZIO 3

Si effettua un’analisi della varianza per verificare l’influenza della variabile qualitativa X sulla variabile risposta Y.

Nella seguente tabella sono riportati alcuni dei risultati.

DF SS MS F

X 3 355

Error

Total 59 8931

3.1 Su quante unità sperimentali sono effettuate le rilevazioni di X e Y?

3.2 Quanti livelli ha il fattore X?

3.3 Completare la tabella ed effettuare il test a livello del 5%.

ESERCIZIO 4

Una variabile casuale X ha distribuzione esponenziale di parametro λ .

Si vuole calcolare un intervallo di confidenza per il parametro a livello del 99%.

Si stima l’inverso del parameto con la media campionaria.

Si dimostra che la variabile casuale C ,

=

= n

i Xi

C

1

2λ ha distribuzione χ con 2n gradi di libertà. 2 In un campione di 20 elementi si è ottenuta una media campionaria di 15.

4.1 Trovare due valori c e 1 c per cui: 2 IP

(

c1 <C <c2

)

=0.99 4.2 Trovare un intervallo di confidenza per la media campionaria 4.3 Trovare un intervallo di confidenza perλ .

(10)

Prova scritta del 7 luglio 2003 PARTE 1

ESERCIZIO 1

Sia X una variabile aleatoria con densità dipendente da un parametro reale θ . Siano S e 1 S due stimatori del 2 parametro basati sulle variabili aleatorie campionarie X1,…,Xn tali che:

θ

= ) (S1 E

I , IE(S2)=θ −n1 ,

S )=θn (

Var 1 , Var( 2) 2 S = nθ .

Calcolare il Mean Square Error dei due stimatori e dire quale è preferibile.

ESERCIZIO 2

Sia X una variabile aleatoria con distribuzione normale di media sconosciutaμ e varianza nota uguale a 1.

Si deve effettuare un test sulla media al livello del 5% con ipotesi: H0 :μ =50 e H1:μ >50.

Su un campione di numerosità 100 si ottiene una media campionaria che porta a rifiutare l’ipotesi principale.

2.1 Che cosa si può concludere se si effettua sullo stesso campione un test con ipotesi alternativa 50

1:μ ≠

H ?

2.2 Che cosa si può concludere se si effettua sullo stesso campione un test con la stessa ipotesi alternativa 50

1:μ >

H ma con livello del 10%?

ESERCIZIO 3

Sia X1,…,Xn un campione di numerosità n di una variabile aleatoria X .

Si deve effettuare un test sulla mediana (Q2) al livello del 5% con ipotesi: H0 :Q2=40 e H1:Q2>40. Si ottiene una mediana campionaria pari a 38. Che cosa si può concludere? Perché?

PARTE 2

ESERCIZIO 1

Siano X e 1 X due variabili casuali con distribuzione uniforme continua sull’intervallo 2 [0,θ con θ parametro ] sconosciuto. Si vuole effettuare un test di ipotesi H0:θ =1 contro H1:θ >1, a livello di significatività

α

. Come statistica test si usi la variabile casuale T , con T =X1+X2, che ha distribuzione triangolare. Calcolare la regione di rifiuto dell’ipotesi principale (in funzione di α ).

ESERCIZIO 2

Sia X una variabile casuale binomiale con probabilità di successo in ciascuna prova uguale a 12 e numero di prove k sconosciuto. Si considera un campione di numerosità 100 e si ottiene una media campionaria di successi pari a 5.6. Determinare un intervallo di confidenza per k a livello di significatività del 95%.

ESERCIZIO 3

Due variabili X e Y sono rilevate su due campioni di diversa numerosità.

I risultati sono riportati a fianco (ordinati per comodità di calcoli)

Disegnare le due funzioni di distribuzioni cumulate

Row X Y 1 57.7 79.3 2 66.0 86.1 3 73.8 90.6 4 76.4 92.2 5 79.2 93.2 6 79.4 93.3 7 80.0 96.5 8 83.1 96.6 9 84.9 106.2 10 88.0 107.3 11 90.4 12 97.3

a) Effettuare un test per verificare se le funzioni di distribuzione cumulata di X e Y sono uguali contro l’alternativa che quella di Y sia maggiore.

b) Supponendo che le distribuzioni di X e Y siano normali con uguale varianza effettuare un test per verificare se le medie delle due distribuzioni sono uguali contro l’alternativa che quella di Y sia inferiore.

S possono utilizzare le seguenti statistiche

xi = 956.20

xi2 =77443

yi = 941.30

yi2 =89238

(11)

Prova scritta del 12 settembre 2003

PARTE 1

ESERCIZIO 1

Uno studioso elabora la teoria un test statistico atto a verificare un’ipotesi H, in modo che l’errore di prima specie abbia probabilità del 5%. Per avere un controllo sperimentale della validità del test studiato egli lo applica, ad un livello del 5%, a 125 campioni per ciascuno dei quali egli sa che l’ipotesi H è effettivamente vera. Il risultato è che in 37 casi il test indica che H viene respinta.

a. Ad un livello intuitivo, ritenete che il test sia corretto o errato? perché?

b. La correttezza del test può essere assunta come ipotesi da verificare con un opportuno secondo test statistico? Se sì, quale?

ESERCIZIO 2

Siano X e Y due stimatori indipendenti e non distorti di un parametro θ di varianza rispettivamente V e X V . Y Consideriamo lo stimatore Z di θ così definito: Z =aX +bY con a e b reali.

a) Indicare condizioni su a e b in modo che Z sia non distorto.

b) Indicare come devono essere scelti a e b in modo che Z sia non distorto e di varianza minima.

c) Dire per quale delle condizioni a) e/o b) è necessaria l’ipotesi di indipendenza.

ESERCIZIO 3

Sia X una variabile aleatoria con distribuzione normale di media sconosciuta e varianza nota.

Indichiamo con (A, B) l’intervallo di confidenza per la media calcolato su un campione di n elementi.

È vero che A e B sono variabili aleatorie?

PARTE 2

ESERCIZIO 1

Si lancia 100 volte un dado e si ottiene la segeunte tabella di frequenze:

x 1 2 3 4 5 6 f(x) 15 20 20 15 13 17

Effettuare un test a livello del 5% per verificare l’ipotesi che i numeri pari abbiano la stessa probabilità dei dispari contro l’alternativa che abbiano probabilità diversa.

ESERCIZIO 2

Sia X una variabile casuale con distribuzione normale di media μ e varianza 1.44.

Scrivere la regione di rifiuto dell’ipotesi principale per un test al 10% di H0 :μ =1 contro H1: μ>1 su un campione di 144 elementi.

Calcolare il p-value sapendo che la media del campione è 1.05 È necessaria l’ipotesi di normalità della variabile X?

ESERCIZIO 3

Si vuole verificare se la mediana di una varibile casuale con distribuzione simmetrica sia 8 contro l’alternativa che sia maggiore. Si ottengono i seguenti 18 risultati sperimentali.

6.9 9.5 6.4 5.2 9.7 9.8 1.0 11.0 7.2 11.1 6.1 11.4 7.9 7.8 5.9 10.0 8.3 9.6 Effettuare un test opportuno per verificare l’ipotesi indicata.

ESERCIZIO 4

Si vuole studiare se una variabile, indicata con Y, possa avere una dipendenza lineare da 4 variabili esplicative, indicate con X1, X2, X3 e X4.

Si effettua una regressione lineare su 50 osservazioni campionarie considerando un modello con costante e con variabili esplicative X1, X2, X3, X4; i risultati sono i seguenti:

(12)

The regression equation is

Y = 324 - 7.32 X1 + 4.52 X2 + 28.2 X3 + 25.8 X4 Predictor Coef Stdev t-ratio p Constant 323.75 18.63 17.38 0.000 X1 -7.324 4.877 -1.50 0.140 X2 4.524 4.835 0.94 0.354 X3 28.2261 0.3097 91.15 0.000 X4 25.7921 0.1237 208.54 0.000 s = 16.56 R-sq = 99.9% R-sq(adj) = 99.9%

Analysis of Variance

SOURCE DF SS MS F p Regression 4 13817339 3454335 12597.23 0.000 Error 45 12340 274

Total 49 13829679

a) Calcolare il valore per la variabile della regressione (Yfit o y ˆ ) per una osservazione che ha i seguenti valori per le variabili esplicative: X1 X2 X3 X4

4.0 2.2 42.0 56.8

Sapendo che per tale osservazione il valore della variabile risposta è 2947.8 calcolare il valore del residuo corrispondente.

a) Indicare quali variabili sono da considerarsi singolarmente ininfluenti a livello del 5%. Motivare la risposta indicando quali dati si sono utilizzati.

Si effettua quindi una regressione considerando un modello con costante e con variabili esplicative X3 e X4. I risultati di questa regressione lineare sono i seguenti:

The regression equation is Y = 313 + 28.1 X3 + 25.8 X4

Predictor Coef Stdev t-ratio p Constant 312.76 12.38 25.26 0.000 X3 28.1476 0.3080 91.38 0.000 X4 25.8131 0.1238 208.45 0.000 s = 16.68 R-sq = 99.9% R-sq(adj) = 99.9%

Analysis of Variance

SOURCE DF SS MS F p Regression 2 13816602 6908301 24828.50 0.000 Error 47 13077 278

Total 49 13829679

b) Utilizzando questi dati e i precedenti effettuare il test di Fisher, a livello del 5%, per verificare se il modello con la costante e le variabili X3 e X4 è un buon modello ridotto.

c) Calcolare un intervallo di confidenza a livello del 95% per il coefficiente di X3.

(13)

STATISTICA INFERENZIALE – SMID – a.a. 2003/4 Prova scritta del 2 febbraio 2004

PARTE 1

ESERCIZIO 1

Uno studioso elabora la teoria di un test statistico atto a verificare un’ipotesi H, in modo che l’errore di prima specie abbia probabilità del 5%. Per avere un controllo sperimentale della validità del test studiato egli lo applica, ad un livello del 5%, a 125 campioni per ciascuno dei quali egli sa che l’ipotesi H è effettivamente vera. Il risultato è che in 37 casi il test indica che H viene respinta.

a) Ad un livello intuitivo, ritenete che il test sia corretto o errato? perché?

b) Che cosa esplicitamente può essere corretto o errato nella procedura teorica di un test?

c) La correttezza del test può essere assunta come ipotesi da verificare con un opportuno secondo test statistico? Se sì, quale?

ESERCIZIO 2

Siano X e Y due stimatori indipendenti e non distorti di un parametro θ di varianza rispettivamente V e X V . Y Consideriamo lo stimatore Z di θ così definito: Z =aX +bY con a e b reali.

a) Indicare condizioni su a e b in modo che Z sia non distorto.

b) Indicare come devono essere scelti a e b in modo che Z sia non distorto e di varianza minima.

c) Dire per quale delle condizioni a) e/o b) è necessaria l’ipotesi di indipendenza.

ESERCIZIO 3

Siano T e 1 T due stimatori di un parametro θ per cui si ha 2 Var(T1)=Var(T2) per ogni θ .

Dire se è vero o no che gli errori quadratici medi dei due stimatori sono uguali, cioè se MSE(T1)=MSE(T2) ESERCIZIO 4

Sia X una variabile aleatoria con distribuzione normale di media μ e varianza σ entrambe sconosciute. 2

4.1 Sulla base di un campione di numerosità n si calcola un intervallo di confidenza per μ al livello del 95%.

Esite un intervallo di confidenza per μ , allo stesso livello, su un campione di uguale numerosità con ampiezza minore del precedente?

4.2 Sulla base di un campione di numerosità n si calcola un intervallo di confidenza per σ al livello del 95%. 2 Esite un intervallo di confidenza per σ , allo stesso livello, su un campione di uguale numerosità con 2 ampiezza minore del precedente?

PARTE 2

ESERCIZIO 1

Si lancia 100 volte un dado e si ottiene la segeunte tabella di frequenze:

x 1 2 3 4 5 6 f(x) 15 20 20 15 13 17

Effettuare un test a livello del 5% per verificare l’ipotesi che i numeri pari abbiano la stessa probabilità dei dispari contro l’alternativa che abbiano probabilità diversa.

ESERCIZIO 2

Un fenomeno è modellabile con una variabile aleatoria X con media e varianza dipendenti da un parametro a , 4

> π

a :

) 2

(X a π

E

I = e

) 4 (

Var π

=a

X .

Su un campione di 100 elementi si ottiene una media campionaria di 4.1.

1) Indicare una stima puntuale della media di X , del parametro a e della varianza di X .

2) Calcolare un intervallo di confidenza per la media di X a livello di significatività del 95% esplicitando eventuali approssimazioni effettuate.

3) Calcolare un intervallo di confidenza per il parametro a a livello di significatività del 95% esplicitando eventuali approssimazioni effettuate.

(14)

4) Calcolare un intervallo di confidenza per la varianza di X a livello di significatività del 95% esplicitando eventuali approssimazioni effettuate.

5) Per ciascuno dei tre stimatori utilizzati in precedenza, dire se è distorto o no.

ESERCIZIO 3

Sia X una variabile casuale con distribuzione normale di media μ e varianza 4. Si vuole effettuare un test per le seguenti ipotesi:

1

0: μ =

H H1:μ =3

a partire da un canmpione di numerosità 8.

a. Scrivere la regione di rifiuto dell’ipotesi principale a livello di significatività di 0.01.

b. Calcolare il p-value sapendo che la media del campione è 1.05.

c. Mostrare che la dimensione campionaria utilizzata non è sufficiente per avere una potenza del test di 0.90.

d. Determinare la minima dimensione campionaria per avere un test a livello di 0.01 e una potenza di 0.90?

ESERCIZIO 4

Il tempo di vita di una lampadina è modellabile con una variabile aleatoria X con distribuzione esponenziale di parametro λ . Si vuole verificare se due diversi tipi di lampadine A e B hanno lo stesso tempo di vita medio oppure se il tipo B ha un tempo di vita medio maggiore del tipo A.

Indichiamo con λ e A λ i parametri delle distribuzioni dei due tipi. B 1) Quali sono le ipotesi del test:

⎩⎨

>

=

B A

B A

H H

λ λ

λ λ : :

1

0 oppure

⎩⎨

<

=

B A

B A

H H

λ λ

λ λ : :

1 0

perchè?

Per effettuare il test si ricordi che:

Se X1,…Xnsono variabili aleatorie indipendenti e tutte con distribuzione esponenziale di parametro λ , allora la variabile aleatoria Y ,

=

= n

i Xi

Y

1

2λ , ha distribuzione χ con n2 2 gradi di libertà.

Si considerino 2 campioni indipendenti dei due tipi di lampadine, ciascuno di numerosità 20.

Si indichino con X1A,…X20A le variabili aleatorie campionarie del tipo A e X1B,…X20B quelle del tipo B

Si trova che nel campione del tipo A la somma dei tempi di durata è 150 (in un opportuna unità di misura) e quella del tipo B è 120:

=

= 20 1 i

iA

x 150 e

=

= 20 1 i

iB

x 120.

2) Si individui una statistica test funzione del rapporto fra le variabili aleatorie

= 20 i 1

iA

X e

= 20 i 1

iB

X di cui si conosca la distribuzione quando sia vera l’ipotesi principale (λ =A λ ). B

3) Si effettui il test a livello di significatività del 5% per i dati campionari.

ESERCIZIO 5

Si vuole studiare se una variabile, indicata con Y, possa avere una dipendenza lineare da 4 variabili esplicative, indicate con X1, X2, X3 e X4.

Si effettua una regressione lineare su 50 osservazioni campionarie considerando un modello con costante e con variabili esplicative X1, X2, X3, X4; i risultati sono i seguenti:

The regression equation is

Y = 324 - 7.32 X1 + 4.52 X2 + 28.2 X3 + 25.8 X4 Predictor Coef Stdev t-ratio p Constant 323.75 18.63 17.38 0.000 X1 -7.324 4.877 -1.50 0.140 X2 4.524 4.835 0.94 0.354 X3 28.2261 0.3097 91.15 0.000 X4 25.7921 0.1237 208.54 0.000 s = 16.56 R-sq = 99.9% R-sq(adj) = 99.9%

Analysis of Variance

SOURCE DF SS MS F p Regression 4 13817339 3454335 12597.23 0.000 Error 45 12340 274

Total 49 13829679

(15)

a) Calcolare il valore per la variabile della regressione (Yfit o y ˆ ) per una osservazione che ha i seguenti valori per le variabili esplicative: X1 X2 X3 X4

4.0 2.2 42.0 56.8

Sapendo che per tale osservazione il valore della variabile risposta è 2947.8 calcolare il valore del residuo corrispondente.

b) Indicare quali variabili sono da considerarsi singolarmente ininfluenti a livello del 5%. Motivare la risposta indicando quali dati si sono utilizzati.

Si effettua quindi una regressione considerando un modello con costante e con variabili esplicative X3 e X4. I risultati di questa regressione lineare sono i seguenti:

The regression equation is Y = 313 + 28.1 X3 + 25.8 X4

Predictor Coef Stdev t-ratio p Constant 312.76 12.38 25.26 0.000 X3 28.1476 0.3080 91.38 0.000 X4 25.8131 0.1238 208.45 0.000 s = 16.68 R-sq = 99.9% R-sq(adj) = 99.9%

Analysis of Variance

SOURCE DF SS MS F p Regression 2 13816602 6908301 24828.50 0.000 Error 47 13077 278

Total 49 13829679

c) Utilizzando questi dati e i precedenti effettuare il test di Fisher, a livello del 5%, per verificare se il modello con la costante e le variabili X3 e X4 non fa perdere informazioni signifcative rispetto al modello completo.

d) Calcolare un intervallo di confidenza a livello del 95% per il coefficiente di X3.

(16)

Prova scritta del 19 febbraio 2004 PARTE 1

ESERCIZIO 1

Si vuole studiare se una variabile, indicata con Y, possa avere una dipendenza lineare da 4 variabili esplicative, indicate con X1, X2, X3 e X4. Si effettua una regressione lineare su 50 osservazioni campionarie considerando un modello con costante e con variabili esplicative X1, X2, X3, X4; i risultati sono i seguenti:

The regression equation is

Y = 324 - 7.32 X1 + 4.52 X2 + 28.2 X3 + 25.8 X4 Predictor Coef Stdev t-ratio p Constant 323.75 18.63 17.38 0.000 X1 -7.324 4.877 -1.50 0.140 X2 4.524 4.835 0.94 0.354 X3 28.2261 0.3097 91.15 0.000 X4 25.7921 0.1237 208.54 0.000 Si consideri il coefficiente della variabile X1, che indichiamo con β . 1

a) Utilizzando i dati precedenti indicare il p-value del valore campionario per un test con ipotesi:

H0: β1 ≥0 contro H1: β1 <0 ed effettuare il test.

b) In una regressione lineare del tipo quella precedente spiegare che cosa vuol dire, in termini di legame fra variabili esplicativa e variabile risposta, il fatto che un coefficiente sia negativo?

ESERCIZIO 2

Siano T e 1 T due stimatori di un parametro θ tali che: 2 θ

= ) (T1 E

I

T n

Var( 1)= σ2

T n E

I ( 2)=θ +δ ( 2) 22 T n

Var = σ

dove n indica la numerosità campionaria.

a) Calcolare il mean square error per entrambi gli stimatori.

b) Dire per quali valori di n si ha MSE(T1)<MSE(T2). ESERCIZIO 3

Sia X una variabile casuale normale di media sconosciuta μ e varianza 1. Si vuole effettuare un test a livello dell’1% con ipotesi

H0: μ≥ 4 contro H1: μ<4 Su un campione di 30 elementi si ottiene una media campionaria di 3.5.

a) Scrivere l’espressione del p-value per il valore ottenuto.

b) Indicare come si modifica il p-value percedente (aumenta, diminuisce, resta inalterato) se la stessa media di 3.5 è ottenuta su un campione di 50 elementi.

ESERCIZIO 4

Siano Z e 1 Z due variabili aleatorie che indicano la temperatura del suolo rispettivamente a meno 1 m di 2 profondità e a meno 1 km.

Indicare quale delle due varaibili, in una regressione lineare, sia da considerarsi come variabile esplicativa e quale come variabile risposta, eventualemente specificando diverse condizione per la/e scelta/e.

PARTE 2

ESERCIZIO 1

Uno scienziato sostiene che il 9% delle stelle ammette un sistema planetario.

a) Determinare la probabilità che su 1000 stelle almeno 100 abbiano un sistema planetario, secondo le ipotesi dello scienziato.

b) Sulle 80 stelle più vicine alla terra se ne sono trovate 3 con un sistema planetario. Si calcoli un intervallo di confidenza a livello del 5% per la frequenza relativa delle stelle vicine alla terra con sistema planetario.

ESERCIZIO 2

Su un campione di 50 individui si rilevano due variabili: posseso dell’automobile e possesso del cellulare.

(17)

CELL

SI NO

SI 30 3

A U T

O NO 12 5

a) Effettuare un test a livello del 5% per verificare l’indipendenza delle due variabili.

Un modello economico suggerisce che le frequenze teoriche dovrebbero essere quelle riportate a fianco.

b) Verificare l’adattamento dei dati al modello proposto.

CELL

SI NO

SI 0.7 0.1

A U T

O NO 0.1 0.1 ESERCIZIO 3

Da un campione di 100 famiglie della città A risulta che il numero medio di figli è 1.8 con una standard deviation di 0.6. Nella città B, sempre su un campione di 100 unità, risulta che il numero medio di figli è 1.6 e la standard deviation è 0.4. Effettuare un test a livello di significatività del 5% per stabilire se il numero di figli è uguale nelle due città .

ESERCIZIO 4

Per molte specie animali la “speranza di vita” (alla nascita) è definita come la mediana delle durate della vita (stimata osservando un campione numeroso di animali di quella specie).

Alcuni animali hanno una speranza di vita di 2.7 anni. A 10 di essi vengono somministrati, alla nascita, dei farmaci che dovrebbero proteggerli dai possibili effetti nocivi di certi parassiti, quindi vengono lasciati in libertà, ma seguiti.

La durata della loro vita in anni è risultata

3.2 1.1 2.3 0.1 2.9 3.1 3.3 1.8 3.2 2.6.

Verificare, al livello di significatività del 5%, l’ipotesi che la speranza di vita (alla nascita) degli animali di quella specie, trattati con lo stesso farmaco, rimanga invariata (2.7 anni) contro l’alternativa che sia aumentata.

ESERCIZIO 5

Si vuole stabilire se una variabile quantitativa Y dipende da due variabili qualitative A e B con 3 e 4 livelli rispettivamente. Si effettua un eseprimento campionario con 60 prove ugualmente distribuite nei livelli delle due variabili. Si presuppone che i residui possano essere considerati con distribuzione normale, indipendenti e con uguale varianza.

Si effettua una analisi della varianza con una modello comprendente l’interazione dei due fattori. I risultati sono i seguenti.

ANOVA: Y versus A, B

Factor Type Levels Values

A fixed 3 1 2 3 B fixed 4 1 2 3 4 Analysis of Variance for Y

Source DF SS MS F P A 2 1543.19 771.59 25.56 0.000 B 3 419.36 139.79 4.63 0.006 A*B 6 7101.23 1183.54 39.20 0.000 Error 48 1449.16 30.19

Total 59 10512.93 a) Commentare i risultati.

b) Si utilizzino i dati sopra riportati per effettuare un test per due modelli (separati) di analisi della varianza a una via MODELLO CON SOLO FATTORE A

DF SS MS F A

Error Total

MODELLO CON SOLO FATTORE B

(18)

Prova scritta del 19 aprile 2004 PARTE 1

ESERCIZIO 1

Sia T uno stimatore non distorto di un parametro θ

Siano X e Y due variabili aleatorie tali che: IE (X)= 0 e IE (Y)= 1.

Dire se le seguenti affermazioni sono vere o false (e in tali casi dimostrarlo) o se sono vere sotto opportune condizioni (e in tal caso esplicitarle).

a. T +X è uno stimatore non distorto di θ b. T ⋅ è uno stimatore non distorto di θ Y ESERCIZIO 2

Una variabile aleatoria dicotomica X è rilevata in due sottopopolazioni indipendenti, che indichiamo con M e F. Si ottiene che le stime delle probabilità di successo di X e M X sono rispettivamente F pˆ = 0.58 e M pˆ = 0.55. Con F questi valori il test di uguaglianza delle due probabilità di successo porta a un rifiuto dell’ipotesi principale.

Se, con le stesse numerosità campionarie, si fosse ottenuto pˆ = 0.98 e M pˆ = 0.95, quale sarebbe stata la F conclusione del test, allo stesso livello di significatività del precedente?

Ricordare che, nel test di uguaglianza delle probabiltà, lo stimatore della varianza di Pˆ −MF è, se H è vera, è 0 ˆ )

1 ˆM( M

F M

F

M p p n

n n

n + −

ESERCIZIO 3

Si consideri il seguente modello di regressione lineare (regressione semplice, senza intecetta):

ε

β +

= X

Y

che viene stimato tramite un campione di 100 unità sperimentali.

Si ottiene che la matrice con colonne i valori rilevati di Y e X ha rango 1.

a) Quanto vale la somma dei quadrati dei residui della regressione?

b) Quanto vale la stima del coefficiente β ? ESERCIZIO 4

Si ipotizza che la variabile Y sia esprimibile tramite una variabile X, secondo la seguente relazione:

) exp( X Y =α −β

Dire se è possibile effettuare una regressione lineare per verificare la bontà del modello.

PARTE 2

ESERCIZIO 1

Siano X e Y due variabili casuali definite sulle stesse unità sperimentali che assumono valori:

X Y

-1 5 2 2 10 -1 5 1

1.1 Calcolare la media e la varianza di X e di Y, la covarianza e la correlazione fra X e Y.

1.2 Calcolare la retta di regressione.

1.3 Calcolare i residui della regressione per ciascuna delle quattro unità sperimentali.

1.4 Calcolare la somma dei residui e la somma dei quadrati dei residui.

Supponiamo ora che i dati provengano da un campionamento casuale.

1.5 Nel modello di regressione lineare considerato

ε β

β + +

= X

Y 0 1

le standard deviation degli stimatori dei coefficienti β e 0 β sono rispettivamente 0.5514 e 0.09672. Completare 1 la tabella e effettuare i due test per verificare la nullità di ciascuno dei due coefficienti β e 0 β . 1

(19)

Predictor Coef SE Coef T

Constant 0.5514

X 0.09672

1.6. Completare la tabella.

Analysis of Variance

Source DF SS MS F Regression

Residual Error

Total 1.7. Quali legami ci sono fra i risultati del punto 1.5 e 1.6?

ESERCIZIO 2

Una variabile aleatoria ordinale X con livelli {1, 2, 3, 4, 5} è rilevata su un campione di 100 unità sperimentali. I risultati sono:

x i 1 2 3 4 5

n i 15 20 23 18 24

2.1 Effetture un test di adattamento a livello dell’1% per verificare se la distribuzione di X è uniforme.

2.2 Effetture un test a livello del 5% per verificare se la probabilità di ottenere il valore 5 è 0.20 contro un’alternativa bilaterale. Calcolare esplicitamente il p-value del valore campionario della statistica test.

ESERCIZIO 3

Si rileva la pressione arteriosa massima su 5 pazienti prima e dopo l’assunzione di un farmaco e si ottengono i valori a fianco.

P D 175 163 165 150 168 163 155 145 163 158 Calcolare un intervallo di confidenza a livello del 95% per la media delle differenze di pressione arteriosa.

ESERCIZIO 4

Sia (A,B)un intervallo di confidenza aleatorio a livello 1−α per la probabilità p di un evento dicotomico.

4.1 Calcolare un intervallo confidenza aleatorio allo stesso livello per l’odd, cioè il rapporto fra successo e insuccesso:

p p

− 1 .

Suggerimento per chi non ha idee migliori: calcolare successivamente un intervallo di confidenza per p

1 , 1 −1 p e infine per

p p

− 1

Generalizzare il risultato precedente. Se ϕ(p) è una funzione del parametro p , quali condizioni vanno imposte a tale funzione perché l’intervallo di confidenza aleatorio per ϕ(p) sia

(20)

Prova scritta del 18 giugno 2004 PARTE 1

ESERCIZIO 1

Sia Z una variabile aleatoria con distribuzione normale standardizzata; dalle tavole si ottiene che il quinto percentile è -1.64, cioè IP(Z <−1.64)=0.05. Per effettuare un test si utilizza una variabile aleatoria C che ha una distribuzione

χ

12 con 1 grado di libertà. Calcolare il valore c tale che IP(C >c)=0.10 B

ESERCIZIO 2

Si considerino due test A e B unilaterali destri con la stessa ipotesi principale:

⎩⎨

+

=

= h H

A H

0 :

1

0 :

0

: : :

μ μ

μ

μ e

⎩⎨

+

=

= k H

B H

0 :

1

0 :

0

: : :

μ μ

μ

μ con h <k

Dire quale dei due è più potente.

ESERCIZIO 3

Enunciare le principali proprietà di uno stimatore e spiegarne il significato ESERCIZIO 4

Si vuole stimare un parametro di centralità di una distribuzione. In quali situazioni si pensa possa essere utile usare la mediana invece della media?

PARTE 2

ESERCIZIO 1

Il calore (calorie per grammo) emesso da un composto è modellabile con una variabile casuale con una distribuzione normale con deviazione standard uguale a 2. Si vogliono verificare, utilizzando un campione di numerosità 9, le seguenti ipotesi:

⎩⎨

= 100 :

100 :

: 1 : 0

μ μ H H

1.1 Viene fornita la regione di accettazione dell’ipotesi principale, ma non l’errore di prima specie α . Se la regione di accettazione è [98.5,101.5], quanto vale α ?

1.2 Determinare l’errore di seconda specie β e la potenza del test quando la media vale 103.

1.3 Determinare l’errore di seconda specie β e la potenza del test quando la media vale 105.

1.4 Confrontare i valore di β trovati nei due punti precedenti e commentare.

ESERCIZIO 2

Il titolare di una ditta vuole analizzare la durata di un suo prodotto in commercio da 5 anni. Viene analizzato un campione di 100 prodotti e la tabella seguente riporta i tempi intercorsi fra la consegna e il primo guasto, raggruppando i dati in opportune classi.

2.1 È possibile affermare, tramite il test di Kolmogorov-Smirnov, che il tempo di vita senza guasti del prodotto esaminato segua una legge esponenziale?

2.2 Quale è il tempo di vita medio?

ESERCIZIO 3

Due ditte, A e B, producono sfere luminose. La durata, misurata in ore, è descritta da una variabile aleatoria di legge normale la cui varianza dipende dai diversi processi produttivi utilizzati dalle due aziende ed è nota: σA = 3 e σB = 5. La ditta A ha modificato il processo produttivo per aumentare la durata delle proprie sfere e vuole testare il fatto che la durata media sia maggiore della ditta B.

Tempo

intercorso Frequenza assoluta

0≤ X<300 55

300≤ X<600 25 600≤ X<900 10 900≤ X<1200 4 1200≤ X<1500 3 1500≤ X<1800 2

1800≤ X≤ 1825 1

(21)

Vengono esaminati due campioni: uno di 35 elementi di sfere della ditta A e uno di 25 della ditta B ottenendo, dai dati campionari, un p-value relativo a un opportuno test unilaterale per la media della durata pari a 0.08.

1. A livello 5%, si può affermare che la modifica del processo produttivo della ditta A ha portato a risultati soddisfacenti per quanto riguarda la media della durata?

2. Usando uno stimatore non distorto, calcolare una stima della differenza della durata media dei due tipi di sfera.

3. Determinare un intervallo di confidenza al 95% per la differenza della durata media dei due tipi di sfera.

4. Quale dovrebbe essere la numerosità campionaria relativa alle sfere della ditta A in modo che l’ampiezza dell’intervallo di confidenza sia di 2 ore?

ESERCIZIO 4

Si vuole stabilire se una variabile quantitativa Y dipende da due variabili qualitative A e B. Si effettua un eseprimento campionario con 100 prove ugualmente distribuite nei livelli delle due variabili. Si presuppone che i residui possano essere considerati aventi distribuzione normale, indipendenti e con uguale varianza.

Si effettua una analisi della varianza con una modello comprendente l’interazione dei due fattori. I risultati sono i seguenti.

ANOVA: Y versus A, B

Factor Type Levels Values

A fixed 5 1, 2, 3, 4, 5 B fixed 4 1, 2, 3, 4 a) Completare la tabella

DF SS MS F

A 1826.55

B 1237.86

A*B 13409.84

Error 1740.44

Total 18214.68

b) Calcolare la varianza di Y c) Calcolare l’indice R2

d) Effetture tutti i test e commentare i risultati.

e) Si utilizzino i dati sopra riportati per effettuare un test per un modello di analisi della varianza a una via per il fattore A

MODELLO CON SOLO FATTORE A

DF SS MS F A

Error Total

(22)

Prova scritta del 14 luglio 2004

PARTE 1

ESERCIZIO 1

Si considerino i due seguenti modelli lineari relativi a due variabili esplicative X e Z e a una variabile risposta Y : M1: Y =β01X +β2Z +ε e M2: Y =γ01(X −Z)+γ2(X +Z)+~ε

a) Quali relazioni intercorrono fra i parametri β di M1 e i parametri γ di M2.

b) I residui ε e ε~ sono uguali o diversi nei due modelli? Perché?

c) Il test F di nullità di tutti i coefficienti delle variabili esplicative porta a conclusioni uguali o diverse nei due modelli? Perché?

d) I test t di nullità dei singoli coefficienti delle variabili esplicative portano a conclusioni uguali o diverse nei due modelli? Perché?

ESERCIZIO 2

Una variabile aleatoria dicotomica X è rilevata in due sottopopolazioni indipendenti, che indichiamo con M e F. Si vuole effettuare un test sull’uguaglianza delle probabilità di successo nelle due sottopopolazioni, contro un’alternativa unilaterale destra. Si supponga che la numerosità dei due campioni sia uguale.

La regione di rifiuto dell’ipotesi principale è del tipo [an,1)

Come si modifica la regione di rifiuto all’aumentare della numerosità campionaria.

Ricordare che, nel test di uguaglianza delle probabiltà, lo stimatore della varianza di PˆM −PˆF è, se H è vera, è 0 ˆ )

1 ˆM( M

F M

F

M p p n

n n

n + −

.

ESERCIZIO 3

Sia X una variabile aleatoria e siano X1,...Xn variabili aleatorie campionarie e x1,...xn le loro realizzazioni;

scrivere la differenza fra stimatore della media e la sua stima.

ESERCIZIO 4

Consideriamo un test sulla media di una variabile aleatoria del tipo

⎩⎨

=

=

1 :

1

0 :

0

: :

μ μ

μ μ H H

Sotto sono riportati i grafici delle funzioni di distribuzione cumulata di una statistica test:

- a linea tratteggiata sotto Ho - a linea continua sotto H1

30 25 20 15 10 5 0 1.0

0.8

0.6

0.4

0.2

0.0

4.1 A quale situazione corrispondono il grafici

A: μ >1 μ0 (cioè test unilaterale destro) B: μ <1 μ0 (cioè test unilaterale sinistro)

4.2 Se il livello del test è del 10%, indicare la regione di rifiuto dell’ipotesi principale 4.3 Indicare approssimativamente il valore dell’errore di seconda specie.

PARTE 2

ESERCIZIO 1

Si vuole effettuare un test per un parametro θ reale da cui dipende la ditribuzione di una variabile aleatoria X con le seguenti ipotesi

(23)

⎩⎨

>

= 0 :

0 :

: 1

: 0

θ θ H H

a livello di significatività del 5%. Si considera un campione di numerosità 10.

Sia T una statistica test per il parametro θ con distribuzione uniforme nell’intervallo ⎥

⎢ ⎤

⎡ − +

n n

, 10 10 θ

θ .

a) Indicare la regione di rifiuto dell’ipotesi principale.

b) Calcolare e disegnare approssimativamente il grafico della potenza del test (in funzione di θ ).

c) Si consideri ora il test

⎩⎨

=

= 1 :

0 :

: 1

: 0

θ θ H H

a livello di significatività α .

Calcolare e disegnare approssimativamente il grafico della potenza del test come funzione di α . ESERCIZIO 2

Si vuol verificare, con un opportuno test non parametrico, l’uguaglianza delle distribuzioni di due variabili aleatorie X e Y ; più precisamente le seguenti ipotesi

⎩⎨

>

=

Y X

Y X

F F H

F F H

: :

: 1 : 0

Si rilevano le variabili su due campioni indipendenti di numerosità 4 e 6. I valori campionari sono riportati a fianco.

Precisare la statistica test, il p-value per i dati osservati e la conclusione del test.

ESERCIZIO 3

Un fenomeno è modellabile con una variabile aleatoria X con media e varianza dipendenti da un parametro θ reale positivo IE(X)=2θ +3 e Var(X)=4θ2 +12θ+9.

Su un campione di 100 elementi si ottiene una media campionaria di 1.3

1) Indicare una stima puntuale della media di X , del parametro θ e della varianza di X .

2) Calcolare un intervallo di confidenza per la media di X a livello di significatività del 95% esplicitando eventuali approssimazioni effettuate.

3) Calcolare un intervallo di confidenza per il parametro θ a livello di significatività del 95% esplicitando eventuali approssimazioni effettuate.

4) Se la variabile X avesse distribuzione esponenziale, quale distribuzione avrebbe lo stimatore del suo valore atteso? Quali tavole si possono utilizzare per tale distribuzione e in che modo?

ESERCIZIO 4

Si consideri una variabile aleatoria Y con distribuzione normale in due sottopolazioni indipendenti A e B.

Si vuole effettuare un test per l’uguaglianza delle due medie μ e A μ (contro un’alternativa bilaterale). Si rilevano B la variabile in due campioni indipendenti di uguali numerosità

Discutere le due possibilità:

- analisi della varianza a una via

- test di uguaglianza delle medie di due variabili Y e A Y B

X Y

5.5 5

4 7

6 4.8

4.5 6.5

6.1 4.7

Riferimenti

Documenti correlati

- composizione dell’umore acqueo: rispetto ad altri materiali le IOL acriliche idrofile ed in particolare le Hydroview H60M (Storz-Bausch &amp; Lomb), hanno una particolare

Il design delle lenti DIMS dimostra molto meglio gli effetti del rallentamento della progressione della miopia sui bambini rispetto alle lenti progressive già esistenti (10%-35%),

verle 10. Tuttavia, il punto di vista del portatore non va trascurato: più di due terzi dei portatori di lenti a contatto si aspettano che il proprio contattologo prescriva una

Ideale per utilizzi industriali, controllo qualità, agricoltura, numismatica, filatelia, tipografia, cartografia, casa e ufficio.. Dimensioni: Ø

Questa tecnologia è nota come Defocus Incorporated Multiple Segments (D.I.M.S.) ed è alla base delle lenti MiyoSmart di Hoya, per la gestione della progressione miopica..

Codice colore Tipo di colorazione Categoria Trasmittanza (%) Guida notturna Guida diurna Fotocromatiche. grigie Fotocromatiche grigie Fotocromatiche grigie Fotocromatiche

Esistono vari tipi di lenti a seconda del tipo di ingrandimento si desideri ma il principio alla base di tutte è la rifrazione della luce mediante la forma e l’inclinazione

Introduzione. La propagazione della luce ha incuriosito ed appassionato gli uomini fin dagli albori della civiltà. La questione, strettamente collegata alla visione, interagisce