Politecnico di Milano - Scuola di Ingegneria Industriale e dell Informazione

(1)

1.1 1.4 2.1 2.4 3.1 3.4

1.2 1.5 2.2 2.5 3.2 3.5

1.3 1.6 2.3 3.3

Politecnico di Milano - Scuola di Ingegneria Industriale e dell’Informazione Appello di Statistica per Ingegneria Energetica

23 Febbraio 2017

I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito.c

Cognome, Nome e Numero di matricola:

Problema 1.

Nei giorni delle stelle cadenti, la velocità X (in Km/s) con cui un frammento di asteroide entra nell’atmosfera terrestre è una variabile aleatoria continua con funzione di ripartizione

FX(x) =

(α − e^−βx² se x ≥ 0 0 se x < 0

1. Per quali valori dei due parametri α e β la funzione F_X è effettivamente la funzione di ripartizione di una variabile aleatoria continua?

Per le stelle cadenti, si sa che α = 1 e β = ₈₀¹. Usate questi due valori per tutto il resto dell’esercizio.

A causa dell’attrito, la distanza verticale percorsa nell’atmosfera terrestre da un frammento di velocità X è pari a Y = X²/4 (in Km).

2. Determinare la funzione di ripartizione di Y .

3. Determinare la densità di Y . È una densità notevole? Se sì, quale?

L’atmosfera terrestre è spessa 100 Km. Pertanto, un frammento di asteroide raggiunge il suolo se e solo se riesce a percorrere nell’atmosfera almeno tale distanza verticale.

4. Calcolare la probabilità che un frammento di asteroide riesca a raggiungere il suolo.

5. In una sera abbiamo visto la scia di 72 frammenti di asteroide. Qual è la probabilità che almeno 3 di questi abbiano raggiunto il suolo?

6. Per rispondere al punto precedente, si può usare un’opportuna approssimazione. Quale?

(2)

Risultati.

1. La condizione limx→+∞FX(x) = 1 impone β ≥ 0 (altrimenti FX diverge). L’ulteriore condizione che FX sia continua in 0 impone α = 1. Il caso β = 0 va escluso, in quanto altrimenti FX(x) = 0 per ogni x ∈ R. In conclusione, deve essere

α = 1 β > 0 .

Per questi valori, FX è una funzione continua, nondecrescente, che soddisfa limx→+∞FX(x) = 0 e limx→+∞FX(x) = 1. Pertanto, questi sono tutti e soli i valori che rendono FX la funzione di ripartizione di una variabile aleatoria continua.

2. Coi valori dati dal problema, la funzione di ripartizione di X è

FX(x) = (

1 − e⁻^x2⁸⁰ se x ≥ 0 0 se x < 0 Da questa si ricava la funzione di ripartizione di Y :

F_Y(y) = P (Y ≤ y) = P X²/4 ≤ y = (

P X ≤ 2√

y = FX(2√

y) se y ≥ 0

0 se y < 0

=

(1 − e⁻²⁰^y se y ≥ 0 0 se y < 0

3. Derivando la funzione di ripartizione di Y , troviamo che la sua densità è

fY(y) = dFY

dy (y) = (₁

20e⁻²⁰^y se y ≥ 0 0 se y < 0 Pertanto, Y ∼ E (1/20).

4. La probabilità cercata è

P (Y ≥ 100) = 1 − FY(100) = e⁻¹⁰⁰²⁰ = 0.006738 = 0.6738% .

5. Il numero di asteroidi che riescono a raggiungere il suolo tra i 72 osservati è una v.a. binomiale S ∼ B(n, p), con n = 72 e p = 0.006738 trovata al punto precedente. Poiché n è grande, p è piccolo e λ = np = 0.485 ≈ 1, possiamo usare l’approssimazione poissoniana per calcolare

P (S ≥ 3) = 1 − P (S ≤ 2) = 1 −

2

X

k=0

pS(k)

= 1 − e^−0.485

1 + 0.485 +0.485² 2!

= 1.329% .

(3)

Problema 2.La Pentathlon, un noto negozio di articoli sportivi, vuole testare la qualità dei palloni che vende. In particolare è interessata a confrontare due modelli, il P100 e il P900, per vedere se effettivamente, come dichiarato sull’etichetta, hanno lo stesso peso. A tale scopo misura il peso di 41 palloni P100 e 29 palloni P900, ottenendo i seguenti valori per media e deviazione standard campionaria:

¯

x100= 430.34 g s¯100= 4.80 g

¯

x₉₀₀= 434.39 g s¯₉₀₀= 6.02 g

I p-value del test di Shapiro-Wilk sono 0.4405 per i dati del P100 e 0.9998 per quelli del P900.

1. Si esegua un test ad un livello del 5% (specificando ipotesi nulla, alternativa, statistica test e regione critica) per stabilire se la varianza del peso del P100 può essere ritenuta uguale alla varianza del peso del P900. Qual è l’esito del test?

2. Quali sono le condizioni di applicabilità del test al punto (a)? Possiamo ritenerle vericate? Rispon- dere utilizzando tutte le fonti disponibili nel testo per avvalorare la propria tesi.

3. Impostare un opportuno test statistico di livello α (specificando ipotesi nulla, alternativa, statistica test e regione critica) per stabilire se vi sia una differenza nel peso dei due palloni.

4. Coi dati osservati cosa possiamo concludere al 5%?

5. Qual è il livello di significatività minimo che porta a rifiutare l’ipotesi nulla del test costruito?

Figura 1: Normal Probability Plot

(4)

Risultati.

Siano:

X100= peso del pallone P100, µ100= E[X¹⁰⁰], σ²₁₀₀= Var(X100), n100= 41;

X900= peso del pallone P900, µ900= E[X⁹⁰⁰], σ²₉₀₀= Var(X900), n900= 29.

1. Occorre impostare un test sulle varianze. Abbiamo:

H₀: σ₁₀₀² = σ₉₀₀² vs σ₁₀₀² 6= σ₉₀₀² RC0.05=

f0< f0.025(40, 28) = 1

f0.975(28, 40) = 1

1.962 = 0.510

∪ {f0> f0.975(40, 28) = 2.048}

Statistica test: F₀= S₁₀₀²

S₉₀₀² ∼ F (40, 28) f0= s²₁₀₀

s²₉₀₀ = 0.636

Dato che f0∈ RC/ 0.05 concludiamo che le varianze possono essere supposte uguali.

2. Il test effettuato al punto (a) ha come ipotesi che le variabili X100,1, . . . , X_100,41e X900,1, . . . , X_900,28 siano normali. Dal qq-plot vediamo che i punti si distribuiscono omogeneamente vicino alla retta.

Inoltre i p-value dello Shapiro-Wilks test sono molto alti e ci permettono di assumere la normalità dei dati in entrambi i casi.

3. Vogliamo verificare se i pesi medi sono uguali quindi impostiamo il seguente test:

H0: µ100= µ900 vs H1: µ1006= µ900.

Abbiamo verificato al punto 1. che le due popolazioni hanno la stessa varianza. Possiamo quindi fare un T -test per la differenza delle medie di due popolazioni gaussiane a varianze incognite ma uguali. La statistica test quindi sarà:

T0=

X¯100− ¯X900

S_Pp1/n₁₀₀+ 1/n₉₀₀

ed avrà distribuzione t-Student con n₁₀₀+ n₉₀₀− 2 gradi di libertà, ove S_P² =(n100− 1)S₁₀₀² + (n900− 1)S₉₀₀²

n100+ n900− 2 . La regione critica è:

RCα= {|T0| > t1−α/2(n100+ n900− 2)}.

4. Sostituendo α = 0.05 e i valori di n100 e n900 otteniamo:

t_1−α/2(n₁₀₀+ n₉₀₀− 2) = t_0.975(68) = 1.995 ' t_0.975(60) = 2.000 ' z_0.975= 1.960 , e inoltre dai dati

(5)

Problema 3. Al fine di misurare la capacità C di un condensatore, viene misurata la caduta di potenziale V nel tempo in un semplice circuito RC con un resistore dalla resistenza R = 2.5Ω. I valori registrati di V (t), riportati in Figura 2, sono tuttavia affetti da errori di misurazione. Vengono raccolti i valori di potenziale V (t) in n = 101 istanti temporali t = 0, 0.1, 0.2, . . . , 10ms. Per poter stimare C viene proposto il modello di regressione lineare:

log(V ) = β0+ β1· t + ε, β0= log(V0), β1= − 1

RC, ε ∼ N (0, 1). (1)

●

●●

●

●●

●

●●●●

●

●●●●

●

●●

●

●●●●

●

●●

●●●●

●

●●●

●●●●●●●●●●

●●●●●●●●●●●●●●●●●●

0 2 4 6 8 10

05101520

Potenziale misurato V(t)

t

V(t)

●

●●

●

●●

●

●●

●

●●●

●

●●

●

●●

●

●●

●

●●

●

●●

0 2 4 6 8 10

−3−2−10123

Logaritmo del potenziale misurato V(t)

t

log( V(t) )

Figura 2: Grafico dei valori misurati di V (t) e del logaritmo di V (t).

1. Esprimere il modello (1) in termini delle grandezze originarie V, V0, t, R, C e dell’errore ε.

2. Fornire una stima di V0 e di C a partire dall’output di regressione mostrato in Figura 3.

3. Calcolare sxx, sxy, syy e stimare il coefficiente di correlazione campionario r tra x = t e y = log(V ).

4. Riferendosi ai grafici in Figura 4 dire se le ipotesi di modello lineare Gaussiano sono verificate.

5. Fornire una previsione intervallare (al 95%) per il valore di log V all’istante t = 15ms.

(6)

Figura 3: Output del modello di regressione proposto.

●

●●

●

●●

●

●●

●

●●

●

●●

●

0 2 4 6 8 10

−2−1012

t

Standardised Residuals ^●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

−2 −1 0 1 2

−1.5−1.0−0.50.00.51.01.5

QQ−norm of residuals

Theoretical Quantiles

Sample Quantiles

Shapiro−Wilk test p−value: 0.9895

Figura 4: Grafici di diagnostica per il modello di regressione proposto.

(7)

Risultati.

1. V (t) = ηV0e⁻^RC^t , con η = e^εtale che log(η) ∼ N (0, 1).

2. bC = − 1

βb1· R = − 1

−0.40665 · 2.5 = 0.9836, mentre bV0= e^β^b⁰ = e^2.12722= 8.3915.

3. Vale

se( ˆβ₁) = σˆ

√sxx

⇒ s_xx= σˆ se( ˆβ1)

!²

= 0.6946 0.02371

²

= 858.24, βˆ1=sxy

s_xx ⇒ sxy = ˆβ1sxx= −0.40665 · 858.24 = −349.00 . E visto che s_yy = ss_t

r²= s²_xy sxxsyy

⇒ syy= s²_xy r²sxx

= (−349.00)²

0.7482 · 858.24= 189.68 . Infine,

r = sxy

√s_xxs_yy = sxy

|s_xy|

√

r²= −0.865.

4. Per quanto riguarda la Gaussianità dei residui, dal QQ−plot osserviamo che i quantili empirici e teorici dei residui del modello di regressione sono in ottimo accordo, e si dispongono con buona approssimazione lungo la retta desiderata; inoltre, il valore del p-value dello Shapiro-Wilk test è molto alto, per cui non c’è ragione di rifiutare l’ipotesi nulla (H₀) che i residui siano distribuiti in modo Gaussiano.

Per quanto riguarda l’omoschedasticità dei residui, dall’esame dello scatterplot in Figura 4 non si notano andamenti anomali nella loro distribuzione, e la varianza appare graficamente costante rispetto alla variabile t.

5. Si ha

IC1−α(log(V (x^∗)) = cβ0+ cβ1· x^∗± t_1−α/2(101 − 2)bσ s

1 + 1

n+(¯x − x^∗)² sxx

= 2.12722 − 0.40665 · 15 ± 1.960 · 0.6946 · r

1 + 1

101 +(5.0995 − 15)² 858.5

= −3.97253 ± 1.44341 = [−5.4159, −2.5291], dove si è usato n = 101, α = 0.05, x^∗= 15, t_1−α/2(99) ' z_1−α/2= 1.960, e

se( ˆβ0) = ˆσ s

1 n+ x¯²

sxx

⇒ x =¯ v u u u ts^xx





se( ˆβ₀) ˆ σ

!²

−1 n





= v u ut858.24 ·

"

0.13927 0.6946

2

− 1 101

#

= 5.0995ms .