1.1 1.4 2.1 2.4 3.1 3.4
1.2 1.5 2.2 2.5 3.2 3.5
1.3 1.6 2.3 3.3
Politecnico di Milano - Scuola di Ingegneria Industriale e dell’Informazione Appello di Statistica per Ingegneria Energetica
23 Febbraio 2017
I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito.c
Cognome, Nome e Numero di matricola:
Problema 1.
Nei giorni delle stelle cadenti, la velocità X (in Km/s) con cui un frammento di asteroide entra nell’atmosfera terrestre è una variabile aleatoria continua con funzione di ripartizione
FX(x) =
(α − e−βx2 se x ≥ 0 0 se x < 0
1. Per quali valori dei due parametri α e β la funzione FX è effettivamente la funzione di ripartizione di una variabile aleatoria continua?
Per le stelle cadenti, si sa che α = 1 e β = 801. Usate questi due valori per tutto il resto dell’esercizio.
A causa dell’attrito, la distanza verticale percorsa nell’atmosfera terrestre da un frammento di velocità X è pari a Y = X2/4 (in Km).
2. Determinare la funzione di ripartizione di Y .
3. Determinare la densità di Y . È una densità notevole? Se sì, quale?
L’atmosfera terrestre è spessa 100 Km. Pertanto, un frammento di asteroide raggiunge il suolo se e solo se riesce a percorrere nell’atmosfera almeno tale distanza verticale.
4. Calcolare la probabilità che un frammento di asteroide riesca a raggiungere il suolo.
5. In una sera abbiamo visto la scia di 72 frammenti di asteroide. Qual è la probabilità che almeno 3 di questi abbiano raggiunto il suolo?
6. Per rispondere al punto precedente, si può usare un’opportuna approssimazione. Quale?
Risultati.
1. La condizione limx→+∞FX(x) = 1 impone β ≥ 0 (altrimenti FX diverge). L’ulteriore condizione che FX sia continua in 0 impone α = 1. Il caso β = 0 va escluso, in quanto altrimenti FX(x) = 0 per ogni x ∈ R. In conclusione, deve essere
α = 1 β > 0 .
Per questi valori, FX è una funzione continua, nondecrescente, che soddisfa limx→+∞FX(x) = 0 e limx→+∞FX(x) = 1. Pertanto, questi sono tutti e soli i valori che rendono FX la funzione di ripartizione di una variabile aleatoria continua.
2. Coi valori dati dal problema, la funzione di ripartizione di X è
FX(x) = (
1 − e−x280 se x ≥ 0 0 se x < 0 Da questa si ricava la funzione di ripartizione di Y :
FY(y) = P (Y ≤ y) = P X2/4 ≤ y = (
P X ≤ 2√
y = FX(2√
y) se y ≥ 0
0 se y < 0
=
(1 − e−20y se y ≥ 0 0 se y < 0
3. Derivando la funzione di ripartizione di Y , troviamo che la sua densità è
fY(y) = dFY
dy (y) = (1
20e−20y se y ≥ 0 0 se y < 0 Pertanto, Y ∼ E (1/20).
4. La probabilità cercata è
P (Y ≥ 100) = 1 − FY(100) = e−10020 = 0.006738 = 0.6738% .
5. Il numero di asteroidi che riescono a raggiungere il suolo tra i 72 osservati è una v.a. binomiale S ∼ B(n, p), con n = 72 e p = 0.006738 trovata al punto precedente. Poiché n è grande, p è piccolo e λ = np = 0.485 ≈ 1, possiamo usare l’approssimazione poissoniana per calcolare
P (S ≥ 3) = 1 − P (S ≤ 2) = 1 −
2
X
k=0
pS(k)
= 1 − e−0.485
1 + 0.485 +0.4852 2!
= 1.329% .
Problema 2.La Pentathlon, un noto negozio di articoli sportivi, vuole testare la qualità dei palloni che vende. In particolare è interessata a confrontare due modelli, il P100 e il P900, per vedere se effettivamente, come dichiarato sull’etichetta, hanno lo stesso peso. A tale scopo misura il peso di 41 palloni P100 e 29 palloni P900, ottenendo i seguenti valori per media e deviazione standard campionaria:
¯
x100= 430.34 g s¯100= 4.80 g
¯
x900= 434.39 g s¯900= 6.02 g
I p-value del test di Shapiro-Wilk sono 0.4405 per i dati del P100 e 0.9998 per quelli del P900.
1. Si esegua un test ad un livello del 5% (specificando ipotesi nulla, alternativa, statistica test e regione critica) per stabilire se la varianza del peso del P100 può essere ritenuta uguale alla varianza del peso del P900. Qual è l’esito del test?
2. Quali sono le condizioni di applicabilità del test al punto (a)? Possiamo ritenerle vericate? Rispon- dere utilizzando tutte le fonti disponibili nel testo per avvalorare la propria tesi.
3. Impostare un opportuno test statistico di livello α (specificando ipotesi nulla, alternativa, statistica test e regione critica) per stabilire se vi sia una differenza nel peso dei due palloni.
4. Coi dati osservati cosa possiamo concludere al 5%?
5. Qual è il livello di significatività minimo che porta a rifiutare l’ipotesi nulla del test costruito?
Figura 1: Normal Probability Plot
Risultati.
Siano:
X100= peso del pallone P100, µ100= E[X100], σ2100= Var(X100), n100= 41;
X900= peso del pallone P900, µ900= E[X900], σ2900= Var(X900), n900= 29.
1. Occorre impostare un test sulle varianze. Abbiamo:
H0: σ1002 = σ9002 vs σ1002 6= σ9002 RC0.05=
f0< f0.025(40, 28) = 1
f0.975(28, 40) = 1
1.962 = 0.510
∪ {f0> f0.975(40, 28) = 2.048}
Statistica test: F0= S1002
S9002 ∼ F (40, 28) f0= s2100
s2900 = 0.636
Dato che f0∈ RC/ 0.05 concludiamo che le varianze possono essere supposte uguali.
2. Il test effettuato al punto (a) ha come ipotesi che le variabili X100,1, . . . , X100,41e X900,1, . . . , X900,28 siano normali. Dal qq-plot vediamo che i punti si distribuiscono omogeneamente vicino alla retta.
Inoltre i p-value dello Shapiro-Wilks test sono molto alti e ci permettono di assumere la normalità dei dati in entrambi i casi.
3. Vogliamo verificare se i pesi medi sono uguali quindi impostiamo il seguente test:
H0: µ100= µ900 vs H1: µ1006= µ900.
Abbiamo verificato al punto 1. che le due popolazioni hanno la stessa varianza. Possiamo quindi fare un T -test per la differenza delle medie di due popolazioni gaussiane a varianze incognite ma uguali. La statistica test quindi sarà:
T0=
X¯100− ¯X900
SPp1/n100+ 1/n900
ed avrà distribuzione t-Student con n100+ n900− 2 gradi di libertà, ove SP2 =(n100− 1)S1002 + (n900− 1)S9002
n100+ n900− 2 . La regione critica è:
RCα= {|T0| > t1−α/2(n100+ n900− 2)}.
4. Sostituendo α = 0.05 e i valori di n100 e n900 otteniamo:
t1−α/2(n100+ n900− 2) = t0.975(68) = 1.995 ' t0.975(60) = 2.000 ' z0.975= 1.960 , e inoltre dai dati
Problema 3. Al fine di misurare la capacità C di un condensatore, viene misurata la caduta di potenziale V nel tempo in un semplice circuito RC con un resistore dalla resistenza R = 2.5Ω. I valori registrati di V (t), riportati in Figura 2, sono tuttavia affetti da errori di misurazione. Vengono raccolti i valori di potenziale V (t) in n = 101 istanti temporali t = 0, 0.1, 0.2, . . . , 10ms. Per poter stimare C viene proposto il modello di regressione lineare:
log(V ) = β0+ β1· t + ε, β0= log(V0), β1= − 1
RC, ε ∼ N (0, 1). (1)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●●●
●
●
●●●●
●●●●
●
●●
●●
●
●
●
●●●●
●
●●
●●●●
●
●
●
●●●
●●●●●●●●●●
●●●●●●●●●●●●●●●●●●
0 2 4 6 8 10
05101520
Potenziale misurato V(t)
t
V(t)
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
0 2 4 6 8 10
−3−2−10123
Logaritmo del potenziale misurato V(t)
t
log( V(t) )
Figura 2: Grafico dei valori misurati di V (t) e del logaritmo di V (t).
1. Esprimere il modello (1) in termini delle grandezze originarie V, V0, t, R, C e dell’errore ε.
2. Fornire una stima di V0 e di C a partire dall’output di regressione mostrato in Figura 3.
3. Calcolare sxx, sxy, syy e stimare il coefficiente di correlazione campionario r tra x = t e y = log(V ).
4. Riferendosi ai grafici in Figura 4 dire se le ipotesi di modello lineare Gaussiano sono verificate.
5. Fornire una previsione intervallare (al 95%) per il valore di log V all’istante t = 15ms.
Figura 3: Output del modello di regressione proposto.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
0 2 4 6 8 10
−2−1012
t
Standardised Residuals ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
−1.5−1.0−0.50.00.51.01.5
QQ−norm of residuals
Theoretical Quantiles
Sample Quantiles
Shapiro−Wilk test p−value: 0.9895
Figura 4: Grafici di diagnostica per il modello di regressione proposto.
Risultati.
1. V (t) = ηV0e−RCt , con η = eεtale che log(η) ∼ N (0, 1).
2. bC = − 1
βb1· R = − 1
−0.40665 · 2.5 = 0.9836, mentre bV0= eβb0 = e2.12722= 8.3915.
3. Vale
se( ˆβ1) = σˆ
√sxx
⇒ sxx= σˆ se( ˆβ1)
!2
= 0.6946 0.02371
2
= 858.24, βˆ1=sxy
sxx ⇒ sxy = ˆβ1sxx= −0.40665 · 858.24 = −349.00 . E visto che syy = sst
r2= s2xy sxxsyy
⇒ syy= s2xy r2sxx
= (−349.00)2
0.7482 · 858.24= 189.68 . Infine,
r = sxy
√sxxsyy = sxy
|sxy|
√
r2= −0.865.
4. Per quanto riguarda la Gaussianità dei residui, dal QQ−plot osserviamo che i quantili empirici e teorici dei residui del modello di regressione sono in ottimo accordo, e si dispongono con buona approssimazione lungo la retta desiderata; inoltre, il valore del p-value dello Shapiro-Wilk test è molto alto, per cui non c’è ragione di rifiutare l’ipotesi nulla (H0) che i residui siano distribuiti in modo Gaussiano.
Per quanto riguarda l’omoschedasticità dei residui, dall’esame dello scatterplot in Figura 4 non si notano andamenti anomali nella loro distribuzione, e la varianza appare graficamente costante rispetto alla variabile t.
5. Si ha
IC1−α(log(V (x∗)) = cβ0+ cβ1· x∗± t1−α/2(101 − 2)bσ s
1 + 1
n+(¯x − x∗)2 sxx
= 2.12722 − 0.40665 · 15 ± 1.960 · 0.6946 · r
1 + 1
101 +(5.0995 − 15)2 858.5
= −3.97253 ± 1.44341 = [−5.4159, −2.5291], dove si è usato n = 101, α = 0.05, x∗= 15, t1−α/2(99) ' z1−α/2= 1.960, e
se( ˆβ0) = ˆσ s
1 n+ x¯2
sxx
⇒ x =¯ v u u u tsxx
se( ˆβ0) ˆ σ
!2
−1 n
= v u ut858.24 ·
"
0.13927 0.6946
2
− 1 101
#
= 5.0995ms .