Esercizi di Statistica ∼ Laurea in Biologia Molecolare Francesco Caravenna
Foglio 8. (31 maggio – 4 giugno 2010)
Esercitazione del 3 giugno 2010 (1 ora)
Esercizio 1. Vogliamo stabilire se un dado sia regolare. Lo lanciamo 1000 volte, ottenendo i seguenti risultati:
Punteggio 1 2 3 4 5 6
Frequenza Ok 140 183 161 181 159 176 Si verifichi, al 5% di significatività, l’ipotesi che il dado sia regolare.
[Le frequenze attese valgono ek = n π(k) = 1000 · 16 ' 166.67 per ogni k = 1, . . . , 6.
La statistica del test vale dunque T = 166.671 (140 − 166.67)2+ (183 − 166.67)2+ (161 − 166, 67)2+ (181 − 166, 67)2+ (159 − 166, 67)2+ (176 − 166, 67)2 ≈ 1361.33166.67 ≈ 8.17.
Dato che χ2α,m−1 = χ20.05,5 ≈ 11.07, l’ipotesi H0 : “il dado è regolare” è accettata al 5%.]
Esercizio 2. Consideriamo le registrazioni di un rilevatore di particelle in un periodo di 50 ore:
Numero di particelle rilevate nell’ora 0 1 2 3 4 5 6 7 o più Frequenze osservate Ok 5 13 11 10 5 5 1 0
Questi dati sono compatibili all’1% con l’ipotesi che il numero di particelle che in un’ora incidono sul rilevatore sia distribuito come una Poisson?
[La media empirica dei dati vale x = 0·5+1·13+2·11+3·10+4·5+5·5+6·1+7·0
50 = 2.32. Le
frequenze teoriche sono date da ek = n π(k) = 50 · e−2.32 · (2.32)k! k per k = 0, . . . , 6 mentre e7 = n − (f0+ f1+ . . . + f6), da cui si ottiene la tabella
Numero 0 1 2 3 4 5 6 7 o più
Frequenze attese ek 4.91 11.40 13.22 10.22 5.93 2.75 1.06 0.51 Raggruppiamo le classi da 4 in su, ottenendo
Numero 0 1 2 3 4 o più
Frequenze attese ek 4.91 11.40 13.22 10.22 10.25
Ora siamo nelle condizioni di applicare il test. Raggruppiamo anche le frequenze osservate:
Numero 0 1 2 3 4 o più
Frequenze osservate Ok 5 13 11 10 11 La statistica vale T =P4
k=0
(Ok−ek)2
ek = (5−4.91)4.91 2 + (13−11.40)11.40 2 + (11−13.22)13.22 2 +(10−10.22)10.22 2 +
(11−10.25)2
10.25 ≈ 0.70. Dato che χ2α,m−1 = χ20.01,3 = 11.34, i dati sono compatibili con l’ipotesi all’1%.]
1
2
Esercitazione del 4 giugno 2010
Esercizio 3. Si esamini la seguente tabella, relativa a 181 individui:
Oh,k Non fumatori Fumatori moderati Grandi fumatori OhX
Ipertensione 20 38 28 86
No ipertensione 50 27 18 95
OYk 70 65 46 181
Si può concludere, al 5% di significatività, che vi sia dipendenza tra il fumo e l’ipertensione?
[Le frequenze attese stimate sono date da ˆeh,k = n1OhXOkY, da cui la tabella ˆ
eh,k Non fumatori Fumatori moderati Grandi fumatori OhX
Ipertensione 33.26 30.88 21.86 86
No ipertensione 36.74 34.11 24.14 95
OYk 70 65 46 181
La statistica del test è data da T =Pm h=1
Pr k=1
(Oh,k−ˆeh,k)2 ˆ
eh,k . Essendo m = 2 e r = 3 otteniamo T = P2
h=1
P3 k=1
(Oh,k−ˆeh,k)2 ˆ
eh,k = (20−33.26)33.26 2 + . . . + (18−24.14)24.14 2 ≈ 16.48 >
χ2α,(m−1)(r−1) = χ20.05,2 = 5.991. Quindi l’ipotesi H0 : “il fumo e l’ipertensione sono indipendenti” è rifiutata al 5%.]
Esercizio 4 (Esempio 13.10 dal libro di Ross). Due gruppi casuali di 20000 non fumatori e 10000 fumatori vengono seguiti per 10 anni, rilevando quanti di essi contraggono tumori ai polmoni.
Oh,k Fumatori Non fumatori OXh
Tumore ai polmoni 62 14 76
Nessun tumore ai polmoni 9938 19986 29924
OYk 10000 20000 30000
Si può concludere, all’1% di significatività, che vi sia dipendenza tra il fumo e la probabilità di contrarre un tumore i polmoni?
[Le frequenze attese stimate sono date da ˆeh,k = n1OhXOkY, da cui la tabella ˆ
eh,k Fumatori Non fumatori OXh
Tumore ai polmoni 25.33 50.67 76
Nessun tumore ai polmoni 9974.67 19949.33 29924
OYk 10000 20000 30000
La statistica del test è data da T = Pm h=1
Pr k=1
(Oh,k−ˆeh,k)2 ˆ
eh,k . Essendo m = r = 2 otteniamo T = P2
h=1
P2 k=1
(Oh,k−ˆeh,k)2 ˆ
eh,k = (62−25.33)25.33 2 + (14−50.67)50.67 2 + (9938−9974.67)2 9974.67 +
(19986−19949.33)2
19949.33 ≈ 79.83 > χ2α,(m−1)(r−1) = χ20.01,1 = 6.635. I dati mostrano fortemente che c’è correlazione tra l’essere fumatori e il contrarre un tumore ai polmoni.]
3
Esercizio 5 (Esempio 10.10 dal libro di Ross). Si vuole verificare se il fatto che un giudice sentenzi il carcere per un imputato giudicato colpevole sia influenzato dal fatto che l’imputato si fosse dichiarato colpevole. Si esaminano due campioni di individui pregiudicati, condannati per rapina di secondo grado: di un primo campione di 142 individui che si erano dichiarati colpevoli ne sono stati incarcerati 74, mentre di un secondo campione di 72 individui che si erano dichiarati non colpevoli ne sono stati incarcerati 61. Quali conclusioni si possono trarre da questi dati? Si calcoli il p-value.
[Siano p1 e p2 le probabilità di essere incarcerati rispettivamente per un individuo che si sia dichiarato colpevole e per un individuo che si sia dichiarato non colpevole (poi giudicato colpevole). Sottoponiamo a verifica l’ipotesi H0 : p1 = p2 contro H0 : p1 6= p2. Si tratta di un test per l’uguaglianza di proporzioni di popolazione. I dati danno n1 = 142, n2 = 72, X1 = 74, X2 = 61 da cui ˆp1 = Xn1
1 = 14274 = 0.52, ˆp2 = Xn2
2 = 6172 = 0.85.
Si ottiene dunque lo stimatore combinato ˆp = n1npˆ1+n2pˆ2
1+n2 = Xn1+X2
1+n2 = 142+7274+61 = 0.63.
La statistica del test vale ν = √ pˆ1−ˆp2
ˆ p(1− ˆp)√
1/n1+1/n2
= √ 0.52−0.85
0.63·0.37·(1/142+1/72) ≈ −4.67. Il p-value vale P (|Z| > ν) = 2(1 − Φ(|ν|)) ≈ 0: i dati mostrano dunque ogni ragionevole dubbio che la decisione di un giudice di incarcerare un imputato giudicato colpevole è influenzata dal fatto che l’imputato si sia dichiarato non colpevole.]
Esercizio 6 (Compito a casa). Durante la seconda guerra mondiale, la parte meri- dionale di Londra fu colpita da 535 bombe volanti V1. Per analizzare la distribuzione geografica dei punti di impatto, tale area è stata suddivisa in 576 regioni di pari superficie, registrando quante bombe sono cadute in ciascuna regione. I dati sono riportati nella seguente tabella:
Bombe ricevute 0 1 2 3 4 5 6 o più Numero di regioni (Ok) 229 211 93 35 7 1 0
Si può affermare che il numero di bombe cadute in una regione segua una distribuzione di Poisson? Si esegua un test al 5%.
[Dobbiamo eseguire un test χ2 di adattamento a una distribuzione P o(λ). Stimiamo λ dai dati: x = 535576 = 0.929. Le frequenze attese sono date da ek = n π(k) = 576 · e−0.929 (0.929)k
k! per k ∈ {0, . . . , 5}, mentre per l’ultima classe e6 = n (1 − (π(0) + . . . + π(5))) = n − (e0+ . . . + e5). Essendo n = 576, si ottiene la seguente tabella:
Bombe ricevute 0 1 2 3 4 5 6 o più
Frequenze attese (ek) 227.5 211.3 98.2 30.4 7.1 1.3 0.2
Raggruppando le ultime due classi, le condizioni per eseguire il test sono soddisfatte:
Bombe ricevute 0 1 2 3 4 5 o più
Frequenze osservate (Ok) 229 211 93 35 7 1 Frequenze attese (ek) 227.5 211.3 98.2 30.4 7.1 1.5 La statistica del test vale t = P5
k=0
(Oi−ei)2
ei = (229−227.5)2
227.5 + . . . + (1−1.5)1.52 2 = 1.17.
Dato che χ2α,m−2 = χ20.05,4 = 9.49 (m = 6 è il numero di classi e “−2” è perché è stato stimato un parametro) l’ipotesi H0 è accettata: i dati sono compatibili con una distribuzione di Poisson.]