Esercizi di Statistica ∼ Laurea in Biologia Molecolare Francesco Caravenna

(1)

Esercizi di Statistica ∼ Laurea in Biologia Molecolare Francesco Caravenna

Foglio 8. (31 maggio – 4 giugno 2010)

Esercitazione del 3 giugno 2010 (1 ora)

Esercizio 1. Vogliamo stabilire se un dado sia regolare. Lo lanciamo 1000 volte, ottenendo i seguenti risultati:

Punteggio 1 2 3 4 5 6

Frequenza O_k 140 183 161 181 159 176 Si verifichi, al 5% di significatività, l’ipotesi che il dado sia regolare.

[Le frequenze attese valgono e_k = n π(k) = 1000 · 16 ' 166.67 per ogni k = 1, . . . , 6.

La statistica del test vale dunque T = _166.67¹ (140 − 166.67)²+ (183 − 166.67)²+ (161 − 166, 67)²+ (181 − 166, 67)²+ (159 − 166, 67)²+ (176 − 166, 67)² ≈ ^1361.33_166.67 ≈ 8.17.

Dato che χ²_α,m−1 = χ²_0.05,5 ≈ 11.07, l’ipotesi H₀ : “il dado è regolare” è accettata al 5%.]

Esercizio 2. Consideriamo le registrazioni di un rilevatore di particelle in un periodo di 50 ore:

Numero di particelle rilevate nell’ora 0 1 2 3 4 5 6 7 o più Frequenze osservate Ok 5 13 11 10 5 5 1 0

Questi dati sono compatibili all’1% con l’ipotesi che il numero di particelle che in un’ora incidono sul rilevatore sia distribuito come una Poisson?

[La media empirica dei dati vale x = 0·5+1·13+2·11+3·10+4·5+5·5+6·1+7·0

50 = 2.32. Le

frequenze teoriche sono date da e_k = n π(k) = 50 · e^−2.32 · ^(2.32)_k! ^k per k = 0, . . . , 6 mentre e₇ = n − (f₀+ f₁+ . . . + f₆), da cui si ottiene la tabella

Numero 0 1 2 3 4 5 6 7 o più

Frequenze attese e_k 4.91 11.40 13.22 10.22 5.93 2.75 1.06 0.51 Raggruppiamo le classi da 4 in su, ottenendo

Numero 0 1 2 3 4 o più

Frequenze attese ek 4.91 11.40 13.22 10.22 10.25

Ora siamo nelle condizioni di applicare il test. Raggruppiamo anche le frequenze osservate:

Numero 0 1 2 3 4 o più

Frequenze osservate O_k 5 13 11 10 11 La statistica vale T =P4

k=0

(Ok−e_k)²

ek = ^(5−4.91)_4.91 ² + ^(13−11.40)_11.40 ² + ^(11−13.22)_13.22 ² +^(10−10.22)_10.22 ² +

(11−10.25)²

10.25 ≈ 0.70. Dato che χ²_α,m−1 = χ²_0.01,3 = 11.34, i dati sono compatibili con l’ipotesi all’1%.]

1

(2)

2

Esercitazione del 4 giugno 2010

Esercizio 3. Si esamini la seguente tabella, relativa a 181 individui:

O_h,k Non fumatori Fumatori moderati Grandi fumatori O_h^X

Ipertensione 20 38 28 86

No ipertensione 50 27 18 95

O^Y_k 70 65 46 181

Si può concludere, al 5% di significatività, che vi sia dipendenza tra il fumo e l’ipertensione?

[Le frequenze attese stimate sono date da ˆeh,k = _n¹O_h^XO_k^Y, da cui la tabella ˆ

e_h,k Non fumatori Fumatori moderati Grandi fumatori O_h^X

Ipertensione 33.26 30.88 21.86 86

No ipertensione 36.74 34.11 24.14 95

O^Y_k 70 65 46 181

La statistica del test è data da T =Pm h=1

Pr k=1

(Oh,k−ˆeh,k)² ˆ

eh,k . Essendo m = 2 e r = 3 otteniamo T = P2

h=1

P3 k=1

eh,k = ^(20−33.26)_33.26 ² + . . . + ^(18−24.14)_24.14 ² ≈ 16.48 >

χ²α,(m−1)(r−1) = χ²_0.05,2 = 5.991. Quindi l’ipotesi H₀ : “il fumo e l’ipertensione sono indipendenti” è rifiutata al 5%.]

Esercizio 4 (Esempio 13.10 dal libro di Ross). Due gruppi casuali di 20000 non fumatori e 10000 fumatori vengono seguiti per 10 anni, rilevando quanti di essi contraggono tumori ai polmoni.

O_h,k Fumatori Non fumatori O^X_h

Tumore ai polmoni 62 14 76

Nessun tumore ai polmoni 9938 19986 29924

O^Y_k 10000 20000 30000

Si può concludere, all’1% di significatività, che vi sia dipendenza tra il fumo e la probabilità di contrarre un tumore i polmoni?

[Le frequenze attese stimate sono date da ˆe_h,k = _n¹O_h^XO_k^Y, da cui la tabella ˆ

e_h,k Fumatori Non fumatori O^X_h

Tumore ai polmoni 25.33 50.67 76

Nessun tumore ai polmoni 9974.67 19949.33 29924

O^Y_k 10000 20000 30000

La statistica del test è data da T = Pm h=1

Pr k=1

eh,k . Essendo m = r = 2 otteniamo T = P2

h=1

P2 k=1

eh,k = ^(62−25.33)_25.33 ² + ^(14−50.67)_50.67 ² + (9938−9974.67)² 9974.67 +

(19986−19949.33)²

19949.33 ≈ 79.83 > χ²α,(m−1)(r−1) = χ²_0.01,1 = 6.635. I dati mostrano fortemente che c’è correlazione tra l’essere fumatori e il contrarre un tumore ai polmoni.]

(3)

3

Esercizio 5 (Esempio 10.10 dal libro di Ross). Si vuole verificare se il fatto che un giudice sentenzi il carcere per un imputato giudicato colpevole sia influenzato dal fatto che l’imputato si fosse dichiarato colpevole. Si esaminano due campioni di individui pregiudicati, condannati per rapina di secondo grado: di un primo campione di 142 individui che si erano dichiarati colpevoli ne sono stati incarcerati 74, mentre di un secondo campione di 72 individui che si erano dichiarati non colpevoli ne sono stati incarcerati 61. Quali conclusioni si possono trarre da questi dati? Si calcoli il p-value.

[Siano p₁ e p₂ le probabilità di essere incarcerati rispettivamente per un individuo che si sia dichiarato colpevole e per un individuo che si sia dichiarato non colpevole (poi giudicato colpevole). Sottoponiamo a verifica l’ipotesi H₀ : p₁ = p₂ contro H₀ : p₁ 6= p₂. Si tratta di un test per l’uguaglianza di proporzioni di popolazione. I dati danno n₁ = 142, n₂ = 72, X₁ = 74, X₂ = 61 da cui ˆp₁ = ^X_n¹

1 = ₁₄₂⁷⁴ = 0.52, ˆp₂ = ^X_n²

2 = ⁶¹₇₂ = 0.85.

Si ottiene dunque lo stimatore combinato ˆp = ⁿ¹_n^p^ˆ¹⁺ⁿ²^p^ˆ²

1+n2 = ^X_n¹^+X²

1+n2 = ₁₄₂₊₇₂⁷⁴⁺⁶¹ = 0.63.

La statistica del test vale ν = √ ^p^ˆ¹^−ˆ^p²

ˆ p(1− ˆp)√

1/n1+1/n2

= √ ^0.52−0.85

0.63·0.37·(1/142+1/72) ≈ −4.67. Il p-value vale P (|Z| > ν) = 2(1 − Φ(|ν|)) ≈ 0: i dati mostrano dunque ogni ragionevole dubbio che la decisione di un giudice di incarcerare un imputato giudicato colpevole è influenzata dal fatto che l’imputato si sia dichiarato non colpevole.]

Esercizio 6 (Compito a casa). Durante la seconda guerra mondiale, la parte meri- dionale di Londra fu colpita da 535 bombe volanti V1. Per analizzare la distribuzione geografica dei punti di impatto, tale area è stata suddivisa in 576 regioni di pari superficie, registrando quante bombe sono cadute in ciascuna regione. I dati sono riportati nella seguente tabella:

Bombe ricevute 0 1 2 3 4 5 6 o più Numero di regioni (O_k) 229 211 93 35 7 1 0

Si può affermare che il numero di bombe cadute in una regione segua una distribuzione di Poisson? Si esegua un test al 5%.

[Dobbiamo eseguire un test χ² di adattamento a una distribuzione P o(λ). Stimiamo λ dai dati: x = ⁵³⁵₅₇₆ = 0.929. Le frequenze attese sono date da e_k = n π(k) = 576 · e−0.929 (0.929)^k

k! per k ∈ {0, . . . , 5}, mentre per l’ultima classe e₆ = n (1 − (π(0) + . . . + π(5))) = n − (e₀+ . . . + e₅). Essendo n = 576, si ottiene la seguente tabella:

Bombe ricevute 0 1 2 3 4 5 6 o più

Frequenze attese (e_k) 227.5 211.3 98.2 30.4 7.1 1.3 0.2

Raggruppando le ultime due classi, le condizioni per eseguire il test sono soddisfatte:

Bombe ricevute 0 1 2 3 4 5 o più

Frequenze osservate (O_k) 229 211 93 35 7 1 Frequenze attese (ek) 227.5 211.3 98.2 30.4 7.1 1.5 La statistica del test vale t = P5

k=0

(Oi−ei)²

ei = (229−227.5)²

227.5 + . . . + ^(1−1.5)_1.52 ² = 1.17.

Dato che χ²_α,m−2 = χ²_0.05,4 = 9.49 (m = 6 è il numero di classi e “−2” è perché è stato stimato un parametro) l’ipotesi H₀ è accettata: i dati sono compatibili con una distribuzione di Poisson.]