• Non ci sono risultati.

Esercizi di Statistica ∼ Laurea in Biologia Molecolare Francesco Caravenna

N/A
N/A
Protected

Academic year: 2021

Condividi "Esercizi di Statistica ∼ Laurea in Biologia Molecolare Francesco Caravenna"

Copied!
3
0
0

Testo completo

(1)

Esercizi di Statistica ∼ Laurea in Biologia Molecolare Francesco Caravenna

Foglio 8. (31 maggio – 4 giugno 2010)

Esercitazione del 3 giugno 2010 (1 ora)

Esercizio 1. Vogliamo stabilire se un dado sia regolare. Lo lanciamo 1000 volte, ottenendo i seguenti risultati:

Punteggio 1 2 3 4 5 6

Frequenza Ok 140 183 161 181 159 176 Si verifichi, al 5% di significatività, l’ipotesi che il dado sia regolare.

[Le frequenze attese valgono ek = n π(k) = 1000 · 16 ' 166.67 per ogni k = 1, . . . , 6.

La statistica del test vale dunque T = 166.671 (140 − 166.67)2+ (183 − 166.67)2+ (161 − 166, 67)2+ (181 − 166, 67)2+ (159 − 166, 67)2+ (176 − 166, 67)2 ≈ 1361.33166.67 ≈ 8.17.

Dato che χ2α,m−1 = χ20.05,5 ≈ 11.07, l’ipotesi H0 : “il dado è regolare” è accettata al 5%.]

Esercizio 2. Consideriamo le registrazioni di un rilevatore di particelle in un periodo di 50 ore:

Numero di particelle rilevate nell’ora 0 1 2 3 4 5 6 7 o più Frequenze osservate Ok 5 13 11 10 5 5 1 0

Questi dati sono compatibili all’1% con l’ipotesi che il numero di particelle che in un’ora incidono sul rilevatore sia distribuito come una Poisson?

[La media empirica dei dati vale x = 0·5+1·13+2·11+3·10+4·5+5·5+6·1+7·0

50 = 2.32. Le

frequenze teoriche sono date da ek = n π(k) = 50 · e−2.32 · (2.32)k! k per k = 0, . . . , 6 mentre e7 = n − (f0+ f1+ . . . + f6), da cui si ottiene la tabella

Numero 0 1 2 3 4 5 6 7 o più

Frequenze attese ek 4.91 11.40 13.22 10.22 5.93 2.75 1.06 0.51 Raggruppiamo le classi da 4 in su, ottenendo

Numero 0 1 2 3 4 o più

Frequenze attese ek 4.91 11.40 13.22 10.22 10.25

Ora siamo nelle condizioni di applicare il test. Raggruppiamo anche le frequenze osservate:

Numero 0 1 2 3 4 o più

Frequenze osservate Ok 5 13 11 10 11 La statistica vale T =P4

k=0

(Ok−ek)2

ek = (5−4.91)4.91 2 + (13−11.40)11.40 2 + (11−13.22)13.22 2 +(10−10.22)10.22 2 +

(11−10.25)2

10.25 ≈ 0.70. Dato che χ2α,m−1 = χ20.01,3 = 11.34, i dati sono compatibili con l’ipotesi all’1%.]

1

(2)

2

Esercitazione del 4 giugno 2010

Esercizio 3. Si esamini la seguente tabella, relativa a 181 individui:

Oh,k Non fumatori Fumatori moderati Grandi fumatori OhX

Ipertensione 20 38 28 86

No ipertensione 50 27 18 95

OYk 70 65 46 181

Si può concludere, al 5% di significatività, che vi sia dipendenza tra il fumo e l’ipertensione?

[Le frequenze attese stimate sono date da ˆeh,k = n1OhXOkY, da cui la tabella ˆ

eh,k Non fumatori Fumatori moderati Grandi fumatori OhX

Ipertensione 33.26 30.88 21.86 86

No ipertensione 36.74 34.11 24.14 95

OYk 70 65 46 181

La statistica del test è data da T =Pm h=1

Pr k=1

(Oh,k−ˆeh,k)2 ˆ

eh,k . Essendo m = 2 e r = 3 otteniamo T = P2

h=1

P3 k=1

(Oh,k−ˆeh,k)2 ˆ

eh,k = (20−33.26)33.26 2 + . . . + (18−24.14)24.14 2 ≈ 16.48 >

χ2α,(m−1)(r−1) = χ20.05,2 = 5.991. Quindi l’ipotesi H0 : “il fumo e l’ipertensione sono indipendenti” è rifiutata al 5%.]

Esercizio 4 (Esempio 13.10 dal libro di Ross). Due gruppi casuali di 20000 non fumatori e 10000 fumatori vengono seguiti per 10 anni, rilevando quanti di essi contraggono tumori ai polmoni.

Oh,k Fumatori Non fumatori OXh

Tumore ai polmoni 62 14 76

Nessun tumore ai polmoni 9938 19986 29924

OYk 10000 20000 30000

Si può concludere, all’1% di significatività, che vi sia dipendenza tra il fumo e la probabilità di contrarre un tumore i polmoni?

[Le frequenze attese stimate sono date da ˆeh,k = n1OhXOkY, da cui la tabella ˆ

eh,k Fumatori Non fumatori OXh

Tumore ai polmoni 25.33 50.67 76

Nessun tumore ai polmoni 9974.67 19949.33 29924

OYk 10000 20000 30000

La statistica del test è data da T = Pm h=1

Pr k=1

(Oh,k−ˆeh,k)2 ˆ

eh,k . Essendo m = r = 2 otteniamo T = P2

h=1

P2 k=1

(Oh,k−ˆeh,k)2 ˆ

eh,k = (62−25.33)25.33 2 + (14−50.67)50.67 2 + (9938−9974.67)2 9974.67 +

(19986−19949.33)2

19949.33 ≈ 79.83 > χ2α,(m−1)(r−1) = χ20.01,1 = 6.635. I dati mostrano fortemente che c’è correlazione tra l’essere fumatori e il contrarre un tumore ai polmoni.]

(3)

3

Esercizio 5 (Esempio 10.10 dal libro di Ross). Si vuole verificare se il fatto che un giudice sentenzi il carcere per un imputato giudicato colpevole sia influenzato dal fatto che l’imputato si fosse dichiarato colpevole. Si esaminano due campioni di individui pregiudicati, condannati per rapina di secondo grado: di un primo campione di 142 individui che si erano dichiarati colpevoli ne sono stati incarcerati 74, mentre di un secondo campione di 72 individui che si erano dichiarati non colpevoli ne sono stati incarcerati 61. Quali conclusioni si possono trarre da questi dati? Si calcoli il p-value.

[Siano p1 e p2 le probabilità di essere incarcerati rispettivamente per un individuo che si sia dichiarato colpevole e per un individuo che si sia dichiarato non colpevole (poi giudicato colpevole). Sottoponiamo a verifica l’ipotesi H0 : p1 = p2 contro H0 : p1 6= p2. Si tratta di un test per l’uguaglianza di proporzioni di popolazione. I dati danno n1 = 142, n2 = 72, X1 = 74, X2 = 61 da cui ˆp1 = Xn1

1 = 14274 = 0.52, ˆp2 = Xn2

2 = 6172 = 0.85.

Si ottiene dunque lo stimatore combinato ˆp = n1npˆ1+n2pˆ2

1+n2 = Xn1+X2

1+n2 = 142+7274+61 = 0.63.

La statistica del test vale ν = √ pˆ1−ˆp2

ˆ p(1− ˆp)

1/n1+1/n2

= √ 0.52−0.85

0.63·0.37·(1/142+1/72) ≈ −4.67. Il p-value vale P (|Z| > ν) = 2(1 − Φ(|ν|)) ≈ 0: i dati mostrano dunque ogni ragionevole dubbio che la decisione di un giudice di incarcerare un imputato giudicato colpevole è influenzata dal fatto che l’imputato si sia dichiarato non colpevole.]

Esercizio 6 (Compito a casa). Durante la seconda guerra mondiale, la parte meri- dionale di Londra fu colpita da 535 bombe volanti V1. Per analizzare la distribuzione geografica dei punti di impatto, tale area è stata suddivisa in 576 regioni di pari superficie, registrando quante bombe sono cadute in ciascuna regione. I dati sono riportati nella seguente tabella:

Bombe ricevute 0 1 2 3 4 5 6 o più Numero di regioni (Ok) 229 211 93 35 7 1 0

Si può affermare che il numero di bombe cadute in una regione segua una distribuzione di Poisson? Si esegua un test al 5%.

[Dobbiamo eseguire un test χ2 di adattamento a una distribuzione P o(λ). Stimiamo λ dai dati: x = 535576 = 0.929. Le frequenze attese sono date da ek = n π(k) = 576 · e−0.929 (0.929)k

k! per k ∈ {0, . . . , 5}, mentre per l’ultima classe e6 = n (1 − (π(0) + . . . + π(5))) = n − (e0+ . . . + e5). Essendo n = 576, si ottiene la seguente tabella:

Bombe ricevute 0 1 2 3 4 5 6 o più

Frequenze attese (ek) 227.5 211.3 98.2 30.4 7.1 1.3 0.2

Raggruppando le ultime due classi, le condizioni per eseguire il test sono soddisfatte:

Bombe ricevute 0 1 2 3 4 5 o più

Frequenze osservate (Ok) 229 211 93 35 7 1 Frequenze attese (ek) 227.5 211.3 98.2 30.4 7.1 1.5 La statistica del test vale t = P5

k=0

(Oi−ei)2

ei = (229−227.5)2

227.5 + . . . + (1−1.5)1.52 2 = 1.17.

Dato che χ2α,m−2 = χ20.05,4 = 9.49 (m = 6 è il numero di classi e “−2” è perché è stato stimato un parametro) l’ipotesi H0 è accettata: i dati sono compatibili con una distribuzione di Poisson.]

Riferimenti

Documenti correlati

L’ampiezza dell’intervallo di confidenza per la media di un campione normale con varianza nota.  dipende dal valore dei dati, oltre che dalla taglia n

con distribuzione Po(λ). Il numero di vittime per incidenti stradali in un giorno in Italia può essere descritto con una variabile di Poisson di media 13.. Si misura un campione di

Calcolo delle probabilità per variabili normali non standard: procedura di standardizzazione..

Si sa che nei libri prodotti da una certa casa editrice ciascuna pagina può contenere refusi con probabilità 20 1 , indipendentemente dalle altre pagine.. Si sa che i libri prodotti

a) Si dimostri che gli eventi A := “il primo dado dà come risultato 2” e B := “la somma dei due dadi vale 7” sono indipendenti.. b) Si dimostri che gli eventi A := “il primo

63 delle dispense). Si consideri la seguente classica strategia per il gioco della roulette. Gioco sempre sul rosso. Alla prima giocata punto un dollaro. Se perdo raddoppio la

Esercizio 3 (es. 35 delle dispense). 42 delle dispense). Il signor A riceve un’informazione che si esprime con un ”s`ı” o con un ”no”, trasmette tale informazione al signor B,

Si misura la concentrazione nell’aria di una certa sostanza in 50 punti diversi di una citt` a, ottenendo un valore medio x = 6.35 (espresso in opportune unit` a di misura).