Statistica Cognome:
Lauree Triennali in Biologia e Biologia Molecolare Nome:
26 luglio 2010 Matricola:
1. Parte A
1.1. Siano x1, x2, . . . , x10 le temperature minime di 10 citt`a espresse in gradi Celsius (oC), e y1, y2, . . . , y10 le stesse temperature espresse in gradi Fahrenheit (oF ). Si ricordi che il legame tra gradi Celsius e gradi Fahrenheit `e (oF ) = 32 + 1.8·(oC). Qual `e il coefficiente di correlazione tra x1, x2, . . . , x10 e y1, y2, . . . , y10?
1
−1
0.18
non `e possibile determinarlo senza conoscere il valore esatto dei dati.
1.2. Gli studenti di un corso di laurea vengono classificati sulla base di due caratteristiche: il sesso e il tipo di scuola superiore di provenienza. I dati sono riportati nella seguente tabella:
Liceo Altra scuola superiore
Maschi 47 63
Femmine 62 51
Si scelga a caso uno studente di questo corso di laurea, e si considerino gli eventi: A = “lo studente scelto `e maschio”; B = “lo studente scelto proviene da un liceo”. Allora P (A|B) vale
11047
10947
4798
22347
1.3. Siano X ∼ B(1, 1/4) e Y ∼ B(1, 1/2) variabili aleatorie indipendenti. Quale delle seguenti affermazioni `e falsa?
E(X + Y ) = 3/4
V ar(X + Y ) = 7/16
X + Y ∼ B(2, 3/4)
E(X − Y ) = −1/4
1.4. Sia X ∼ N (1, 1). Allora, per ogni α ∈ (0, 1), la probabilit`a P (X ≥ 1 + zα) vale
α
1 − α
α − 1
nessuna delle precedenti.
1.5. In un test per la verifica dell’ipotesi H0, il valore-p corrispondente ai dato ha un valore compreso tra 0.01 e 0.05. Quale delle seguenti affermazioni `e vera?
H0 viene non rifiutata ad ogni livello di significativit`a α ≥ 0.05;
H0 viene non rifiutata ad ogni livello di significativit`a α ≤ 0.06;
H0 viene rifiutata ad ogni livello di significativit`a α ≥ 0.06;
H0 viene rifiutata ad ogni livello di significativit`a α ≤ 0.05.
1
2
1.6. Due campioni della stessa taglia x1, x2, . . . , xne y1, y2, . . . , ynhanno varianza campionaria s2x= 4 e s2y = 6 rispettivamente. Allora la varianza campionaria combinata s2p vale
5
4.5
5.5
non `e possibile calcolarla senza conoscere la taglia n dei campioni.
1.7. Sia ST la statistica test di un test χ2 di buon adattamento. Quale delle seguenti afferma- zioni `e vera?
Se ST ≥ 0, l’ipotesi di adattamento viene rifiutata ad ogni livello di significativit`a.
Se ST ≥ 2, l’ipotesi di adattamento viene non rifiutata ad ogni livello di significativit`a.
ST ≥ 0 qualunque sia il valore dei dati.
L’ipotesi di buon adattamento viene rifiutata a livello di significativit`a α se ST > χ2n−1,α, dove n `e la taglia del campione.
2. Parte B
2.1. Supponiamo per semplicit`a che un figlio sia maschio o femmina con la stessa probabilit`a, indipendentemente da altri figli.
(1) Qual `e la probabilit`a che in una famiglia con due figli ci sia almeno un figlio maschio?
Consideriamo ora un gruppo di 100 famiglie, 40 delle quali hanno due figli mentre le restanti 60 ne hanno uno solo.
(2) Se scegliamo una famiglia a caso tra le 100, qual `e la probabilit`a che essa abbia almeno un figlio maschio?
(3) Se la famiglia scelta ha almeno un figlio maschio, qual `e la probabilit`a che sia una delle famiglie con due figli?
Soluzione.
(1) La probabiit`a che entrambi i figli siano femmine `e 12 ·12 = 14, per cui la probabilit`a che almeno un figlio sia maschio `e pari a 1 −14 = 34.
(2) Introduciamo gli eventi A = {la famiglia scelta ha due figli} e B = {la famiglia scelta ha almeno un figlio maschio}. Per il punto precedente, P (B|A) = 34 mentre chiaramente P (B|Ac) = 12 (si noti che Ac = {la famiglia scelta ha un solo figlio}). Inoltre P (A) =
40
100 = 25. Dalla formula delle probabilit`a totali si ottiene dunque P (B) = P (B|A)P (A) + P (B|Ac)P (Ac) = 3
4 ·2 5+ 1
2·3 5 = 3
5. (3) Per la formula di Bayes
P (A|B) = P (B|A)P (A)
P (B) =
3 4 ·25
3 5
= 1 2.
3
2.2. Per testare l’efficacia delle cinture di sicurezza sui bambini nel prevenire danni gravi, si esaminano due campioni di bambini che hanno subito incidenti stradali. Per il primo campione di 123 bambini, che indossavano la cintura di sicurezza, il numero di giorni passati in terapia intensiva ha una media campionaria pari a 0.83 e una deviazione standard campionaria pari a 1.77. Per il secondo campione di 290 bambini, che invece non indossavano la cintura di sicurezza, la media campionaria `e pari a 1.39 e la deviazione standard campionaria vale 3.06.
Questi dati permettono di concludere che i bambini che indossano la cintura di sicurezza passano mediamente un numero minore di giorni in terapia intensiva? Si esegua un test al 5%.
Soluzione. Indicando con µx (rispettivamente µy) il numero medio di giorni passati in terapia intensiva in seguito a un incidente per un bambino che indossa (rispettivamente non indossa) la cintura di sicurezza, testiamo l’ipotesi H0 : µx> µy. Dato che le ampiezze dei campioni n = 290 e m = 123 sono elevate, si pu`o usare la statistica
T = x − y qs2x
n +sm2y
che ha distribuzione approssimativamente normale. I dati del problema sono x = 0.83, sx = 1.77, y = 1.39, sy = 3.06 da cui si ottiene T = −2.33. Dato che z0.05 = 1.645 e la regione critica
`
e {T < −z0.05}, l’ipotesi H0 `e rifiutata. Questi dati mostrano che i bambini che indossano la cintura di sicurezza passano mediamente un numero minore di giorni in terapia intensiva.
4
2.3. Si teme che l’assunzione di Atorvastatina, un principio attivo contro il colesterolo, possa produrre cefalea come effetto collaterale. Si esamina dunque un gruppo di 1342 individui a cui viene somministrato tale principio attivo, in diversi dosaggi, oppure un placebo. I risultati sono riassunti nella seguente tabella.
Placebo 10 mg 20-40 mg 80 mg
Cefalea 19 47 8 6
Senza cefalea 251 816 107 88
Che cosa si pu`o dedurre da questi dati? Si formuli un’opportuna ipotesi statistica e si esegua un test al 5% di significativit`a.
Soluzione. Indichiamo con X la variabile che indica la presenza della cefalea in un individuo e con Y la variabile che indica la quantit`a di Atorvastatina assunta (oppure il placebo). Si tratta di testare l’ipotesi nulla H0 che le variabili X e Y siano indipendenti. Calcoliamo innanzitutto le frequenze empiriche dei valori assunti da queste variabili:
Placebo 10 mg 20-40 mg 80 mg Frequenze eXi
Cefalea 19 47 8 6 80
Senza cefalea 251 816 107 88 1262
Frequenze eYj 270 863 115 94
Ricaviamo i dati delle frequenze attese ˆeij = n1 eXi eYj con n = 1342:
Frequenze attese ˆeij Placebo 10 mg 20-40 mg 80 mg
Cefalea 16.1 51.4 6.9 5.6
Senza cefalea 253.9 811.6 108.1 88.4
Calcoliamo dunque la statistica test:
T =
2
X
i=1 4
X
j=1
(Oij − ˆeij)2 ˆ
eij = (19 − 16.1)2
16.1 + . . . +(88 − 88.4)2
88.4 = 1.17 .
I valori possibili per le due variabili sono m = 2 e r = 4, per cui il valore critico `e χ20.05,(m−1)(r−1)= χ20.05,3 = 7.8. Dato che 1.17 < 7.8, l’ipotesi H0 non `e rifiutata: da questi dati non `e possibile dedurre che l’Atorvastatina induca cefalea.