Statistica Cognome:
Lauree Triennali in Biologia e Biologia Molecolare Nome:
25 giugno 2010 Matricola:
Tema B
1. Parte A
1.1. Si considerano due campioni di dati {x1, x2, x3} e {y1, y2, y3}. Si sa che i dati del primo campione sono tutti negativi, quelli del secondo campione sono tutti positivi e inoltre
−x1 = y1 = 2 , −x2= y2= 5 , −x3= y3= 3 . Quanto vale il coefficiente di correlazione dei due campioni di dati?
−1
+1
0
Non sono fornite informazioni sufficienti per dare una risposta.
1.2. Ho un paio di scarpe bianche, un paio di scarpe gialle e un paio di scarpe verdi. Se scelgo a caso due scarpe, qual `e la probabilit`a che abbiano lo stesso colore?
13
15
151
14
1.3. La distribuzione binomiale B(n, p) pu`o essere approssimata con la distribuzione di Poisson P o(λ) purch´e siano soddisfatte le seguenti condizioni:
n `e grande, p `e piccolo, λ = np.
n `e grande, p `e piccolo, λ = p.
np e n(1 − p) sono grandi, λ = np.
np e n(1 − p) sono grandi, λ = np(1 − p).
1.4. Su un campione di dati si esegue un test χ2 di adattamento alla distribuzione di Poisson.
Se il valore-p del test `e 0.34, quale di queste conclusioni `e corretta?
I dati sono compatibili con l’adattamento alla distribuzione di Poisson.
C’`e una forte evidenza che la distribuzione incognita non sia una Poisson.
`E stato commesso errore di prima specie.
`E stato commesso errore di seconda specie.
1.5. Una variabile casuale continua X ha funzione densit`a f (x) tale che R+∞
−∞ f (x) dx = 1, R+∞
−∞ x f (x) dx = −3, R+∞
−∞ x2f (x) dx = 13. Allora
E(X) = −3, V ar(X) = 13
E(X) = 1, V ar(X) = 10
E(X) = −3, V ar(X) = 2
E(X) = −3, V ar(X) = 4
1
2
1.6. Sia x1, . . . , xn un campione con distribuzione normale N (µ, σ2), con µ incognita e σ2 nota.
L’intervallo di confidenza per µ calcolato sul campione ha un’ampiezza pari a 3.4. Sia ora
˜
x1, . . . , ˜x2n un campione con il doppio dei dati, estratto dalla stessa distribuzione N (µ, σ2).
Quanto vale l’ampiezza dell’intervallo di confidenza per µ calcolato sul nuovo campione?
√ 2 · 3.4
12 · 3.4
√12 · 3.4
Non sono fornite informazioni sufficienti per dare una risposta.
1.7. In un test per la verifica dell’ipotesi nulla H0 il valore-p vale 0.003. Si pu`o concludere che
i dati sono fortemente in contrasto con H0.
H0 `e falsa.
H0 `e accettata a livello di significativit`a α = 1%.
il livello di significativit`a del test `e α = 0.003.
2. Parte B
2.1. Per le donne con un’et`a compresa tra i 18 e i 24 anni, la pressione sanguigna sistolica `e distribuita normalmente con media 114.8 mmHg, e deviazione standard 13.1 mmHg.
a) Se si seleziona a caso una donna con un’et`a compresa tra i 18 e i 24 anni, qual `e la probabilit`a che la sua pressione arteriosa sia maggiore di 140 mmHg?
b) Se si selezionano a caso 3 donne con un’et`a compresa tra i 18 e i 24 anni, qual `e la probabilit`a che la pressione arteriosa di tutte e tre sia maggiore di 140 mmHg?
Soluzione.
a) Sia X ∼ N (114.8, (13.1)2), e Z = X−114.813.1 ∼ N (0.1).
P (X > 140) = P
Z > 140 − 114.8 13.1
= P (Z > 1.9237) = 1 − P (Z ≤ 1.9237) ' 0.0272.
b) Trattandosi di tre prove indipendenti, la probabilit`a richesta `e P (X > 140)3 = (0.0272)3 ' 0.00002
3
2.2. `E stato condotto uno studio per verificare gli effetti di un integratore alimentare assunto da donne incinte, sul peso dei neonati. Un gruppo di 294 donne sono state trattate con tale integratore: i pesi dei loro figli alla nascita hanno media campionaria 3124 g, e deviazione standard campionaria 669 g. Le analoghe quantit`a in un altro gruppo di 286 donne trattate con un placebo, sono 3088 g e 728 g rispettivamente. Quali conclusione possiamo trarre? (Assumere la normalit`a delle distribuzioni in gioco, e determinare il valore-p di un opportuno test)
Soluzione. Usiamo un test di confronto di medie per due campioni indipendenti e numero- si. Indichiamo con µ1 e σ1 media e deviazione standard dei figli di madri che hanno assunto l’integratore, e con µ2, σ2 media e deviazione standard dei figli di madri che hanno assunto il placebo. Sottoponiamo a verifica l’ipotesi µ1 ≤ µ2. La statistica test vale
st = x1− x2 qs21
n1 +ns22
2
= 3124 − 3088 q6692
294 +7282862
' 0.6196
a cui corrisponde il valore-p
α = 1 − P (Z ≤ st) ' 0.2677.
Da un valore cos`ı elevato del valore-p si deduce che i dati non dimostrano che l’integratore provochi un aumento del peso dei neonati alla nascita.
4
2.3. I seguenti dati si riferiscono al numero di guasti in una rete elettrica, nel quinquennio 2003-2007, nelle diverse ore del giorno
Fascia oraria 00 − 03 03 − 06 06 − 09 09 − 12 12 − 15 15 − 18 18 − 21 21 − 24
Numero di guasti 33 25 45 38 36 34 28 26
Da questi dati si pu`o concludere che i guasti non si distribuiscono uniformemente nell’intero arco della giornata? (Effettuare un test al 5%)
Soluzione. Applichiamo un test χ2 di buon adattamento all’ipotesi H0 di adattamento alla distribuzione che assegna probabilit`a 1/8 ad ogni fascia oraria. Poich´e il numero totale di guasti n = 265, le frequenze attese in ogni giorno della settimana sono uguali a 265/8 = 33.125.
Otteniamo allora la statistica test st = (33 − 33.125)2
33.125 +(25 − 33.125)2
33.125 + (45 − 33.125)2
33.125 + · · · +(26 − 33.125)2
33.125 ' 9.566.
Essendo χ27,0.05 = 14.067, la statistica test non cade nella regione critica, e quindi H0 non viene rifiutata. Pertanto, a livello di significativit`a del 5%, questi dati non sono sufficienti a ritenere che i guasti non si distribuiscano in modo uniforme nelle diverse fasce orarie.