METODI STATISTICI PER LA BIOLOGIA.
Paolo Dai Pra e Francesco Caravenna Laurea triennale in biologia
10 luglio 2008
NOME
1. Parte A
1.1. in un’urna ci sono 10 palline rosse e 10 palline verdi. Si estraggono due palline (senza reimmis- sione). La probabilit che abbiano diverso colore `e
12
23
101
1019
1.2. Sono stati raccolti 7 dati relativi ad una variabile x. Si sa che 3 dati hanno valore 5; 2 dati hanno valore 3; 2 dati hanno valore 0. Il terzo quartile Q3 vale
3
4
5
4.5
1.3. Sia X una variabile casuale discreta la cui funzione di massa `e data da pX(0) = 1
4 pX(1) = 1
4 pX(2) =1 2. Allora E(X2) vale
1
169
1116
94
1.4. Sia X ∼ N (2, 1), e sia Φ la funzione di ripartizione della Normale standard. Allora per x ∈ R, P (X ≤ x) `e uguale a
Φ(x)
Φ(x − 2)
Φ(x + 2)
Φ x−12
1.5. In un modello di regressione lineare, si assume che la variabile di uscita y
dipenda in modo deterministico dall’ingresso x.
abbia una distribuzione indipendente dall’ingresso x
abbia una distribuzione la cui media `e una funzione affine dell’ingresso x
abbia una distribuzione uguale a quella dell’ingresso x
1.6. In un test per la verifica dell’ipotesi H0la regione critica `e della forma {(x1, x2, . . . , xn) tali che T (x1, x2, . . . , xn) >
0}, dove T (x1, x2, . . . , xn) `e un’opportuna statistica campionaria. Supponiamo che H0sia vera e che i dati osservati (x1, x2, . . . , xn) siano tali che T (x1, x2, . . . , xn) = 2. Allora
si commette un errore di prima specie
si commette un errore di seconda specie
non si commette alcun errore
nessuna delle precedenti
1
2
1.7. Un test χ2di buon adattamento pu`o essere usato se
la taglia del campione `e sufficientemente grande
la distribuzione della variabile in esame `e normale
la distribuzione della variabile in esame `e χ2
nessuna delle precedenti
2. Parte B
2.1. Un certo modello di automobile viene prodotto in uguali proporzioni in 3 diverse fabbriche, che denoteremo con fabbrica A, fabbrica B e fabbrica C. Il 15% delle auto prodotte dalla fabbrica A richiede un intervento di manutenzione straordinaria prima dei 20000 Km. Tale percentuale `e del 10% per le auto prodotte in B, e del 5% per quelle prodotte in C. Un mio amico ha acquistato quel modello di auto, e ha fatto 20000 Km senza che alcuna manutenzione straordinaria sia stata necessaria. Sulla base di questa informazione calcolare la probabilit`a che l’auto del mio amico sia stata prodotta nella fabbrica A.
Soluzione. Sia E = “l’auto ha fatto 20000 Km senza che alcuna manutenzione straordinaria sia stata necessaria”, FA= “l’auto `e stata prodotta dalla fabbrica A”, e analogamente per FB e FC.
P (FA|E) = P (E|FA)P (FA)
P (E|FA)P (FA) + P (E|FB)P (FB) + P (E|FC)P (FC) =
85 100
1 3 85
100 1
3+10090 13+10095 13 ' 0.3148 2.2. In uno dei suoi famosi esperimenti, Mendel esamin`o 580 piselli, osservando che esattamente 152 di questi erano gialli. Mendel aveva ipotizzato che la probabilit`a p che uno di piselli fosse giallo fosse 0.25. Ritenete che i dati osservati contraddicano l’ipotesi di Mendel in modo significativo?
(Calcolare il p-value del test eseguito)
Soluzione. Effettuando un test sull’ipotesi H0: p = 0.25, si calcola la statistica test x − 0.25
√0.25 · 0.75
√ 580 =
152 580− 0.25
√0.25 · 0.75
√
580 ' 0.67.
Il p-value del test `e (se Z ∼ N (0, 1))
2(1 − P (Z ≤ 0.67)) ' 0.5.
L’elevato valore del p-value indica che i dati non sono affatto in contraddizione con l’ipotesi di Mendel.
2.3. Uno studio ha lo scopo di determinare la rilevanza dei fattori ereditari nell’altezza degli in- dividui. Vengono considerati 7 padri e i relativi figli (in et`a adulta), ottenendo questi risultati (in pollici):
altezza del padre (x) 70 69 64 71 68 66 74 altezza del figlio (y) 62.5 64.6 69.1 73.9 67.1 64.4 71.1
Stimare i coefficienti di un modello di regressione lineare e verificare al 5% se le due variabili siano correlate in modo significativo.
Soluzione. I coefficienti stimati sono
β = 0.424 ˆˆ α = 38, 302 σˆ2= SSR
n − 2 = 17.594.
L’intervallo di confidenza per β al 95% `e (−0.914, 1.763). Poich`e questo intervallo contiene lo zero, i dati non sono sufficienti a concludere, con significativit`a del 5%, che le due variabili siano correlate in modo significativo.