METODI STATISTICI PER LA BIOLOGIA.
Paolo Dai Pra e Francesco Caravenna 31 marzo 2008
NOME
TEMA A 1. Parte A
1.1. Sono stati raccolti i seguenti 5 dati relativi ad una variabile x:
3 1 4 0 a ,
dove il valore di a ∈ R `e incognito. Si pu`o certamente affermare che, qualunque sia il valore di a, uno dei seguenti valori non pu`o essere la mediana dei dati sopra elencati: quale?
2
3
0
1
1.2. Lancio contemporaneamente un dado e una moneta, entrambi equilibrati. La probabilit`a che il dado dia 6 e la moneta dia testa vale
16
121
23
nessuna delle precedenti
1.3. Una variabile casuale discreta X ha densit`a discreta (funzione di massa) data da pX(0) = 2
3, pX(2) = 1 3. Allora E(X) vale
13
23
1
non ci sono informazioni sufficienti per calcolarla.
1.4. Siano X ∼ P o(2) e Y ∼ P o(5) due variabili casuali indipendenti. Allora V ar(X − Y ) vale
7
−3
3
0
1.5. Si consideri l’intervallo di confidenza di livello (1 − α) per la media di un campione normale di taglia n, con varianza nota σ2. L’ampiezza di tale intervallo aumenta
se si aumenta n, a parit`a di α e σ
se si diminuisce σ, a parit`a di n e α
se si aumenta α, a parit`a di σ e n
nessuna delle precedenti
1.6. Si vuole verificare se una roulette sia equilibrata. Si lancia la pallina un numero molto elevato di volte e si prende nota delle frequenze con cui ciascun numero esce. Quale test `e opportuno usare?
Un test χ2 di adattamento
Un test χ2 di indipendenza
Un test per la media di un campione approssimativamente normale
Un test per dati appaiati
1
2
1.7. In un test per la verifica dell’ipotesi H0: µ ≤ 3, la regione critica `e data da C = {(x1, . . . xn) : T (x1, . . . , xn) > 1.8} ,
per un’opportuna statistica T . Supponiamo che il campione di dati osservati x1, . . . , xn sia tale che T (x1, . . . , xn) = 0.4. Supponiamo inoltre che in realt`a µ = 3.5. Allora
si commette errore di prima specie
si commette errore di seconda specie
non si commette alcun errore
l’ipotesi H0`e rifiutata
2. Parte B
2.1. Un’´equipe di ricercatori vuole condurre un’indagine su un campione di individui affetti da daltonismo. Non avendo a disposizione un elenco di individui daltonici, i ricercatori decidono di contattare per via telefonica 2200 persone scelte casualmente. Sapendo che il daltonismo `e presente nel 2% della popolazione in esame, si calcoli approssimativamente la probabilit`a che tra le persone contattate almeno 40 siano daltoniche.
Soluzione. Indicando con X il numero di persone daltoniche tra le 2200 contattate, si ha che X ∼ B(n, p) con n = 2200 e p = 0.02. Dobbiamo calcolare
P (X ≥ 40)
e, dato che np > 5 e n(1 − p) > 5, possiamo applicare l’approssimazione normale. Ricordando che E(X) = np = 44 e V ar(X) = np(1 − p) = 43.12 e usando l’approssimazione di continuit`a, si ha che
P (X ≥ 40) = P (X ≥ 39.5) = P X − 44
√
43.12 ≥ 39.5 − 44
√ 43.12
= P (Z ≥ −0.69) , avendo posto Z := √X−44
43.12 ≈ N (0, 1). Quindi
P (X ≥ 40) ' 1 − Φ(−0.69) = Φ(0.69) = 0.755 .
3
2.2. Durante la seconda guerra mondiale, South London (la parte meridionale di Londra) fu colpita da 535 bombe volanti V1. Per analizzare la distribuzione geografica dei punti di impatto, South London `e stata suddivisa in 576 regioni di pari superficie, registrando quante bombe sono cadute in ciascuna regione. Si `e quindi contato quante regioni non sono state colpite da bombe, quante sono state colpite da una sola bomba, quante da due, ecc., ottenendo i seguenti dati:
Bombe ricevute 0 1 2 3 4 5 6 o pi`u Numero di regioni 229 211 93 35 7 1 0
Si verifichi al 5% di significativit`a l’adattamento di questi dati a una distribuzione di Poisson.
Soluzione. Dobbiamo eseguire un test χ2 di adattamento a una distribuzione P o(λ). Dato che λ non `e assegnato, lo stimiamo dai dati calcolando la media campionaria
x = 535
576 = 0.929 .
Calcoliamo dunque le frequenze teoriche, secondo la seguente formula: per k ∈ {0, . . . , 5}
fk = 576 ∗ e−0.929(0.929)k k! , mentre per l’ultima classe
f{6 o pi`u}= 576 − (f0+ f1+ f2+ f3+ f4+ f5) , ottenendo la seguente tabella:
Bombe ricevute 0 1 2 3 4 5 6 o pi`u
Frequenze teoriche 227.5 211.3 98.2 30.4 7.1 1.3 0.2 Raggruppando le ultime due classi, le condizioni per eseguire il test sono soddisfatte:
Bombe ricevute 0 1 2 3 4 5 o pi`u
Frequenze osservate 229 211 93 35 7 1
Frequenze teoriche 227.5 211.3 98.2 30.4 7.1 1.5 Calcoliamo dunque la statistica di Pearson:
P =
5
X
i=0
(ni− fi)2 fi
= (229 − 227.5)2
227.5 + . . . +(1 − 1.5)2
1.52 = 1.17 . Ricordiamo che la regione critica per il test in esame `e data da
C = P > χ2m−2,α ,
dome m = 6 `e il numero di classi e “−2” `e perch´e `e stato stimato un parametro. Dato che χ24,0.05= 9.49 ,
l’ipotesi H0`e accettata: i dati sono compatibili con una distribuzione di Poisson.
4
2.3. Per esaminare l’efficacia della Paroxetina nel trattamento della depressione, 76 individui ven- gono suddivisi in due gruppi. Al primo gruppo, composto da 33 individui, viene somministrata la Paroxetina, mentre al secondo gruppo, composto da 43 individui, viene somministrato un placebo (cio`e una sostanza inerte). Dopo il trattamento, si misura il livello di depressione degli individui nei due gruppi, usando la scala di Hamilton (che fornisce un valore tanto pi`u elevato quanto maggiore `e il livello di depressione). Per il primo gruppo, media e deviazione standard campionarie del livello di depressione valgono rispettivamente 20.38 e 3.91, mentre per il secondo gruppo valgono rispettiva- mente 21.57 e 3.87. Da questi dati si pu`o concludere che la Paroxetina abbia un effetto significativo nel trattamento della depressione? Si esegua un test al 5%.
(Per calcolare il quantile t74,α, non presente nella tabella, si usi il valore approssimato dato da t70,α.) Soluzione. Effettuiamo un test per il confronti di medie per campioni indipendenti. I dati del problema sono
nx= 33 , x = 20.38 , sx= 3.91 , ny = 43 , y = 21.57 , sy= 3.87 . Prendiamo come ipotesi nulla H0: µx≥ µy. Dato che s2x/s2y= 1.02 ∈ (12, 2), possiamo procedere col test. La varianza campionaria combinata vale
s2p= (nx− 1)s2x+ (ny− 1)s2y
nx+ ny− 2 = 15.11 , e la statistica del test vale
t = x − y sp
q 1
nx+n1
y
= −1.32 . Ricordando che la regione critica `e data da
C = {t < −tnx+ny−2,α}
ed essendo t74,0.05 ≈ 1.67, l’ipotesi H0 `e accettata: a questo livello di significativit`a, non si pu`o concludere che la Paroxetina abbia un effetto significativo nel trattamento della depressione.