METODI STATISTICI PER LA BIOLOGIA.
Paolo Dai Pra e Francesco Caravenna 31 marzo 2008
NOME
TEMA B 1. Parte A
1.1. Lancio contemporaneamente un dado e una moneta, entrambi equilibrati. Quanto vale la probabilit`a che il dado dia 6 e la moneta dia testa?
23
16
121
nessuna delle precedenti
1.2. Sono stati raccolti i seguenti 5 dati relativi ad una variabile x:
1 0 4 3 a ,
dove il valore di a ∈ R `e incognito. Si pu`o certamente affermare che, qualunque sia il valore di a, uno dei seguenti valori non pu`o essere la mediana dei dati sopra elencati: quale?
2
1
0
3
1.3. Siano X ∼ P o(2) e Y ∼ P o(5) due variabili casuali indipendenti. Allora V ar(X − Y ) vale
3
7
−3
0
1.4. Una variabile casuale discreta X ha densit`a discreta (funzione di massa) data da pX(0) = 2
3, pX(2) = 1 3. Allora E(X) vale
13
1
23
non ci sono informazioni sufficienti per calcolarla.
1.5. Si vuole verificare se una roulette sia equilibrata. Si lancia la pallina un numero molto elevato di volte e si prende nota delle frequenze con cui ciascun numero esce. Quale test `e opportuno usare?
Un test per la media di un campione approssimativamente normale
Un test per dati appaiati
Un test χ2 di indipendenza
Un test χ2 di adattamento
1.6. Si consideri l’intervallo di confidenza di livello (1 − α) per la media di un campione normale di taglia n, con varianza nota σ2. L’ampiezza di tale intervallo aumenta
se si diminuisce σ, a parit`a di n e α
se si aumenta n, a parit`a di α e σ
se si aumenta α, a parit`a di σ e n
nessuna delle precedenti
1
2
1.7. In un test per la verifica dell’ipotesi H0: µ ≥ 3, la regione critica `e data da C = {(x1, . . . xn) : T (x1, . . . , xn) > 1.8} ,
per un’opportuna statistica T . Supponiamo che il campione di dati osservati x1, . . . , xn sia tale che T (x1, . . . , xn) = 0.4. Supponiamo inoltre che in realt`a µ = 2.7. Allora
l’ipotesi H0`e rifiutata
si commette errore di prima specie
si commette errore di seconda specie
non si commette alcun errore
2. Parte B
2.1. Un’´equipe di ricercatori vuole condurre un’indagine su un campione di individui affetti da daltonismo. Non avendo a disposizione un elenco di individui daltonici, i ricercatori decidono di contattare per via telefonica 2200 persone scelte casualmente. Sapendo che il daltonismo `e presente nel 2% della popolazione in esame, si calcoli approssimativamente la probabilit`a che tra le persone contattate almeno 40 siano daltoniche.
Soluzione. Indicando con X il numero di persone daltoniche tra le 2200 contattate, si ha che X ∼ B(n, p) con n = 2200 e p = 0.02. Dobbiamo calcolare
P (X ≥ 40)
e, dato che np > 5 e n(1 − p) > 5, possiamo applicare l’approssimazione normale. Ricordando che E(X) = np = 44 e V ar(X) = np(1 − p) = 43.12 e usando l’approssimazione di continuit`a, si ha che
P (X ≥ 40) = P (X ≥ 39.5) = P X − 44
√
43.12 ≥ 39.5 − 44
√ 43.12
= P (Z ≥ −0.69) , avendo posto Z := √X−44
43.12 ≈ N (0, 1). Quindi
P (X ≥ 40) ' 1 − Φ(−0.69) = Φ(0.69) = 0.755 .
3
2.2. Per esaminare l’efficacia della Paroxetina nel trattamento della depressione, 76 individui ven- gono suddivisi in due gruppi. Al primo gruppo, composto da 33 individui, viene somministrata la Paroxetina, mentre al secondo gruppo, composto da 43 individui, viene somministrato un placebo (cio`e una sostanza inerte). Dopo il trattamento, si misura il livello di depressione degli individui nei due gruppi, usando la scala di Hamilton (che fornisce un valore tanto pi`u elevato quanto maggiore `e il livello di depressione). Per il primo gruppo, media e deviazione standard campionarie del livello di depressione valgono rispettivamente 20.38 e 3.91, mentre per il secondo gruppo valgono rispettiva- mente 21.57 e 3.87. Da questi dati si pu`o concludere che la Paroxetina abbia un effetto significativo nel trattamento della depressione? Si esegua un test al 5%.
(Per calcolare il quantile t74,α, non presente nella tabella, si usi il valore approssimato dato da t70,α.) Soluzione. Effettuiamo un test per il confronti di medie per campioni indipendenti. I dati del problema sono
nx= 33 , x = 20.38 , sx= 3.91 , ny = 43 , y = 21.57 , sy= 3.87 . Prendiamo come ipotesi nulla H0: µx≥ µy. Dato che s2x/s2y= 1.02 ∈ (12, 2), possiamo procedere col test. La varianza campionaria combinata vale
s2p= (nx− 1)s2x+ (ny− 1)s2y
nx+ ny− 2 = 15.11 , e la statistica del test vale
t = x − y sp
q 1
nx+n1
y
= −1.32 . Ricordando che la regione critica `e data da
C = {t < −tnx+ny−2,α}
ed essendo t74,0.05 ≈ 1.67, l’ipotesi H0 `e accettata: a questo livello di significativit`a, non si pu`o concludere che la Paroxetina abbia un effetto significativo nel trattamento della depressione.
4
2.3. Durante la seconda guerra mondiale, South London (la parte meridionale di Londra) fu colpita da 535 bombe volanti V1. Per analizzare la distribuzione geografica dei punti di impatto, South London `e stata suddivisa in 576 regioni di pari superficie, registrando quante bombe sono cadute in ciascuna regione. Si `e quindi contato quante regioni non sono state colpite da bombe, quante sono state colpite da una sola bomba, quante da due, ecc., ottenendo i seguenti dati:
Bombe ricevute 0 1 2 3 4 5 6 o pi`u Numero di regioni 229 211 93 35 7 1 0
Si verifichi al 5% di significativit`a l’adattamento di questi dati a una distribuzione di Poisson.
Soluzione. Dobbiamo eseguire un test χ2 di adattamento a una distribuzione P o(λ). Dato che λ non `e assegnato, lo stimiamo dai dati calcolando la media campionaria
x = 535
576 = 0.929 .
Calcoliamo dunque le frequenze teoriche, secondo la seguente formula: per k ∈ {0, . . . , 5}
fk = 576 ∗ e−0.929(0.929)k k! , mentre per l’ultima classe
f{6 o pi`u}= 576 − (f0+ f1+ f2+ f3+ f4+ f5) , ottenendo la seguente tabella:
Bombe ricevute 0 1 2 3 4 5 6 o pi`u
Frequenze teoriche 227.5 211.3 98.2 30.4 7.1 1.3 0.2 Raggruppando le ultime due classi, le condizioni per eseguire il test sono soddisfatte:
Bombe ricevute 0 1 2 3 4 5 o pi`u
Frequenze osservate 229 211 93 35 7 1
Frequenze teoriche 227.5 211.3 98.2 30.4 7.1 1.5 Calcoliamo dunque la statistica di Pearson:
P =
5
X
i=0
(ni− fi)2 fi
= (229 − 227.5)2
227.5 + . . . +(1 − 1.5)2
1.52 = 1.17 . Ricordiamo che la regione critica per il test in esame `e data da
C = P > χ2m−2,α ,
dome m = 6 `e il numero di classi e “−2” `e perch´e `e stato stimato un parametro. Dato che χ24,0.05= 9.49 ,
l’ipotesi H0`e accettata: i dati sono compatibili con una distribuzione di Poisson.