METODI STATISTICI PER LA BIOLOGIA.

(1)

METODI STATISTICI PER LA BIOLOGIA.

Paolo Dai Pra e Francesco Caravenna 31 marzo 2008

NOME

TEMA A 1. Parte A

1.1. Sono stati raccolti i seguenti 5 dati relativi ad una variabile x:

3 1 4 0 a ,

dove il valore di a ∈ R è incognito. Si può certamente affermare che, qualunque sia il valore di a, uno dei seguenti valori non può essere la mediana dei dati sopra elencati: quale?

2

3

0

1

1.2. Lancio contemporaneamente un dado e una moneta, entrambi equilibrati. La probabilit`a che il dado dia 6 e la moneta dia testa vale

¹6

12¹

²₃

nessuna delle precedenti

1.3. Una variabile casuale discreta X ha densit`a discreta (funzione di massa) data da pX(0) = 2

3, pX(2) = 1 3. Allora E(X) vale

¹3

²3

1

non ci sono informazioni sufficienti per calcolarla.

1.4. Siano X ∼ P o(2) e Y ∼ P o(5) due variabili casuali indipendenti. Allora V ar(X − Y ) vale

7

−3

3

0

1.5. Si consideri l’intervallo di confidenza di livello (1 − α) per la media di un campione normale di taglia n, con varianza nota σ². L’ampiezza di tale intervallo aumenta

se si aumenta n, a parit`a di α e σ

se si diminuisce σ, a parit`a di n e α

se si aumenta α, a parit`a di σ e n

nessuna delle precedenti

1.6. Si vuole verificare se una roulette sia equilibrata. Si lancia la pallina un numero molto elevato di volte e si prende nota delle frequenze con cui ciascun numero esce. Quale test `e opportuno usare?

Un test χ² di adattamento

Un test χ² di indipendenza

Un test per la media di un campione approssimativamente normale

Un test per dati appaiati

1

(2)

2

1.7. In un test per la verifica dell’ipotesi H₀: µ ≤ 3, la regione critica `e data da C = {(x1, . . . xn) : T (x1, . . . , xn) > 1.8} ,

per un’opportuna statistica T . Supponiamo che il campione di dati osservati x1, . . . , xn sia tale che T (x1, . . . , xn) = 0.4. Supponiamo inoltre che in realt`a µ = 3.5. Allora

si commette errore di prima specie

si commette errore di seconda specie

non si commette alcun errore

l’ipotesi H⁰`e rifiutata

2. Parte B

2.1. Un’équipe di ricercatori vuole condurre un’indagine su un campione di individui affetti da daltonismo. Non avendo a disposizione un elenco di individui daltonici, i ricercatori decidono di contattare per via telefonica 2200 persone scelte casualmente. Sapendo che il daltonismo è presente nel 2% della popolazione in esame, si calcoli approssimativamente la probabilità che tra le persone contattate almeno 40 siano daltoniche.

Soluzione. Indicando con X il numero di persone daltoniche tra le 2200 contattate, si ha che X ∼ B(n, p) con n = 2200 e p = 0.02. Dobbiamo calcolare

P (X ≥ 40)

e, dato che np > 5 e n(1 − p) > 5, possiamo applicare l’approssimazione normale. Ricordando che E(X) = np = 44 e V ar(X) = np(1 − p) = 43.12 e usando l’approssimazione di continuit`a, si ha che

P (X ≥ 40) = P (X ≥ 39.5) = P X − 44

√

43.12 ≥ 39.5 − 44

√ 43.12

= P (Z ≥ −0.69) , avendo posto Z := ^√^X−44

43.12 ≈ N (0, 1). Quindi

P (X ≥ 40) ' 1 − Φ(−0.69) = Φ(0.69) = 0.755 .

(3)

3

2.2. Durante la seconda guerra mondiale, South London (la parte meridionale di Londra) fu colpita da 535 bombe volanti V1. Per analizzare la distribuzione geografica dei punti di impatto, South London `e stata suddivisa in 576 regioni di pari superficie, registrando quante bombe sono cadute in ciascuna regione. Si `e quindi contato quante regioni non sono state colpite da bombe, quante sono state colpite da una sola bomba, quante da due, ecc., ottenendo i seguenti dati:

Bombe ricevute 0 1 2 3 4 5 6 o pi`u Numero di regioni 229 211 93 35 7 1 0

Si verifichi al 5% di significativit`a l’adattamento di questi dati a una distribuzione di Poisson.

Soluzione. Dobbiamo eseguire un test χ² di adattamento a una distribuzione P o(λ). Dato che λ non `e assegnato, lo stimiamo dai dati calcolando la media campionaria

x = 535

576 = 0.929 .

Calcoliamo dunque le frequenze teoriche, secondo la seguente formula: per k ∈ {0, . . . , 5}

fk = 576 ∗ e^−0.929(0.929)^k k! , mentre per l’ultima classe

f_{{6 o pi`}_u}= 576 − (f₀+ f₁+ f₂+ f₃+ f₄+ f₅) , ottenendo la seguente tabella:

Bombe ricevute 0 1 2 3 4 5 6 o pi`u

Frequenze teoriche 227.5 211.3 98.2 30.4 7.1 1.3 0.2 Raggruppando le ultime due classi, le condizioni per eseguire il test sono soddisfatte:

Bombe ricevute 0 1 2 3 4 5 o pi`u

Frequenze osservate 229 211 93 35 7 1

Frequenze teoriche 227.5 211.3 98.2 30.4 7.1 1.5 Calcoliamo dunque la statistica di Pearson:

P =

5

X

i=0

(ni− fi)² fi

= (229 − 227.5)²

227.5 + . . . +(1 − 1.5)²

1.5² = 1.17 . Ricordiamo che la regione critica per il test in esame `e data da

C = P > χ²_m−2,α ,

dome m = 6 è il numero di classi e “−2” è perché è stato stimato un parametro. Dato che χ²_4,0.05= 9.49 ,

l’ipotesi H0`e accettata: i dati sono compatibili con una distribuzione di Poisson.

(4)

4

2.3. Per esaminare l’efficacia della Paroxetina nel trattamento della depressione, 76 individui ven- gono suddivisi in due gruppi. Al primo gruppo, composto da 33 individui, viene somministrata la Paroxetina, mentre al secondo gruppo, composto da 43 individui, viene somministrato un placebo (cioè una sostanza inerte). Dopo il trattamento, si misura il livello di depressione degli individui nei due gruppi, usando la scala di Hamilton (che fornisce un valore tanto più elevato quanto maggiore è il livello di depressione). Per il primo gruppo, media e deviazione standard campionarie del livello di depressione valgono rispettivamente 20.38 e 3.91, mentre per il secondo gruppo valgono rispettivamente 21.57 e 3.87. Da questi dati si può concludere che la Paroxetina abbia un effetto significativo nel trattamento della depressione? Si esegua un test al 5%.

(Per calcolare il quantile t74,α, non presente nella tabella, si usi il valore approssimato dato da t70,α.) Soluzione. Effettuiamo un test per il confronti di medie per campioni indipendenti. I dati del problema sono

n_x= 33 , x = 20.38 , s_x= 3.91 , n_y = 43 , y = 21.57 , s_y= 3.87 . Prendiamo come ipotesi nulla H0: µx≥ µy. Dato che s²_x/s²_y= 1.02 ∈ (¹₂, 2), possiamo procedere col test. La varianza campionaria combinata vale

s²_p= (nx− 1)s²_x+ (ny− 1)s²_y

nx+ ny− 2 = 15.11 , e la statistica del test vale

t = x − y sp

q ₁

nx+_n¹

y

= −1.32 . Ricordando che la regione critica `e data da

C = {t < −t_n_x_+n_y_−2,α}

ed essendo t_74,0.05 ≈ 1.67, l’ipotesi H0 è accettata: a questo livello di significatività, non si può concludere che la Paroxetina abbia un effetto significativo nel trattamento della depressione.