Metodi Statistici per la Biologia Cognome:
Laurea Triennale in Biologia Nome:
4 settembre 2008 Matricola:
1. Parte A
1.1. Sia x1, . . . , xn un campione di dati relativo a una certa variabile x. Definiamo un nuovo campione y1, . . . , yn ponendo yi = −2xi per i = 1, . . . , n. Allora `e sicuramente vero che
y = −2 x
s2y = −2 s2x
il coefficiente di correlazione tra le variabili x e y vale −2
nessuna delle precedenti
1.2. Ho un paio di calzini rossi, un paio verdi e un paio blu. Chiudo gli occhi e scelgo due calzini a caso tra i sei possibili. Qual `e la probabilit`a di scegliere due calzini di diverso colore?
12
13
45
23
1.3. Sia X una variabile casuale con distribuzione B(n, p). Allora P (X ≤ 1) vale
n p (1 − p)n−1
(1 − p)n + n p (1 − p)n−1
(1 − p)n−1
i dati forniti non sono sufficienti a determinare la risposta 1.4. Una variabile casuale X `e continua con densit`a data da
f (x) :=
1
x se 2 ≤ x ≤ 5 0 altrimenti
.
Allora E(X) vale
R5 2 1 dx
R5 2
1 xdx
R5 2 x dx
0
1.5. Sia X ∼ P o(n) e poniamo Y := X−nc
n . Quanto deve valere cn affinch´e, per n grande, la variabile Y sia distribuita approssimativamente come una normale standard?
cn= 1
cn= n
cn= 1/√ n
cn=√ n
1
1.6. Vogliamo stimare la media incognita µ di una variabile con legge normale di varianza nota pari a 1. Usando un campione x1, . . . , xn estratto da tale variabile otteniamo l’intervallo di confidenza bilatero al 95% pari a [0.25, 0.59]. Se ora, usando lo stesso campione, calcoliamo l’intervallo di confidenza bilatero al 99%, quale dei seguenti risultati `e il solo possibile?
[0.31, 0.53]
[0.19, 0.65]
[0.31, 0.65]
[0.19, 0.53]
1.7. Effettuando un test sulla media di un campione normale con varianza incognita, il campione di dati cade all’interno della regione critica per il livello di significativit`a 1%. Allora
l’ipotesi H0 viene rifiutata al 5% di significativit`a
l’ipotesi H0 viene accettata all’1% di significativit`a
il p-value del test `e maggiore di 0.01
l’ipotesi H0 `e falsa
2. Parte B
Esercizio 1. Un generatore di numeri casuali genera numeri compresi tra 0 e 1, secondo una distribuzione di media 0.5 e deviazione standard 0.289. Se vengono generati 100 numeri, qual `e la probabilit`a (approssimata) che la loro media campionaria sia compresa tra 0.47 e 0.53?
Soluzione. Indicando con X1, . . . , X100 i numeri generati, si ha che le variabili Xi sono i.i.d.
con µ = E(Xi) = 0.5 e σ = pV ar(Xi) = 0.289. Detta X = (X1 + . . . + X100)/n la media campionaria, dobbiamo calcolare P (0.47 ≤ X ≤ 0.53). Usando l’approssimazione normale si ha
P 0.47 ≤ X ≤ 0.53
= P 0.47 − 100 · µ σ/√
100 ≤ X − 100 · µ σ/√
100 ≤ 0.53 − 100 · µ σ/√
100
≈ P (−1.03 ≤ Z ≤ 1.03) = 2 Φ(1.03) − 1 = 2 · 0.85 − 1 = 0.7 .
Esercizio 2. Il direttore di un ufficio postale esegue un monitoraggio dei tempi di attesa dei clienti. In un primo monitoraggio, vengono misurati i tempi di attesa di 100 clienti, ottenendo una media campionaria di 12.4 minuti e una deviazione standard campionaria di 8.5 minuti.
Successivamente, il direttore decide di sperimentare una riorganizzazione del lavoro, modificando le mansioni degli impiegati. A seguito di questa riorganizzazione viene ripetuto il monitoraggio.
Di nuovo vengono misurati i tempi di attesa di 100 clienti, ottenendo una media campionaria di 11.3 minuti e una deviazione standard campionaria di 7.7 minuti. Questi dati forniscono evidenza che la riorganizzazione sia stata efficace? (Determinare un’opportuna ipotesi statistica, ed eseguire un test al 5%).
Soluzione. Indicando con x i dati relativi al primo gruppo di clienti e con y quelli relativi al secondo gruppo, i dati sono x = 12.4, sx= 8.5, y = 11.3, sy = 7.7 e nx= ny = 100. Effettuiamo un test al 5% per il confronto di medie di campioni indipendenti, scegliendo come ipotesi nulla H0 : µx ≤ µy (cio`e la riorganizzazione non `e stata efficace). Dato che s2x/s2y = 1.22 ∈ (12, 2), siamo nelle condizioni di eseguire il test. Introducendo la statistica
t = x − y spq
1 nx +n1
y
,
la regione critica del test `e data da C = {t > tnx+ny−2,0.05}. Dalle tavole si ricava t198,0.05 ≈ t∞,0.05= z0.05= 1.64. Inoltre
s2p = 99s2x+ 99s2y
198 = s2x+ s2y
2 = 65.77 =⇒ sp = 8.1 ,
da cui
t = 12.4 − 11.3 8.1
q 2 100
= 1.1
1.15 = 0.96 .
Dato che t 6> tnx+ny−2,0.05, l’ipotesi H0 `e accettata: a questo livello di significativit`a, i dati non forniscono una significativa evidenza che la riorganizzazione sia stata efficace.
Esercizio 3. Un provider per il collegamento internet afferma che i suoi abbonati riescono a connettersi immediatamente (linea libera) nel 50% dei casi, con un’attesa inferiore ad 1 minuto nel 40% dei casi e con un’attesa maggiore di 1 minuto nel 10% dei casi. Un utente decide di verificare l’affermazione del provider, annota i tempi di attesa da lui sperimentati in 70 tentativi di collegamento e ottiene i seguenti risultati:
linea libera attesa ≤ 1 min. attesa > 1 min.
Numero di tentativi 37 22 11
Sottoponete a test, al livello dell’1%, l’affermazione H0: “il provider ha ragione”.
Soluzione. Dobbiamo eseguire un test χ2 di buon adattamento con tre classi. Secondo il provider, le probabilit`a teoriche delle classi sono
π(linea libera) = 0.5 , π(attesa ≤ 1 min.) = 0.4 , π(attesa > 1 min) = 0.1 , da cui si ricavano le frequenze teoriche f (γ) = 70 · π(γ):
linea libera attesa ≤ 1 min. attesa > 1 min.
Numero di tentativi 37 22 11
Frequenze teoriche 35 28 7
Essendo tutte le frequenze teoriche ≥ 5, non occorre effettuare raggruppamenti. La statistica di Pearson vale
P = (37 − 35)2
35 + (22 − 28)2
28 +(11 − 7)2
7 = 4
35+ 9 7+16
7 = 129
35 = 3.69 .
Dato che la regione critica del test `e C = {P > χ22,0.01 = 9.21}, l’ipotesi H0 `e accettata: a questo livello di significativit`a, i dati osservati non sono in contraddizione con quanto afferma il provider.