xn un campione di dati relativo a una certa variabile x

(1)

Metodi Statistici per la Biologia Cognome:

Laurea Triennale in Biologia Nome:

4 settembre 2008 Matricola:

1. Parte A

1.1. Sia x₁, . . . , x_n un campione di dati relativo a una certa variabile x. Definiamo un nuovo campione y1, . . . , yn ponendo yi = −2xi per i = 1, . . . , n. Allora `e sicuramente vero che

y = −2 x

s²y = −2 s²_x

il coefficiente di correlazione tra le variabili x e y vale −2

nessuna delle precedenti

1.2. Ho un paio di calzini rossi, un paio verdi e un paio blu. Chiudo gli occhi e scelgo due calzini a caso tra i sei possibili. Qual `e la probabilit`a di scegliere due calzini di diverso colore?

¹₂

¹₃

⁴₅

²₃

1.3. Sia X una variabile casuale con distribuzione B(n, p). Allora P (X ≤ 1) vale

n p (1 − p)ⁿ⁻¹

(1 − p)ⁿ + n p (1 − p)ⁿ⁻¹

(1 − p)ⁿ⁻¹

i dati forniti non sono sufficienti a determinare la risposta 1.4. Una variabile casuale X `e continua con densit`a data da

f (x) :=





 1

x se 2 ≤ x ≤ 5 0 altrimenti

.

Allora E(X) vale

R5 2 1 dx

R5 2

1 xdx

R5 2 x dx

0

1.5. Sia X ∼ P o(n) e poniamo Y := ^X−n_c

n . Quanto deve valere cn affinch´e, per n grande, la variabile Y sia distribuita approssimativamente come una normale standard?

cn= 1

cn= n

cn= 1/√ n

cn=√ n

1

(2)

1.6. Vogliamo stimare la media incognita µ di una variabile con legge normale di varianza nota pari a 1. Usando un campione x1, . . . , xn estratto da tale variabile otteniamo l’intervallo di confidenza bilatero al 95% pari a [0.25, 0.59]. Se ora, usando lo stesso campione, calcoliamo l’intervallo di confidenza bilatero al 99%, quale dei seguenti risultati `e il solo possibile?

[0.31, 0.53]

[0.19, 0.65]

[0.31, 0.65]

[0.19, 0.53]

1.7. Effettuando un test sulla media di un campione normale con varianza incognita, il campione di dati cade all’interno della regione critica per il livello di significativit`a 1%. Allora

l’ipotesi H0 viene rifiutata al 5% di significativit`a

l’ipotesi H0 viene accettata all’1% di significativit`a

il p-value del test `e maggiore di 0.01

l’ipotesi H0 `e falsa

2. Parte B

Esercizio 1. Un generatore di numeri casuali genera numeri compresi tra 0 e 1, secondo una distribuzione di media 0.5 e deviazione standard 0.289. Se vengono generati 100 numeri, qual `e la probabilit`a (approssimata) che la loro media campionaria sia compresa tra 0.47 e 0.53?

Soluzione. Indicando con X1, . . . , X100 i numeri generati, si ha che le variabili Xi sono i.i.d.

con µ = E(Xi) = 0.5 e σ = pV ar(X_i) = 0.289. Detta X = (X1 + . . . + X100)/n la media campionaria, dobbiamo calcolare P (0.47 ≤ X ≤ 0.53). Usando l’approssimazione normale si ha

P 0.47 ≤ X ≤ 0.53

= P 0.47 − 100 · µ σ/√

100 ≤ X − 100 · µ σ/√

100 ≤ 0.53 − 100 · µ σ/√

100

≈ P (−1.03 ≤ Z ≤ 1.03) = 2 Φ(1.03) − 1 = 2 · 0.85 − 1 = 0.7 .

(3)

Esercizio 2. Il direttore di un ufficio postale esegue un monitoraggio dei tempi di attesa dei clienti. In un primo monitoraggio, vengono misurati i tempi di attesa di 100 clienti, ottenendo una media campionaria di 12.4 minuti e una deviazione standard campionaria di 8.5 minuti.

Successivamente, il direttore decide di sperimentare una riorganizzazione del lavoro, modificando le mansioni degli impiegati. A seguito di questa riorganizzazione viene ripetuto il monitoraggio.

Di nuovo vengono misurati i tempi di attesa di 100 clienti, ottenendo una media campionaria di 11.3 minuti e una deviazione standard campionaria di 7.7 minuti. Questi dati forniscono evidenza che la riorganizzazione sia stata efficace? (Determinare un’opportuna ipotesi statistica, ed eseguire un test al 5%).

Soluzione. Indicando con x i dati relativi al primo gruppo di clienti e con y quelli relativi al secondo gruppo, i dati sono x = 12.4, s_x= 8.5, y = 11.3, s_y = 7.7 e n_x= n_y = 100. Effettuiamo un test al 5% per il confronto di medie di campioni indipendenti, scegliendo come ipotesi nulla H0 : µx ≤ µ_y (cio`e la riorganizzazione non `e stata efficace). Dato che s²_x/s²_y = 1.22 ∈ (¹₂, 2), siamo nelle condizioni di eseguire il test. Introducendo la statistica

t = x − y s_pq

1 nx +_n¹

y

,

la regione critica del test `e data da C = {t > t_n_x_+n_y−2,0.05}. Dalle tavole si ricava t_198,0.05 ≈ t∞,0.05= z_0.05= 1.64. Inoltre

s²_p = 99s²_x+ 99s²_y

198 = s²_x+ s²_y

2 = 65.77 =⇒ sp = 8.1 ,

da cui

t = 12.4 − 11.3 8.1

q 2 100

= 1.1

1.15 = 0.96 .

Dato che t 6> t_n_x_+n_y−2,0.05, l’ipotesi H₀ `e accettata: a questo livello di significativit`a, i dati non forniscono una significativa evidenza che la riorganizzazione sia stata efficace.

(4)

Esercizio 3. Un provider per il collegamento internet afferma che i suoi abbonati riescono a connettersi immediatamente (linea libera) nel 50% dei casi, con un’attesa inferiore ad 1 minuto nel 40% dei casi e con un’attesa maggiore di 1 minuto nel 10% dei casi. Un utente decide di verificare l’affermazione del provider, annota i tempi di attesa da lui sperimentati in 70 tentativi di collegamento e ottiene i seguenti risultati:

linea libera attesa ≤ 1 min. attesa > 1 min.

Numero di tentativi 37 22 11

Sottoponete a test, al livello dell’1%, l’affermazione H₀: “il provider ha ragione”.

Soluzione. Dobbiamo eseguire un test χ² di buon adattamento con tre classi. Secondo il provider, le probabilit`a teoriche delle classi sono

π(linea libera) = 0.5 , π(attesa ≤ 1 min.) = 0.4 , π(attesa > 1 min) = 0.1 , da cui si ricavano le frequenze teoriche f (γ) = 70 · π(γ):

linea libera attesa ≤ 1 min. attesa > 1 min.

Numero di tentativi 37 22 11

Frequenze teoriche 35 28 7

Essendo tutte le frequenze teoriche ≥ 5, non occorre effettuare raggruppamenti. La statistica di Pearson vale

P = (37 − 35)²

35 + (22 − 28)²

28 +(11 − 7)²

7 = 4

35+ 9 7+16

7 = 129

35 = 3.69 .

Dato che la regione critica del test è C = {P > χ²_2,0.01 = 9.21}, l’ipotesi H₀ è accettata: a questo livello di significatività, i dati osservati non sono in contraddizione con quanto afferma il provider.