venna
18 marzo 2008
NOME
1. Parte A
1.1. Sono stati raccolti 7 dati relativi ad una variabile x. Si sa che 3 dati hanno valore 5; 2 dati hanno valore 3; 2 dati hanno valore 0. La mediana vale
2
3
2.5
4
1.2. La probabilit`a di ottenere due teste e una croce lanciando tre monete equilibrate `e
23
28
38
13
1.3. Siano X ∼ B 1,14 e Y ∼ B 1,34 due variabili casuali indipendenti. Allora V ar(X + Y ) vale
38
2
34
1
1.4. Una variabile casuale X ha distribuzione χ2n. Allora
La distribuzione di X `e simmetrica rispetto a 0
X assume sono valori positivi
X `e una variabile discreta
X − 1 ha distribuzione χ2n−1
1.5. Siano (x1, y1), (x2, y2), . . . , (xn, yn) un campione di dati per due variabili x e y, per le quali si vuole costruire un modello di regressione lineare, con x come ingresso e y come uscita. Sia SSR la somma dei quadrati dei residui, e Syy =P
i= 1n(yi= y)2. Supponiamo che SSS R
yy = 0.01. Possiamo allora concludere che
non `e opportuno descrivere i dati con un modello di regressione lineare.
le due variabili sono fortemente correlate
tra le due variabili non c’`e una correlazione significativa
nessuna delle precedenti
1.6. Una casa farmaceutica afferma che un certo farmaco ha l’effetto di aumentare in media il valore di una variabile ematica x, che assumiamo avere distribuzione normale. Per verificare tale afferma- zione, viene misurato il valore di x ad un gruppo di volontari, prima e dopo la somministrazione del farmaco. Quale Test `e opportuno usare?
Un test χ2 di indipendenza
Un test su una proporzione
Un test di confronto di medie per campioni normali indipendenti
Un test per dati appaiati.
1
1.7. Un test t per una media di un campione normale non deve assolutamente essere usato se
la distribuzione della variabile in esame `e normale ma la taglia del campione `e piccola
la taglia del campione `e molto grande (≥ 1000) ma la distribuzione della variabile in esame non `e normale
la varianza della variabile in esame `e molto grande
nessuna delle precedenti
2. Parte B
2.1. Un impiegato della questura deve esaminare 100 domande di permesso di soggiorno, i cui richiedenti possono essere cos`ı suddivisi:
Europei non UE Extraeuropei
Uomini 21 46
Donne 6 27
L’impiegato sceglie a caso la prima domanda da esaminare.
a) Qual `e la probabilit`a che la prima domanda esaminata sia quella di una donna?
b) Sapendo che la prima domanda esaminata `e quella di una donna, qual `e la probabilit`a che sia la domanda di una cittadina extraeuropea?
Soluzione.
a) Il numero totale di domande presentate da donne `e pari a 27+6 = 33. La probabilit`a cercata vale dunque
33
100 = 0.33 . b) Introducendo gli eventi
A = {la domanda `e presentata da una donna}
B = {la domanda `e presentata da un/una cittadino/a extraeuropeo/a} ,
dobbiamo calcolare P (B|A) = P (B∩A)P (A) . Contando ancora i casi favorevoli sui casi possibili, si ha che
P (B ∩ A) = 27
100, =⇒ P (B|A) =
27 100
33 100
=27
33 = 0.81 .
2.2. Un produttore di tabacchi pubblicizza sigarette dichiarando che il contenuto medio di nicotina
`
e inferiore a 40 mg. Esami di laboratorio su 10 sigarette scelte a caso, hanno fornito i seguenti contenuti di nicotina:
47.3 39.7 40.2 38.9 46.4 43.3 42.6 49.5 40.1 46.8
Questi dati sono sufficienti a considerare ingannevole la pubblicit`a del produttore? (Effettuare un test all’ 1%).
Soluzione. Eseguiamo un test per la media µ di un campione approssimativamente normale di varianza incognita, con l’ipotesi H0: µ ≤ µ0:= 40. Calcoliamo media e varianza campionarie:
x = 47.3 + . . . + 46.8
10 = 43.48 , s2x=(47.3 − 43.48)2+ . . . + (46.8 − 43.48)2
9 = 14.29 .
La regione critica del test `e pari a
C = x − µ0 sx
√n > tn−1,α
. Dato che
t = x − µ0 sx
√n = 43.48 − 40
√14.29
√
10 = 2.91 , t9,0.01= 2.82 ,
l’ipotesi H0`e rifiutata all’1%: c’`e forte evidenza che la pubblicit`a del produttore sia ingannevole.
2.3. Uno studio ha lo scopo di determinare la correlazione tra pressione sanguigna sistolica (massi- ma) e diastolica (minima) in individui normotesi. I seguenti dati sono relativi a 6 individui normotesi selezionati in modo casuale:
sistolica (x) 125 107 126 110 110 107 diastolica (y) 78 54 81 68 66 83
Stimare i coefficienti del modello di regressione lineare e verificare al 5% se le due variabili siano correlate in modo significativo.
Soluzione. Calcoliamo innanzitutto le medie campionarie:
x = 125 + 107 + 126 + 110 + 110 + 107
6 = 114.167 , y = 78 + 54 + 81 + 68 + 66 + 83
6 = 71.667 .
Quindi calcoliamo Sxy=
6
X
i=1
xiyi− 6 x y = 125 · 78 + . . . + 107 · 83 − 6 · 114.167 · 71.667 = 49355 − 49091.67 = 263.33 .
Sxx=
6
X
i=1
x2i − 6 · x2= 1252+ . . . + 1072− 6 · 114.6672= 78599 − 78204.17 = 394.83 . Le stime per i coefficienti α, β sono dunque
b = Sxy Sxx
=263.33
394.83 = 0.667 , a = y − bx = 71.667 − 0.667 · 114.167 = −4.477 . Per effettuare un test sull’ipotesi H0: β = 0, calcoliamo innanzitutto
Syy =
6
X
i=1
yi2− 6 · y2= 782+ . . . + 832− 6 · 71.6672= 31430 − 30816.67 = 613.33 , da cui possiamo ricavare la somma dei residui SSR:
SSR= Syy−Sxy2
Sxx = 613.33 −263.332
394.83 = 437.7 . Ricordiamo che la regione critica del test `e data da
C =
s
(n − 2)Sxx
SSR |b| > tn−2,α/2
. Dato che
s
(n − 2)Sxx
SSR
|b| =
r4 · 394.83
437.7 0.667 ≈ 1.27 , t4,0.025= 2.77 ,
l’ipotesi H0`e accettata al 5%: i dati non evidenziano una significativa correlazione tra le due variabili.