Siano X ∼ B 1,14 e Y ∼ B 1,34 due variabili casuali indipendenti

(1)

venna

18 marzo 2008

NOME

1. Parte A

1.1. Sono stati raccolti 7 dati relativi ad una variabile x. Si sa che 3 dati hanno valore 5; 2 dati hanno valore 3; 2 dati hanno valore 0. La mediana vale

2

3

2.5

4

1.2. La probabilit`a di ottenere due teste e una croce lanciando tre monete equilibrate `e

²3

²₈

³8

¹3

1.3. Siano X ∼ B 1,¹₄ e Y ∼ B 1,³₄ due variabili casuali indipendenti. Allora V ar(X + Y ) vale

³8

2

³₄

1

1.4. Una variabile casuale X ha distribuzione χ²_n. Allora

La distribuzione di X `e simmetrica rispetto a 0

X assume sono valori positivi

X `e una variabile discreta

X − 1 ha distribuzione χ²n−1

1.5. Siano (x1, y1), (x2, y2), . . . , (xn, yn) un campione di dati per due variabili x e y, per le quali si vuole costruire un modello di regressione lineare, con x come ingresso e y come uscita. Sia SSR la somma dei quadrati dei residui, e S_yy =P

i= 1ⁿ(y_i= y)². Supponiamo che ^SS_S ^R

yy = 0.01. Possiamo allora concludere che

non `e opportuno descrivere i dati con un modello di regressione lineare.

le due variabili sono fortemente correlate

tra le due variabili non c’`e una correlazione significativa

nessuna delle precedenti

1.6. Una casa farmaceutica afferma che un certo farmaco ha l’effetto di aumentare in media il valore di una variabile ematica x, che assumiamo avere distribuzione normale. Per verificare tale afferma- zione, viene misurato il valore di x ad un gruppo di volontari, prima e dopo la somministrazione del farmaco. Quale Test `e opportuno usare?

Un test χ² di indipendenza

Un test su una proporzione

Un test di confronto di medie per campioni normali indipendenti

Un test per dati appaiati.

1

(2)

1.7. Un test t per una media di un campione normale non deve assolutamente essere usato se

la distribuzione della variabile in esame `e normale ma la taglia del campione `e piccola

la taglia del campione `e molto grande (≥ 1000) ma la distribuzione della variabile in esame non `e normale

la varianza della variabile in esame `e molto grande

nessuna delle precedenti

(3)

2. Parte B

2.1. Un impiegato della questura deve esaminare 100 domande di permesso di soggiorno, i cui richiedenti possono essere cos`ı suddivisi:

Europei non UE Extraeuropei

Uomini 21 46

Donne 6 27

L’impiegato sceglie a caso la prima domanda da esaminare.

a) Qual `e la probabilit`a che la prima domanda esaminata sia quella di una donna?

b) Sapendo che la prima domanda esaminata è quella di una donna, qual è la probabilità che sia la domanda di una cittadina extraeuropea?

Soluzione.

a) Il numero totale di domande presentate da donne `e pari a 27+6 = 33. La probabilit`a cercata vale dunque

33

100 = 0.33 . b) Introducendo gli eventi

A = {la domanda `e presentata da una donna}

B = {la domanda `e presentata da un/una cittadino/a extraeuropeo/a} ,

dobbiamo calcolare P (B|A) = ^{P (B∩A)}_{P (A)} . Contando ancora i casi favorevoli sui casi possibili, si ha che

P (B ∩ A) = 27

100, =⇒ P (B|A) =

27 100

33 100

=27

33 = 0.81 .

(4)

2.2. Un produttore di tabacchi pubblicizza sigarette dichiarando che il contenuto medio di nicotina

`

e inferiore a 40 mg. Esami di laboratorio su 10 sigarette scelte a caso, hanno fornito i seguenti contenuti di nicotina:

47.3 39.7 40.2 38.9 46.4 43.3 42.6 49.5 40.1 46.8

Questi dati sono sufficienti a considerare ingannevole la pubblicit`a del produttore? (Effettuare un test all’ 1%).

Soluzione. Eseguiamo un test per la media µ di un campione approssimativamente normale di varianza incognita, con l’ipotesi H0: µ ≤ µ0:= 40. Calcoliamo media e varianza campionarie:

x = 47.3 + . . . + 46.8

10 = 43.48 , s²_x=(47.3 − 43.48)²+ . . . + (46.8 − 43.48)²

9 = 14.29 .

La regione critica del test `e pari a

C = x − µ₀ sx

√n > tn−1,α

. Dato che

t = x − µ₀ sx

√n = 43.48 − 40

√14.29

√

10 = 2.91 , t_9,0.01= 2.82 ,

l’ipotesi H0è rifiutata all’1%: c’è forte evidenza che la pubblicità del produttore sia ingannevole.

(5)

2.3. Uno studio ha lo scopo di determinare la correlazione tra pressione sanguigna sistolica (massi- ma) e diastolica (minima) in individui normotesi. I seguenti dati sono relativi a 6 individui normotesi selezionati in modo casuale:

sistolica (x) 125 107 126 110 110 107 diastolica (y) 78 54 81 68 66 83

Stimare i coefficienti del modello di regressione lineare e verificare al 5% se le due variabili siano correlate in modo significativo.

Soluzione. Calcoliamo innanzitutto le medie campionarie:

x = 125 + 107 + 126 + 110 + 110 + 107

6 = 114.167 , y = 78 + 54 + 81 + 68 + 66 + 83

6 = 71.667 .

Quindi calcoliamo S_xy=

6

X

i=1

x_iy_i− 6 x y = 125 · 78 + . . . + 107 · 83 − 6 · 114.167 · 71.667 = 49355 − 49091.67 = 263.33 .

S_xx=

6

X

i=1

x²_i − 6 · x²= 125²+ . . . + 107²− 6 · 114.667²= 78599 − 78204.17 = 394.83 . Le stime per i coefficienti α, β sono dunque

b = S_xy Sxx

=263.33

394.83 = 0.667 , a = y − bx = 71.667 − 0.667 · 114.167 = −4.477 . Per effettuare un test sull’ipotesi H0: β = 0, calcoliamo innanzitutto

Syy =

6

X

i=1

y_i²− 6 · y²= 78²+ . . . + 83²− 6 · 71.667²= 31430 − 30816.67 = 613.33 , da cui possiamo ricavare la somma dei residui SSR:

SS_R= S_yy−S_xy²

S_xx = 613.33 −263.33²

394.83 = 437.7 . Ricordiamo che la regione critica del test `e data da

C =





 s

(n − 2)Sxx

SS_R |b| > t_n−2,α/2





 . Dato che

s

(n − 2)Sxx

SSR

|b| =

r4 · 394.83

437.7 0.667 ≈ 1.27 , t4,0.025= 2.77 ,

l’ipotesi H₀`e accettata al 5%: i dati non evidenziano una significativa correlazione tra le due variabili.