STATISTICA CORSO BASE. Prova scritta dell’8-06-2018.
Tempo: 2 oreCognome e Nome
: . . .Matricola
: . . . .Ex 1 La seguente tabella contiene la distribuzione dei minuti passati giornalmente su internet per un campione di 1000 persone
minuti frequenze assolute
0 − 5 140
5 − 15 360
15 − 30 210
30 − 60 220
60 − 120 70
totale 1000
1. Rappresentare graficamente, in modo opportuno, la distribuzione.
2. Indicare la classe modale
3. Calcolare media, mediana e varianza della distribuzione
4. Indicare la classe dove cade il primo quartile, riportare un valore puntuale per il terzo quartile e calcolare il valore della funzione di ripartizione F (20)
5. Utilizzando i valori della media ¯x e della deviazione standard s calcolati sul campione, riportare l’intervallo di confidenza al livello del 95% per il numero medio di minuti µ passati su internet nella popolazione da cui il campione `e stato estratto
6. Verificare l’ipotesi nulla che la media µ sia uguale 25 minuti o sia inferiore riportando il valore della statistica test ed il p-value
Ex 2 Referiamoci ancora ai dati dell’esercizio precedente. Riguardo alla modalit`a pi`u frequente di accesso a internet, risulta che tra le persone che lo utilizzano per meno di 15 minuti, il 75% vi accede pi`u frequentemente tramite dispositivo mobile (tablet o cellulare), mentre tale percentuale risulta pari al 25% per gli altri
1. Se scegliamo a caso una persona nel campione qual `e la probabilit`a che navighi su internet per pi`u di 15 minuti
Sulla base della tabella dell’esercizio 1, la frequenza relativa di coloro che navigano su internet pi`u di 15 minuti `e (210+220+70)/1000=500/1000=0.5. Indicando con A l’evento,
A = {la persona scelta a caso naviga pi`u di 15 minuti}
abbiamo
P (A) = 0.5
2. Dopo aver scelto a caso una persona nel campione, qual `e la probabilit`a acceda ad internet pi`u frequentemente tramite dispsitivi mobili?
Sia M l’evento,
M = { la persona scelta a caso naviga pi`u frequentemente tramite dispsitivi mobili}
Dal testo dell’esercizio sappiamo che P (M | ¯A) = 0.75 e P (M |A) = 0.25. Abbiamo quindi che P (M ) = P (M |A)P (A) + P (M | ¯A)P ( ¯A) = 0.25 ∗ 0.5 + 0.75 ∗ 0.5 = 0.5
3. Se, dopo aver scelto una persona a caso, rileviamo che vi accede tramite dispositivi mobili , qual
`
e la probabilit`a che navighi per pi`u di 15 minuti P (A|M ) = P (A ∩ M )
P (M ) = P (M |A)P (A)
0.5 = 0.25 ∗ 0.5
0.5 = 0.25
EX 3 Gli alberi di villa Ada hanno un’altezza media di 8 metri e una deviazione standard di 1.5 metri.
Supponendo che la distribuzione dell’altezza di questi alberi sia approssimativamente normale calcolare 1. La probabilit`a che un albero preso a caso sia pi`u basso di 6 metri
Sia X una variabile casuale Normale con media µ = 8 e deviazione standard σ = 1.5 P (X < 6) = P X − 8
1.5 < 6 − 8 1.5
= P (N (0, 1) < −1.33) = P (N (0, 1) > 1.33)
= 1 − P (N (0, 1) < 1.33) = 1 − 0.9082 = 0.0918
2. La probabilit`a che un albero preso a caso sia pi`u basso di 6 metri oppure pi`u alto di 10 metri P (X < 6 ∪ X > 10) = P (X < 6) + P (X > 10)
Infatti gli eventi X > 10 e X < 6 sono incompatibili.
Inoltre
P (X > 10) = P X − 8
1.5 > 10 − 8 1.5
= P (N (0, 1) > 1.33) = 1 − P (N (0, 1) < 1.33) = 1 − 0.9082 = 0.0918 Quindi
P (X < 6 ∪ X > 10) = 2 ∗ 0.0918 = 0.1836
3. Stabilire se gli eventi A= l’albero `e pi`u basso di 6 metri e B l’albero `e pi`u alto di 9 metri sono indipendenti o incompatibili e calcolare la probabilit`a p(A ∩ B).
Gli eventi sono incompatibili quindi P (A ∩ B) = 0
4. Calcolare la probabilit`a che in un campione di 10 alberi, l’altezza media sia superiore a 9 metri Sia ¯X la media campionaria di (X1, . . . , Xn). Nel caso di campioni Normali anche la media campionaria `e Normale ed ha la stessa media delle Xi e varianza pari a σ2/n dove σ2 `e la varianza di ogni Xi. Abbiamo quindi che
P ( ¯X > 9) = P
X − 8¯ 1.5/√
10 > 9 − 8 1.5/√
10
= P (N (0, 1) > 2.11) = 1 − 0.9826 = 0.0174
EX 4 Il presidente di un comitato di pari opportunit`a ha analizzato i dati provenienti da sei imprese che operano nel settore della grande distribuzione al fine di studiare la relazione tra la percentuale di dipendenti di genere femminile (indicata con x) e la percentuale di ruoli dirigenziali che, in ciascuna impresa, sono assunti da donne (indicata con y). Le sintesi ottenute sono le seguenti:
¯
x = 54.2, ¯y = 43.2, s2x = 300.2, s2y = 231.4, sxy = 84.34, r = 0.32, s = 16.12
in cui ¯x e ¯y indicano le medie dei valori rilevati di x e y, s2x e s2y le rispettive varianze, r `e il coefficiente di correlazione tra i valori rilevati di x e y, sxy la covarianza e infine s = ˆσ `e l’errore standard della regressione con variabile risposta y e variabile esplicativa x, ovvero
q Pn
i=1e2i/(n − 2).
A questi dati si riferiscono i quesiti che seguono.
1. Ricavare l’equazione della retta dei minimi quadrati con variabile risposta y e variabile esplicativa x.
2. Sulla base del modello stimato, quale percentuale di dirigenti donna dobbiamo aspettarci in un’impresa in cui il 30% dei dipendenti `e di sesso femminile?
2 36.42 2 39.4 2 44.98
3. Sulla base del modello stimato, a quanto ci aspettiamo che ammonti l’incremento nella percentuale di donne che occupano ruoli dirigenziali se viene incrementata di uno la percentuale di dipendenti donna?
4. Quale percentuale della variabilit`a di Y `e spiegata dal modello di regressione lineare?
2 5% 2 10% 2 32%
5. Sulla base delle informazioni di sintesi disponibili, quale tra i seguenti ritieni che rappresenti il diagramma a dispersione dei dati raccolti?
2 a) 2 b) 2 c)
6. Alla luce della risposta al quesito precedente, ritieni che la previsione effettuata al punto ii) possa essere ritenuta affidabile? Spiega le ragioni della risposta.
7. Sulla base dei dati a disposizione verificare l’ipotesi nulla H0 : β1 = 0 rispetto all’ipotesi alternativa β1 6= 0 dove β1 indica il coefficiente di regressione in tutta la popolazione delle imprese che operano nella grande distribuzione. Riportare il valore della statistica test e del p-value. (Ricordiamo che la stima della deviazione standard dello stimatore dei minimi quadrati B1 `e ˆσ/√
Dx)
8. Riportare l’intervallo di confidenza al 95% per β1