STATISTICA PER L’ANALISI ORGANIZZATIVA AA 2006-2007
Per casa – 1 Soluzioni
Esercizio 1.1. Durante una ricerca sono state rilevate le lunghezze di tre differenti variabili economiche per ciascuno di 50 paesi in via di sviluppo.
Alcuni dati di sintesi sono riportati nel seguito, dove per semplicità abbiamo indicato con “X”, “Y” e “Z” le tre variabili (tutti calcoli sono stati fatti con le misure espresse in milioni di dollari).
X Y Z
media 30.6 14.2 57.3 mediana 31.1 14.5 44.7 varianza 1.47 1.54 5.46
a. Ipotizzando che la distribuzione di X sia normale, costruire un intervallo di confidenza al 99% per la media della distribuzione stessa (la varianza riportata in tabella è stata ottenuta dividendo per “n”).
[Schema di risposta] Il contesto in cui siamo è quello del test t ad un campione. L’intervallo di confidenza è quindi
(media dei dati) ± t
49,0.995× (sqm ottenuto dividendo per “n-1”)/ n
dove tm,p indica il quantile p-simo di una distribuzione t di Student con m gradi di libertà.
In questo caso, la media vale 30,6. Lo scarto quadratico medio può essere calcolato come
(sqm ottenuto dividendo per “n-1”) =
1
−
n
n
(varianza ottenuta dividendo per “n”)
Ovvero,
(sqm ottenuto dividendo per “n-1”) =
1
,
23
49
47
,
1
50
×
≈
.
Il percentile della t può, visti i gradi di libertà, essere approssimato con quello di una normale standard che vale 2,58.
In definitiva l’intervallo cercato vale 30,6 ± 2,58 × 1,23/
50
ovvero [30,15 - 31,05].b. Quale delle assunzioni richieste dal test “t” a un campione potrebbero non essere soddisfatte da “Z”?
[Schema di risposta] Il test si basa sull’assunzione che la distribuzione della variabile di cui sono disponibili i dati sia una normale. La differenza tra media e mediana per Z indica la possibile presenza di una qualche forma di asimmetria. La normalità di Z è quindi dubbia.
Esercizio 1.2. In Madagascar due appezzamenti di terreno del tutto simili e coltivati con un certo ortaggio sono stati uno trattato con un nuovo prodotto che dovrebbe ridurre la
velocità di crescita di una pianta infestante e l’altro non trattato. A distanza di una settimana è stato poi rilevato il peso (in grammi) delle piante infestanti trovate. Alcuni risultati sono riportati nella seguente tabella
appezzamento Numero di piante
somma dei pesi delle piante
somma dei quadrati dei pesi
Non trattato 20 33.72 61.90
trattato 26 34.36 48.93
E’ possibile affermare sulla base di questi dati che il nuovo prodotto ha ridotto la velocità di crescita dell’infestante?
[Schema di risposta]. Indichiamo con
y
n
y
y
1,
Κ
,
(ny= 20
) i pesi delle piante trovatenell’appezzamento “non trattato” e con
x
n
x
x
1,
Κ
,
(ny= 26
) i pesi delle piante trovatenell’appezzamento “trattato”. Per poter rispondere con le tecniche note è necessario assumere che “le y” e “le x” siano determinazioni indipendenti ed identicamente distribuite di due variabili casuali normali di media rispettivamente
µ
yeµ
x e varianzacomune (indichiamola con σ2). In questo caso il problema rientra nel reame del test t a
due campioni.
Il sistema d’ipotesi sotto verifica è
<
=
y x y xH
H
µ
µ
µ
µ
:
:
1 0 o, alternativamente,
<
≥
y x y xH
H
µ
µ
µ
µ
:
:
1 0La statistica test appropriata è
x y oss
n
n
s
x
y
t
1
1
+
−
=
dove
y
ex
sono le medie campionarie delle “y” e delle “x” mentre(
)
(
)
−
+
−
−
+
=
∑
∑
= = x y n i i n i i y xx
x
y
y
n
n
s
1 2 1 2 22
1
. Calcoliamo quindi toss.69
,
1
20
72
,
33
=
=
y
1
,
32
26
36
,
34
=
=
x
(
) (
)
0
,
191
2
26
20
32
,
1
26
/
93
,
48
26
69
,
1
20
/
90
,
61
20
2 2 2=
−
+
−
+
−
=
s
(
1
/
20
1
/
26
)
2
,
8
191
,
0
32
,
1
69
,
1
≈
+
−
=
osst
dove abbiamo utilizzato la relazione
(
)
2 1 2 1 21
1
y
y
n
y
y
n
y i y n i y n i i y−
=
−
∑
∑
= =e la relazione analoga per le “x”. Osservando che
• se
µ
y<
µ
x ci aspettiamo valori di toss negativi;• se
µ
y=
µ
x, toss si distribuisce come una variabile casuale t di Student con 44 gradidi libertà;
• se
µ
y>
µ
x, ci aspettiamo che toss assuma valori positivipossiamo concludere che i dati ci forniscono delle indicazioni contro H0(in ambedue le
versioni precedenti) quando la statistica test assume valori più grandi di quelli che ci aspetteremmo di osservare da una variabile casuale t di Student con ny
+ n
y- 2 = 44
gradi di libertà.
Possiamo approssimare questa distribuzione con quella di una normale standard. Il valore osservato di toss è posizionato alla destra dei “valori tipici” di questa
distribuzione. Ad esempio, dalle tavole disponibili dei percentili di una normale standard troviamo che
( )
{
0
,
1
2
,
8
}
0
.
005
001
.
0
<
pr
N
≥
<
.
I dati ci suggeriscono quindi di rifiutare H0 e, perciò di concludere che il nuovo prodotto
ha ridotto la velocità di crescita delle piante infestanti. Si osservi tra l’altro che la probabilità appena approssimata coincide in questo caso con il livello di significatività osservato.
Procedere seguendo un test accetto-rifiuto ci porterebbe alla stessa conclusione. Infatti rifiuteremmo H0 per toss più grande del percentile 1 −
α
di una t con 44 gradi dilibertà. Quindi, ponendo, ad esempio,
α
= 0,01 e approssimando il percentile della t con quello corrispondente di una normale standard arriviamo a una “regola” che ci suggerirebbe di rifiutare se toss> 2,326.Esercizio 1.3. In un sondaggio condotto su 100 docenti dell’Ateneo di Pavia è stato rilevato che 58 avevano intenzione di partecipare all’elezione del Rettore mentre gli altri 42, per vari motivi, non si sarebbero recati a votare. Per la validità dell’elezione è necessario che almeno il 50% degli elettori si rechi alle urne. Sulla base del sondaggio è possibile affermare che:
(a) è sicuro che il quorum verrà raggiunto; (b) è molto plausibile che il quorum verrà raggiunto; (c) è poco plausibile che il quorum non verrà raggiunto; (d) i dati non ci permettono di scegliere tra nessuna delle alternative precedenti.
Rispondere sia utilizzando un intervallo di confidenza che un appropriato test. [Schema di risposta] Poniamo
n = (num. individui intervistati) = 100
ep = percentuale di docenti che hanno intenzione di andare a votare
Supponendo che sia possibile assumere che le risposte dei soggetti intervistati siano indipendenti ed identicamente distribuite il numero di intenzioni di voto espresse (58) può essere visto come una determinazione di una variabile casuale binomiale con probabilità di successo p e numero di prove uguale a 100. La stima dip vale
58
,
0
100
58
i
intervstat
num.
voto
di
intenzioni
num.
ˆ
=
=
=
p
Un intervallo di confidenza per p può essere calcolato come
(
)
n
p
p
z
p
ˆ
±
1−α 2ˆ
1
−
ˆ
Ponendo
α
= 0,05 otteniamoz
1−α 2=
z
0,975=
1
,
96
e quindi l’intervallo di confidenzadiventa
[
0
,
46
;
0
,
68
]
100
/
42
,
0
58
,
0
96
,
1
58
,
0
±
×
=
Questo “calcolo” mostra che valori della percentuale di votanti inferiori al 50% non possono essere esclusi sulla base dei dati. Quindi il raggiungimento del quorum necessario per rendere le elezioni valide è incerto. Può d’altra parte essere osservato, che la “maggior parte” dell’intervallo di confidenza si estende su valori superiori al 50% dei votanti. Non possiamo quindi neanche escludere la possibilità che il quorum venga raggiunto.
Volendo utilizzare un test potremmo considerare l’ipotesi
5
.
0
:
0p
≤
H
contro l’alternativa5
.
0
:
1p
>
H
e la relativa statistica test
6
,
1
100
/
5
,
0
5
,
0
5
,
0
=
×
−
=
p
z
Questo valore va confrontato con i valori che ci aspetteremmo da una normale standard sapendo che
(a) valori più bassi di quelli previsti da una N(0, 1) ce li aspettiamo se p < 0,5; (b) valori “uguali” a quelli generati da una N(0, 1) ce li aspettiamo se p = 0,5; (c) valori pi`u alti di quelli previsti da una N(0, 1) ce li aspettiamo se p > 0,5. Ovviamente i primi due casi sono a favore di H0, l’ultimo caso a favore di H1. Ora, 1,6 è all’incirca il quantile 0,945 di una N(0, 1). Quindi il valore osservato è abbastanza “grande” ma non “enormemente” grande. In conclusione sembra
ragionevole concludere a favore di una “dubbiosa” accettazione o, equivalentemente, di un “dubbioso” rifiuto di H0. La conclusione non cambierebbe se avessimo formulato il problema come uno di verifica di ipotesi bidirezionale.
In conclusione, tra le ipotesi formulate nel testo del problema la (d) sembra essere la più “vicina” ai dati seguita dalla (b).
Esercizio 1.4. Si vuole stimare mediante una indagine campionaria la percentuale di persone che faranno meno di 7 giorni di vacanza durante l’estate prossima. Quante persone dovranno essere intervistate per ottenere alla fine un intervallo di confidenza per l’ignota probabilità di ampiezza certamente non maggiore di 0,05?
[Schema di risposta]. Supponendo che le persone intervistate rispondano
indipendentemente siamo nel contesto di un campionamento di tipo binomiale. Una volta condotte le interviste, l’intervallo di confidenza verrà quindi calcolato utilizzando la formula
(
)
n
p
p
z
p
ˆ
±
1−α 2ˆ
1
−
ˆ
dove
pˆ
è la stima della percentuale delle persone che faranno meno di 7 giorni divacanza durante l’estate prossima, mentre zpindica il percentile p-simo di una normale
standard. Quello che viene richiesto è di determinare n in maniera tale che l’ampiezza di questo intervallo risulti, qualsiasi siano i risultati campionari ovvero qualsiasi sia
pˆ
,minore di 0,05.
Poiché (lo si verifichi), se
0
≤
x
≤
1
,
x
(
1
−
x
)
≤
1
4
, troviamoampiezza
n
z
n
z
1
4
1
2
1−α 2=
1−α 2≤
.
Quindi l’ampiezza dell’intervallo di confidenza risulterà sempre minore di 0,05 qualsiasi siano i dati campionari se
n
z
1
05
.
0
≤
1−α 2cioè se
n
z
1
05
.
0
2 2 2 1−α≤
che, esplicitando
n
, diventa2 2 1
05
,
0
≥
z
−αn
.Per fornire una risposta numerica, è poi ovviamente necessario prefissare la
α
. Ad esempio, se si vuole un intervallo di confidenza che includa con probabilità 0,95 la vera percentuale,α=0,05
,z
1−α 2=
1
,
96
e7
,
1536
05
,
0
96
,
1
2≈
≥
n
Quindi il più piccolo numero di interviste da fare per garantire la condizione richiesta è 1537.
Esercizio 1.5. Per capire se il peso influenza l’ordine alla nascita nei gemelli, per dieci coppie di gemelli è stata calcolata la differenza (in Kg).
D = peso alla nascita primo gemello nato - peso alla nascita secondo gemello nato
La media e la varianza (calcolata dividendo per n - 1) delle 10 differenze ottenute valgono rispettivamente 0,27 e 1,21. Supponendo che sia possibile assumere che la distribuzione di D sia normale, dire se i dati indicano o meno che l’ordine alla nascita è influenzato dal peso utilizzando
[Schema di risposta] Siamo nel “reame della t di Student”. Un intervallo di confidenza
al 90% (tanto per fare un esempio) può essere calcolato come
[
0
,
37
;
0
,
91
]
10
21
,
1
27
,
0
±
t
9,0,95=
−
.L’intervallo include lo
0
. Ovvero, ci dice che non possiamo escludere che in media ilpeso alla nascita del primo gemello sia uguale a quello del secondo. (b) un test di ipotesi.
[Schema di risposta] Siamo nel “reame della t di Student” La statistica test normalmente utilizzata può in questo caso essere calcolata come
78
,
0
27
,
0
21
,
1
10
≈
=
osst
Il valore osservato deve essere confrontato con i valori “previsti” da una variabile casuale
t di Student con 9 gradi di libertà. Il valore osservato è compreso tra i quantili 0,75 e
0,9 di questa distribuzione. Ovvero è un valore “prevedibile”. Il livello di significatività osservato in questo caso risulta maggiore di 0,2 (e minore di 0,5).
Esercizio 1.6. In un ospedale italiano è stato rilevato il peso di neonati in 189 nascite ed è stata fatta una classificazione in base alle abitudine al fumo della madre. Il vettore peso.fumo contiene il peso (in grammi) di 74 neonati con madre fumatrice e il vettore peso.non.fumo il peso (in grammi) di 115 neonati con madre non fumatrice. Si commenti l'output di alcune analisi statistiche di seguito riportato, ottenute usando un software comune:
> t.test(peso.fumo,peso.non.fumo) Standard Two-Sample t-Test
data, peso.fumo and peso.non.fumo
t = -2.7729, df = 187, p-value = 0.0061
alternative hypothesis, true difference in means is not equal to 0 95 percent confidence interval,
-413.2819 -69.6875 sample estimates,
mean of x mean of y 2824.173 3065.658