Statistica
Antonio Azzollini
antonio.azzollini@unibas.it
Anno accademico 2016/2017
Dipartimento di Matematica, Informatica ed Economia (DiMIE)
Quartili e distribuzioni di frequenze
Stanze Appartamenti Frequenze cumulate
1 300 300
2 500 800
3 2,000 2,800
4 3,000 5,800
5 150 5,950
6 100 6,050
7 300 6,350
Per calcolare : A. Rango:
B. Pertanto si colloca fra e
Q1
Q1
x
(1587)x
(1588)x
(1587)= x
(1588)= 3 = Q1
Per calcolare : A. Rango:
B. Pertanto si colloca fra e
Q3
x
(4763)Q3 x
(4764)x
(4763)= x
(4764)= 4 = Q3
Stanze
1 2 3 4 5 6 7
6350 +1
( )
× 0,25 = 1587,756350 +1
( )
× 0,75 = 4763,25Modalità Frequenza Frequenza cumulata
1 1 1
2 2 3
3 3 6
4 4 10
5 5 15
6 6 21
7 7 28
Per calcolare : A. Rango:
B. Pertanto si colloca fra e
Q1
x
( )7x
( )8Q1
x
( )7= x
( )8= 4 = Q1
28 +1
( )
× 0,25 = 7,25Per calcolare : A. Rango:
B. Pertanto si colloca fra e
Q3
Q3
x
( )21x
( )22x( )21 = 6, x( )22 = 7
Q3 = 6 + 7 − 6
( )
× 0,5 = 6,5 28 +1( )
× 0,75 = 21,75M = 5
x( )21 = 6, x( )22 = 7
Q3 = 6 + 7 − 6
( )
× 0,5 = 6,575Quartili e distribuzioni di frequenze
28 +1 .
( )
× 0,75 = 21,75Modalità Frequenza Frequenza cumulata
1 7 7
2 6 13
3 5 18
4 4 22
5 3 25
6 2 27
7 1 28
Per calcolare : A. Rango:
B. Pertanto si colloca fra e
Q1
Q1
x
( )7= 1 x
( )8= 2
28 +1
( )
× 0,25 = 7,25Per calcolare : A. Rango:
B. Pertanto si colloca fra e
Q3
Q3
x
( )21x
( )22x( )21 = x( )22 = 4 = Q3
28 +1
( )
× 0,75 = 21,75Q1 = 1+ 2 −1 ( ) × 0,5 = 1,5
M = 3
28 +1
( )
× 0,25 = 7,25=1,25Quartili e distribuzioni di frequenze
4
1
Da 1 a 7 Da 7 a 1
7 6 5
3 2
Box-plot & simmetria
Asimmetria: A = max− M
( )
− M − min( )
Per il box-plot rosso A = 7 − 5
( )
− 5 −1( )
= −2asimmetria negativa
Per il box-plot blu A = 7 − 3
( )
− 3−1( )
= 2asimmetria positiva
Percentili
Dopo una visita di controllo ad un bambino, il medico farà uso di un grafico come questo:
Quindi,dopo aver constatato che il soggetto in questione è al 95-esimo percentile, si preoccuperà un po’.
Cosa significa percentile?
Il percentile
x
è quel valore (non necessariamenteappartenente al campione) che lascia a sinistra l’
x%
dei dati.
E allora dire che un bambino ha un peso al 95-esimo percentile vuol dire che il 95%
della popolazione maschile di quell’età ha un peso inferiore.
Riprendiamo l’esempio della scuola…
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
p = 90 :
(
30 +1)
× 0,90 = 27,9Il 90-esimo percentile si colloca fra gli elementi di posizione 27 & 28, ossia fra 26,1 & 27,1:
26,1+ 27,1− 26,1
( )
× 0,9 = 27Conclusione: il 90% degli intervistati dedica allo studio non più di 27 ore.
E se volessimo l’informazione inversa…
Percentili
Qual’è la percentuale di studenti che non studia più di 27 ore?
0 0.25 0.5 0.75 1
13 15 17 18 20 23 27
Percentili
0,9
27
Numero studenti che studiano non più di 27 ore = 27.
Taglia = 30
p = numero di ore ≤ 27
taglia = 27
30 = 0,90 p = numero di ore ≤ 27
taglia = 27
30 = 0,90
Calcolo la percentuale:
Percentili
In sintesi:
27 è il 90° percentile del campione
casuale perchè la percentuale di
studenti del campione che studia 27
ore o meno è il 90%.
Mediana per classi di modalità
[10;14) [14;18) )
[18;22) [22;26) [26;30) [30;34]
5 9 9 3 3 1
Se non si conoscono i valori del campione ma solamente un riassunto in forma tabellare delle classi di frequenza...
Estremi classi
Frequenze cumulate
10 0
14 5
18 14=5+9 22 23=14+9
26 26
30 29
34 30
}
In 18 la frequen- za cumulata è
mentre in 22 la frequenza cumulata è 23 > 30
2 = 15 Pertanto la classe [18;22) contiene la mediana.
, 0
5 10 15 20 25 30
10 20 30 40
23
14
18 ? 22 14 < 30
2 = 15,
Estremi classi
Frequenze relative cumulate
10 0
14 0.17
18 0.47
22 0.77
26 0.87
30 0.97
34 1
}
Fra gli estremi 18 e 22 si passa da un valore
inferiore a 0,50 ad uno superiore a 0,50.
Risolvere:
0.1 0.2 0.4 0.5 0.7 0.8 1.0
10 20 30 40
Mediana
y = 0,50
[10;14) [14;18) )
[18;22) [22;26) [26;30) [30;34]
5 9 9 3 3 1
Se non si conoscono i valori del campione ma solamente un riassunto in forma tabellare delle classi di frequenza...
Mediana per classi di modalità
Siccome non so come aumenta la frequenza all'interno della classe [18,22), assumo che l'incremento sia lineare (cioè quello della retta congiungente i punti P e Q)
P
Q
Estremi classi
Frequenze relative cumulate
10 0
14 0.17
18 0.47
22 0.77
26 0.87
30 0.97
34 1
}
Traccio una linea orizzontale in
corrispondenza della frequenza 0,50 ed individuo l'intersezione.
Risolviamo:
Mediana
y = 0,50
y − 0,47
0, 77 − 0,47 = x −18 22 −18 y = 0,50
⎧
⎨⎪
⎩⎪
x = 18 + 0,50 − 0,47
0, 77 − 0,47 × 22 −18
( )
= 18,4[10;14) [14;18) )
[18;22) [22;26) [26;30) [30;34]
5 9 9 3 3 1
Se non si conoscono i valori del campione ma solamente un riassunto in forma tabellare delle classi di frequenza...
-0.1 0.1 0.2 0.4 0.5 0.7 0.8 1.0
0 10 20 30 40
Mediana per classi di modalità
Q
P
La mediana varrà
x = 18 + 0,50 − 0,47
0, 77 − 0,47 × 22 −18 ( ) = 18,4
Quartili per classi di modalità
Estremi classi
Frequenze relative cumulate
10 0
14 0.17
18 0.47
… …
}
Per calcolare i quartili
Q1
eQ3
è possibile considerare di nuovo la tabella delle frequenze cumulate relative.Per
Q1
: la frequenza cumulata relativa passa da un valore inferiore a 0,25 (ossia 0,17 in 14) ad un valore superiore a 0,25 (ossia 0,47 in 18).A. la classe di riferimento per
Q1
è [14;18)Q1 = 14 + 0,25 − 0,17
0, 47 − 0,17 × 18 −14
( )
= 15,08.Estremi classi
Frequenze relative cumulate
… …
18 0.47
22 0.77
26 0.87
30 0.97
34 1
}
Quartili per classi di modalità
Per calcolare i quartili
Q1
eQ3
è possibile considerare di nuovo la tabella delle frequenze cumulate relative.Per
Q3
: la frequenza cumulata relativa passa da un valore inferiore a 0,87 (ossia 0,47 in 18) ad un valore superiore a 0,75 (ossia 0,77 in 22).A. la classe di riferimento per
Q3
è [18;22)Q3 = 18 + 0, 75 − 0,47
0, 77 − 0,47 × 22 −18
( )
= 21, 72.10 30 25 20 15
10 30 25 20 15
Box-plot di distribuzioni in classi
Per costruire il box-plot della distribuzione in classi riportiamo come al solito i quartili per costruire la scatola ed all'interno disegnamo la linea della mediana.
I baffi li disegniamo in relazione al minimo della prima classe ed al massimo dell'ultima classe.
Box-plot dataset esatto Box-plot dataset per classi di modalità
Indici di dispersione
1. Campo di variazione:
2. Intervallo interquartile:
CVar = max− min IQR = Q3− Q1
Si dicono indici di dispersione (o indici di variabilità) quei parametri che misurano la variabilità del campione casuale.
Fra di essi riconosciamo:
Indici di dispersione
Si dicono indici di dispersione (o indici di variabilità) quei parametri che misurano la variabilità del campione casuale.
Fra di essi riconosciamo:
1. Campo di variazione:
2. Intervallo interquartile:
CVar = max− min IQR = Q3− Q1
Chiamiamo varianza (campionaria) il valore calcolato attraverso la formula
s
2s
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
ns
2= 1
Xn −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
ns
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
ns
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
nX X X
s
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
ndove X
Un ulteriore indice di dispersione che introduciamo è è la media aritmetica del campione casuale.
Indici di dispersione
1. Campo di variazione:
2. Intervallo interquartile:
CVar = max− min IQR = Q3− Q1
s = varianza (campionaria)
Chiamiamo varianza (campionaria) il valore calcolato attraverso la formula
s
2s
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
ns
2= 1
Xn −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
ns
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
ns
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
nX X X
s
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
nX
3. Deviazione standard (campionaria):
dove è la media aritmetica del campione casuale.
Un ulteriore indice di dispersione che introduciamo è
s
s2Si dicono indici di dispersione (o indici di variabilità) quei parametri che misurano la variabilità del campione casuale.
Fra di essi riconosciamo:
Indici di dispersione
Esempio
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
La media campionaria è =19,01
10,3 12,9 13,5 13,7 19,01 19,7 20,3 20,7 20,8 21,4
s2 = 1
29 ⎡⎣
(
10, 3−19,01)
2 + 2 12,9 −19,01( )
2 +13,5 −19,01
( )
2 +!+ 33,8 −19,01( )
2 ⎤⎦ = 28,7La varianza vale
X
Indici di dispersione
Esempio
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
La media campionaria è =19,01
10,3 12,9 13,5 13,7 19,01 19,7 20,3 20,7 20,8 21,4
s2 = 1
29 ⎡⎣
(
10, 3−19,01)
2 + 2 12,9 −19,01( )
2 +13,5 −19,01
( )
2 +!+ 33,8 −19,01( )
2 ⎤⎦ = 28,7La deviazione standard è la radice quadrata della varianza
s = 28,7 = 5,36
La varianza vale
X
.
Indici di dispersione
Esempio
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
La media campionaria è =19,01
10,3 12,9 13,5 13,7 19,01 19,7 20,3 20,7 20,8 21,4
s2 = 1
29 ⎡⎣
(
10, 3−19,01)
2 + 2 12,9 −19,01( )
2 +13,5 −19,01
( )
2 +!+ 33,8 −19,01( )
2 ⎤⎦ = 28,7La deviazione standard è la radice quadrata della varianza
s = 28,7 = 5,36
La deviazione standard fornisce una misura della
“concentrazione” dei dati intorno alla media.
La varianza vale
X
.
Indici di dispersione
La deviazione standard non è una statistica robusta
1,2, 3 , 4,5
{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }
👇 👇 👇
CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 99 IQR = 2 s = 43,62
.
CVar = 99 IQR = 2
s = 43,62
. .CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 4
IQR = 2
s = 1,58
.Indici di dispersione
La deviazione standard non è una statistica robusta
1,2, 3 , 4,5
{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }
👇 👇 👇
CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 99 IQR = 2 s = 43,62
• Per variabili quantitative: ordinate in scale sia intervallari che proporzionali.
• Per il suo calcolo vengono utilizzati tutti i dati.
• Un insieme di dati ha una sola deviazione standard.
• Vale zero quando tutti i dati assumono lo stasso valore (variabile statistica degenere). [Esempio:
• È invariante per traslazione. Ossia, se ad ogni dato viene aggiunta una quantità costante allora la deviazione standard non cambia.
.
CVar = 99 IQR = 2
s = 43,62
. .CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 4
IQR = 2
s = 1,58
.• Per variabili quantitative: ordinate in scale sia intervallari che proporzionali.
• Per il suo calcolo vengono utilizzati tutti i dati.
• Un insieme di dati ha una sola deviazione standard.
• Vale zero quando tutti i dati assumono lo stasso valore (variabile statistica degenere). [Esempio:
• È invariante per traslazione. Ossia, se ad ogni dato viene aggiunta una quantità costante allora la deviazione standard non cambia.
Indici di dispersione
La deviazione standard non è una statistica robusta
1,2, 3 , 4,5
{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }
👇 👇 👇
CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 99 IQR = 2 s = 43,62
.
CVar = 99 IQR = 2
s = 43,62
. .CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 4
IQR = 2
s = 1,58
.• Per variabili quantitative: ordinate in scale sia intervallari che proporzionali.
• Per il suo calcolo vengono utilizzati tutti i dati.
• Un insieme di dati ha una sola deviazione standard.
• Vale zero quando tutti i dati assumono lo stasso valore (variabile statistica degenere). [Esempio:
• È invariante per traslazione. Ossia, se ad ogni dato viene aggiunta una quantità costante allora la deviazione standard non cambia.
Indici di dispersione
La deviazione standard non è una statistica robusta
1,2, 3 , 4,5
{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }
👇 👇 👇
CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 99 IQR = 2 s = 43,62
.
CVar = 99 IQR = 2
s = 43,62
. .CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 4
IQR = 2
s = 1,58
.• Per variabili quantitative: ordinate in scale sia intervallari che proporzionali.
• Per il suo calcolo vengono utilizzati tutti i dati.
• Un insieme di dati ha una sola deviazione standard.
• Vale zero quando tutti i dati assumono lo stasso valore (variabile statistica degenere). [Esempio:
• È invariante per traslazione. Ossia, se ad ogni dato viene aggiunta una quantità costante allora la deviazione standard non cambia.
2,2,2
{ }
, µX. = 2, s = 0].Indici di dispersione
La deviazione standard non è una statistica robusta
1,2, 3 , 4,5
{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }
👇 👇 👇
CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 99 IQR = 2 s = 43,62
.
CVar = 99 IQR = 2
s = 43,62
. .CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 4
IQR = 2
s = 1,58
.2, 3, 4,5,101
{ }
CVar 👇 = 99 IQR = 2 s = 43,62
• Per variabili quantitative: ordinate in scale sia intervallari che proporzionali.
• Per il suo calcolo vengono utilizzati tutti i dati.
• Un insieme di dati ha una sola deviazione standard.
• Vale zero quando tutti i dati assumono lo stasso valore (variabile statistica degenere). [Esempio:
• È invariante per traslazione. Ossia, se ad ogni dato viene aggiunta una quantità costante allora la deviazione standard non cambia.
2,2,2
{ }
, µX. = 2, s = 0].Indici di dispersione
La deviazione standard non è una statistica robusta
1,2, 3 , 4,5
{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }
👇 👇 👇
CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 99 IQR = 2 s = 43,62
.
CVar = 99 IQR = 2
s = 43,62
. .CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 4 IQR = 2
s = 1,58
. .CVar = 14 IQR = 2 s = 5,07
CVar = 4
IQR = 2
s = 1,58
.Concentrazione dei valori
Assumendo in un campione casuale di taglia n la media aritmetica
Xcome indice centrale, considerando la deviazione standard come
indice di dispersione dei dati, ci si pone la questione di stabilire a
priori una stima della percentuale di dati che si "concentrano" in
prossimità di . X
Concentrazione dei valori
come indice centrale, considerando la deviazione standard come indice di dispersione dei dati, ci si pone la questione di stabilire a priori una stima della percentuale di dati che si "concentrano" in prossimità di . X
Più precisamente:
che percentuale di dati si trova nell'intervallo ? Che percentuale nell'intervallo ?
E nell'intervallo ?
X X
[ - s, + s]
X X
[ - 2s, + 2s]
X X
[ - 3s, + 3s]
Assumendo in un campione casuale di taglia n la media aritmetica
XQuando la distribuzione dei dati non è caratterizzata da una forte asimmetria e le osservazioni sono concentrate in prossimità di media e mediana, vale la seguente regola empirica:
La regola empirica vs
la regola di Čebyšëv
• approssimativamente il 68% dei valori presenta uno scostamento dalla media pari ad 1 volta la deviazione standard;
• Approssimativamente il 95% dei valori presenta uno scostamento dalla media pari a 2 volte la deviazione standard.
• Approssimativamente il 99,7% dei valori presenta uno scostamento dalla media pari a 3 volte la deviazione standard.
Quando la distribuzione dei dati non è caratterizzata da una forte asimmetria e le osservazioni sono concentrate in prossimità di media e mediana, vale la seguente regola empirica:
La regola empirica vs
la regola di Čebyšëv
• approssimativamente il 68% dei valori presenta uno scostamento dalla media pari ad 1 volta la deviazione standard;
• approssimativamente il 95% dei valori presenta uno scostamento dalla media pari a 2 volte la deviazione standard;
• Approssimativamente il 99,7% dei valori presenta uno scostamento dalla media pari a 3 volte la deviazione standard.
Quando la distribuzione dei dati non è caratterizzata da una forte asimmetria e le osservazioni sono concentrate in prossimità di media e mediana, vale la seguente regola empirica:
La regola empirica vs
la regola di Čebyšëv
• approssimativamente il 68% dei valori presenta uno scostamento dalla media pari ad 1 volta la deviazione standard;
• approssimativamente il 95% dei valori presenta uno scostamento dalla media pari a 2 volte la deviazione standard;
• approssimativamente il 99,7% dei valori presenta uno scostamento dalla media pari a 3 volte la deviazione standard.
Quando la distribuzione dei dati non è caratterizzata da una forte asimmetria e le osservazioni sono concentrate in prossimità di media e mediana, vale la seguente regola empirica:
La regola empirica vs
la regola di Čebyšëv
La regola empirica vs
la regola di Čebyšëv
Quando siamo in presenza di una generica distribuzione
(anche asimmetrica), interviene la cosiddetta regola di
Čebyšëv:
La regola empirica vs
la regola di Čebyšëv
Quando siamo in presenza di una generica distribuzione (anche asimmetrica), interviene la cosiddetta regola di Čebyšëv:
"Detto k un numero intero maggiore o uguale a 2, la percentuale di valori che non si discosta dalla media (a destra o sinistra) più di k volte la deviazione standard è pari ALMENO a
S
kn ≥ 1− 1 k
2( )
X 100 % ".La regola empirica
Consideriamo l'istogramma delle densità relativo alle ore di studio della I scuola
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
0 0.03 0.06 0.09 0.12
[10;14) [14;18) [18;22) [22;26) [26;30) [30,34]
Secondo la regola empirica, circa il 68% dei dati appartiene a
X - 2s + 2s
µ − s; µ + s
[
X. . X]
= 13,65; 24,7[ ]
+ s
X X
- s
X
. Nel nostro caso 2
30 = 0,07
22 73
👉
73%µ − 2s; µ + 2s
[
X. . X]
= 8,29; 29,72[ ]
Secondo la regola empirica, circa il 95% dei dati appartiene a . Nel nostro caso 2
30 = 0,07
28 93
👉
93%37
]
La regola di Čebyšëv
Consideriamo l'istogramma delle densità relativo alle ore di studio della I scuola
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
µ − 2s; µ + 2s
[
X. . X]
= 8,29; 29,72[ ]
Secondo la regola di Čebyšëv, non meno del 75% dei dati appartiene a
Nel nostro caso 2
30 = 0,07
28 93
👉
93%. Infatti k =2
👉 S n
k( ≥ 1− k 1
2)
X 100 % =75%0 2.5 5 7.5 10
[10;14) [14;18) [18;22) [22;26) [26;30) [30,34]
0 3 6 9 12
[10;14) [14;18) [18;22) [22;26) [26;30]
10,3; 12,9; 12,9; 13,5; 13,7;
14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3;
18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8.
25,8; 23,2; 10,1; 24,2; 21,0;
22,3; 15,1; 22,4; 28,3; 25,7;
19,8; 21,4; 17,7; 19,3; 18,2;
21,5; 23,3; 24,3; 20,9; 27,0;
22,3; 20,9; 21,1; 25,1; 23,9;
21,1.
µ = 19,01, s = 5,36
µ = 21,77, s = 3,78
La deviazione standard del secondo dataset è inferiore a quella del primo.
Per avere una misura del grado di dispersione si può confrontare la deviazione standard con la metà della lunghezza dell’intervallo che contiene il 70% dei dati.
Concentrazione: uso dei percentili
. . X
X
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
70%
15% 15%
15-esimo percentile 85-esimo percentile
p = 0,15 :
(
30 +1)
× 0,15 = 4,65Il 15-esimo percentile si colloca fra gli elementi di posizione 4 e 5, ossia fra 13,5 e 13,7:
13,5 + 0,65 × 13,7 −13,5
( )
= 13,63p = 0,85 :
(
30 +1)
× 0,85 = 26,35 L’85-esimo percentile si colloca fragli elementi di posizione 26 e 27, ossia fra 23,7 e 26,1:
23, 7 + 0,35 × 26,1− 23,7
( )
= 24,54👉
24,542−13,63 = 5,46 > 5,36Concentrazione: uso dei percentili
70%
15% 15%
15-esimo percentile 85-esimo percentile
p = 0,15 :
(
26 +1)
× 0,15 = 4,05Il 15-esimo percentile si colloca fra gli elementi di posizione 4 e 5, ossia fra 18,2 e 19,3:
18,2 + 0,05 × 19,3−18,2
( )
= 18,26p = 0,85 :
(
26 +1)
× 0,85 = 22,95 l’85-esimo percentile si colloca fragli elementi di posizione 22 e 23, ossia fra 25,1 e 25,7:
25,1+ 0,95 × 25,7 − 25,1
( )
= 25,67👉
25,67 −18,262 = 3,71 < 3,7810,1; 15,1; 17,7; 18,2; 19,3; 19;8; 20,9; 20,9; 21,0; 21,1;
21,1; 21,4; 21,5; 22,3; 22,3; 22,4; 23,2; 23,3; 23,9; 24,2;
24,3; 25,1; 25,7; 25,8; 27,0; 28,3.
Concentrazione: uso dei percentili
La deviazione standard per classi
Supponiamo che i dati relativi al numero di ore siano stati forniti in tabella secondo le classi di modalità già usate per l’istogramma.
Per il calcolo della varianza, e quindi della deviazione standard, si usa lo stesso procedimento visto per la media, ossia:
Classi [10;14) [14;18) [18;22) [22;26) [26;30) [30;34]
Centri 12 16 20 24 28 32
Frequenze
assolute 5 9 9 3 3 1
s2 =
∑ (
centri delle classi − media)
2 × frequenze assolute taglia −1= 1
29 ⎡⎣
(
12 −19,1)
2 × 5 +!+ 32 −19,1( )
2 ×1⎤⎦ = 28,34👉 s = 5,32
La deviazione standard
Un caso particolare: stessa media e stessa deviazione standard
s = 1
.-3 -2 -1 0 1 2 3
0
-3 -2 -1 0 1 2 3
-3 -2 -1 1 2 3
µ = 0
. X
Per caratteri qualitativi, la variabilità è più opportunamente stimata attraverso un indice di eterogeneità.
Variabilità nei caratteri qualitativi
Indice di eterogeneità (di Gini):
E = 1− f (
12+!+ f
k2)
Minimo quando vi è una sola modalità con frequenza relativa
1
E 👇 = 0
Massimo quando tutte le
k
modalità sono equifrequenti:1 k
E = 1− 1
k
2+!+ 1 k
2⎛ ⎝⎜ ⎞
⎠⎟ = 1 − k
k
2= k −1 k
👇
E' il caso di massima omogeneità nella distribuzione di frequenze.
E' il caso di massima eterogeneità nella distribuzione di frequenze.
E = 1− 0,047 (
2+ 0,079
2+!+ 0,047
2) = 0,67
Poiché
k −1
k = 6
7 = 0,86
, concludiamo che la tabella è piuttosto eterogenea!Variabilità nei caratteri qualitativi
Colore dei
capelli N° di persone Frequenze relative
Neri 10 0,35
Castano chiaro 3 0,11
Castano scuro 6 0,21
Rossi 1 0,04
Biondi 5 0,18
Bianchi 3 0,11
Totale 28 1
0,35 0,11 0,11 0,78 5
6 0,83
Il coefficiente di variazione
Una proprietà auspicabile per un indice di variabilità è che esso non dipenda dalla unità di misura in cui il carattere è espresso. Questa proprietà consente di effettuare confronti fra grandezze con misure diverse e non solo…
Esempio: l’altezza di 5 studenti (in cm) è: 172, 175, 176, 178, 180.
Si ha
µ = 176,2
eds = 3,033
In metri la media sarebbe
µ = 1,762
mentre la deviazione standard sarebbes = 0,03
.
!
X.
X.
Il coefficiente di variazione
Una proprietà auspicabile per un indice di variabilità è che esso non dipenda dalla unità di misura in cui il carattere è espresso. Questa proprietà consente di effettuare confronti fra grandezze con misure diverse e non solo…
Esempio: l’altezza di 5 studenti (in cm) è: 172, 175, 176, 178, 180.
Si ha
µ = 176,2
eds = 3,033
In metri la media sarebbe
µ = 1,762
mentre la deviazione standard sarebbes = 0,03
Possiamo concludere che nel secondo caso la variabilità sia inferiore?
.
!
X.
X.
Il coefficiente di variazione
Una proprietà auspicabile per un indice di variabilità è che esso non dipenda dalla unità di misura in cui il carattere è espresso. Questa proprietà consente di effettuare confronti fra grandezze con misure diverse e non solo…
Esempio: l’altezza di 5 studenti (in cm) è: 172, 175, 176, 178, 180.
Si ha
µ = 176,2
eds = 3,033
In metri la media sarebbe
µ = 1,762
mentre la deviazione standard sarebbes = 0,03
Possiamo concludere che nel secondo caso la variabilità sia inferiore?
.
!
Certamente NO!
X.
X.
.
Il coefficiente di variazione
Si introduce il cosiddetto coefficiente di variazione, definito come il
rapporto fra la deviazione standard e la media campionaria (presa
con il segno positivo). Tale definizione è ben posta per distribuzioni
statistiche a media non nulla.
.
Il coefficiente di variazione
CV = 0,0172
In simboli
X.
s = 3,033
.
Si introduce il cosiddetto coefficiente di variazione, definito come il
rapporto fra la deviazione standard e la media campionaria (presa
con il segno positivo). Tale definizione è ben posta per distribuzioni
statistiche a media non nulla.
Si introduce il cosiddetto coefficiente di variazione, definito come il rapporto fra la deviazione standard e la media campionaria (presa con il segno positivo). Tale definizione è ben posta per distribuzioni statistiche a media non nulla.
Nell’esempio appena visto il coefficiente di variazione è
CV = 0,0172
.
Il coefficiente di variazione
CV = 0,0172
In simboli
X.
s = 3,033
.
.
Il coefficiente di variazione
Esempio: l’altezza di 5 neonati (in cm) è: 52, 50, 46, 51, 53.
.
Il coefficiente di variazione
Esempio: l’altezza di 5 neonati (in cm) è: 52, 50, 46, 51, 53.
Risulta che:
•
la media è 50,4 cm;
•
la deviazione standard è 2,70 cm.
.
Il coefficiente di variazione
Esempio: l’altezza di 5 neonati (in cm) è: 52, 50, 46, 51, 53.
Risulta che:
•
la media è 50,4 cm;
•
la deviazione standard è 2,70 cm.
.
Il coefficiente di variazione
Esempio: l’altezza di 5 neonati (in cm) è: 52, 50, 46, 51, 53.
Risulta che:
•
la media è 50,4 cm;
•
la deviazione standard è 2,70 cm.
.
Il coefficiente di variazione
Esempio: l’altezza di 5 neonati (in cm) è: 52, 50, 46, 51, 53.
Risulta che:
•
la media è 50,4 cm;
•
la deviazione standard è 2,70 cm.
.
E pertanto...
il coefficiante di variazione è
Il coefficiente di variazione
Esempio: l’altezza di 5 neonati (in cm) è: 52, 50, 46, 51, 53.
Risulta che:
•
la media è 50,4 cm;
•
la deviazione standard è 2,70 cm.
.
E pertanto...
il coefficiante di variazione è . CV = 0,0172 0,053.
Il coefficiente di variazione
Anche quando le unità di misura sono le stesse il coefficiente di variazione può tornare utile.
Regione DC PLI Regione DC PLI Regione DC PLI
Piemonte 27.6 6.6 Toscana 25.3 1.4 Puglia 36.3 2.1
Lombardia 33.4 3.8 Umbria 26.2 1.2 Basilicata 46.0 0.8
Veneto 42.6 2.8 Marche 33.4 1.6 Calabria 36.8 0.9
Liguria 27.3 0.7 Lazio 31.1 2.7 Sardegna 31.7 1.5
Friuli V. G. 34.5 2.2 Abruzzo 42.2 1.7 Sicilia 26.9 1.7 Trentino A.
A. 27.6 1.6 Molise 55.5 2.2
Emilia R. 22.8 2.3 Campania 36.2 2.4
Distribuzione delle percentuali di voto nel 1963
• La percentuale media è del 33,9% per la DC mentre per il PLI è del 2,3%.
• Le differenze fra una regione e l’altra sono maggiori, in punti percentuali, nella DC. Infatti tra la Basilicata e l’Emilia Romagna vi è una differenza di 23,2 punti percentuali mentre per il PLI la differenza massima è solo di 5,8 punti percentuali.
• La deviazione standard della percentuale di voti e 8,23 per la DC mentre è 1,41 per il PLI.
• Se si confrontano i coefficienti di variazione il risultato si rovescia. La distribuzione di voto della DC presenta una variabilità minore rispetto a quella del PLI.
CV
DC= 8,23
33,9 = 0,24, CV
PLI= 1, 41
2, 3 = 0,61
Precisione della media campionaria
Il coefficiente di variazione consente di valutare anche la “correttezza” della
media campionaria. Infatti la media campionaria si ritiene un indice corretto se il coefficiente di variazione assume valori inferiori a 0,5.
Esempio:
CV
DC= 8,23
33,9 = 0,24, CV
PLI= 1, 41
2, 3 = 0,61
La media è un indice corretto per la percentuale della DC ma non per quella del PLI.
Si definisce precisione della media campionaria
SEM = s
n = 1,5 per la DC 0,27 per il PLI
⎧⎨
⎩
SEM
il rapporto fra la deviazione campionaria e la radice quadrata della taglia.Al crescere della taglia il parametro