Statistica
Antonio Azzollini
antonio.azzollini@unibas.it
Anno accademico 2018/2019
Dipartimento di Matematica, Informatica ed Economia (DiMIE) Dipartimento di Matematica, Informatica ed Economia (DiMIE)
Quartili e distribuzioni di frequenze
Stanze Appartamenti Frequenze cumulate
1 300 300
2 500 800
3 2.000 2.800
4 3.000 5.800
5 150 5.950
6 100 6.050
7 300 6.350
Per calcolare : A. Rango:
B. Pertanto si colloca fra e
C.
Q1
Q1
x
(1587)x
(1588)x
(1587)= x
(1588)= 3 = Q1
Per calcolare : A. Rango:
B. Pertanto si colloca fra e
C.
Q3
Q3
x
(4763)x
(4764)x
(4763)= x
(4764)= 4 = Q3
Stanze
1 2 3 4 5 6 7
6350 +1
( )
× 0,25 = 1587,756350 +1
( )
× 0,75 = 4763,25Modalità Frequenza Frequenza cumulata
1 1 1
2 2 3
3 3 6
4 4 10
5 5 15
6 6 21
7 7 28
Per calcolare : A. Rango:
B. Pertanto si colloca fra e
C.
Q1
x
( )7x
( )8Q1
x
( )7= x
( )8= 4 = Q1
28 +1
( )
× 0,25 = 7,25Per calcolare : A. Rango:
B. Pertanto si colloca fra e
C.
Q3
Q3
x
( )21x
( )22x( )21 = 6, x( )22 = 7
Q3 = 6 + 7 − 6
( )
× 0,5 = 6,5 28 +1( )
× 0,75 = 21,75M = 5
x( )21 = 6, x( )22 = 7
Q3 = 6 + 7 − 6
( )
× 0,5 = 6,575Quartili e distribuzioni di frequenze
28 +1 .
( )
× 0,75 = 21,75Modalità Frequenza Frequenza cumulata
1 7 7
2 6 13
3 5 18
4 4 22
5 3 25
6 2 27
7 1 28
Per calcolare : A. Rango:
B. Pertanto si colloca fra e
C.
Q1
Q1
x
( )7= 1 x
( )8= 2
28 +1
( )
× 0,25 = 7,25Per calcolare : A. Rango:
B. Pertanto si colloca fra e
C.
Q3
Q3
x
( )21x
( )22x
( )21= x
( )22= 4 = Q3
28 +1
( )
× 0,75 = 21,75Q1 = 1+ 2 −1 ( ) × 0,5 = 1,5
M = 3
28 +1
( )
× 0,25 = 7,25=1,25Quartili e distribuzioni di frequenze
4
1
Da 1 a 7 Da 7 a 1
7 6 5
3 2
Box-plot & simmetria
Asimmetria: A = max− M
( )
− M − min( )
Per il box-plot rosso A = 7 − 5
( )
− 5 −1( )
= −2asimmetria negativa
Per il box-plot blu A = 7 − 3
( )
− 3−1( )
= 2asimmetria positiva
Percentili
Dopo una visita di controllo ad un bambino, il medico farà uso di un grafico come questo:
Quindi,dopo aver constatato che il soggetto in questione è al 95-esimo percentile, si preoccuperà un po’.
Cosa significa percentile?
Il percentile
x
è quel valore (non necessariamenteappartenente al campione) che lascia a sinistra l’
x%
dei dati.
E allora dire che un bambino ha un peso al 95-esimo percentile vuol dire che il 95%
della popolazione maschile di quell’età ha un peso inferiore.
Riprendiamo l’esempio della scuola…
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
p = 90 :
(
30 +1)
× 0,90 = 27,9Il 90-esimo percentile si colloca fra gli elementi di posizione 27 & 28, ossia fra 26,1 & 27,1:
26,1+ 27,1− 26,1
( )
× 0,9 = 27Conclusione: il 90% degli intervistati dedica allo studio non più di 27 ore.
E se volessimo l’informazione inversa…
Percentili
Qual’è la percentuale di studenti che non studia più di 27 ore?
0 0,25 0,5 0,75 1
13 15 17 18 20 23 27
Percentili
0,9
27
Numero studenti che studiano non più di 27 ore = 27.
Taglia = 30
p = numero di ore ≤ 27
taglia = 27
30 = 0,90 p = numero di ore ≤ 27
taglia = 27
30 = 0,90
Calcolo la percentuale:
Percentili
In sintesi:
27 è il 90° percentile del campione
casuale perchè la percentuale di
studenti del campione che studia 27
ore o meno è il 90%.
Mediana per classi di modalità
[10;14) [14;18) )
[18;22) [22;26) [26;30) [30;34]
5 9 9 3 3 1
Se non si conoscono i valori del campione ma solamente un riassunto in forma tabellare delle classi di frequenza...
Estremi classi
Frequenze cumulate
10 0
14 5
18 14=5+9 22 23=14+9
26 26
30 29
34 30
}
In 18 la frequen- za cumulata è
mentre in 22 la frequenza cumulata è 23 > 30
2 = 15 Pertanto la classe [18;22) contiene la mediana.
, 0
5 10 15 20 25 30
10 20 30 40
23
14
18 ? 22 14 < 30
2 = 15,
Estremi classi
Frequenze relative cumulate
10 0
14 0,17
18 0,47
22 0,77
26 0,87
30 0,97
34 1
}
Fra gli estremi 18 e 22 si passa da un valore
inferiore a 0,50 ad uno superiore a 0,50.
Risolvere:
0,1 0,2 0,4 0,5 0,7 0,8 1,0
10 20 30 40
Mediana
y = 0,50
[10;14) [14;18) )
[18;22) [22;26) [26;30) [30;34]
5 9 9 3 3 1
Se non si conoscono i valori del campione ma solamente un riassunto in forma tabellare delle classi di frequenza...
Mediana per classi di modalità
Siccome non so come aumenta la frequenza all'interno della classe [18,22), assumo che l'incremento sia lineare (cioè quello della retta congiungente i punti P e Q)
P
Q
Estremi classi
Frequenze relative cumulate
10 0
14 0,17
18 0,47
22 0,77
26 0,87
30 0,97
34 1
}
Traccio una linea orizzontale in
corrispondenza della frequenza 0,50 ed individuo l'intersezione.
Risolviamo:
Mediana
y = 0,50
y
− 0,47
0, 77 − 0,47 =
x−18 22 −18
y= 0,50
⎧
⎨ ⎪
⎩⎪
x = 18 + 0,50 − 0,47
0, 77 − 0,47 × 22 −18
( )
= 18,4[10;14) [14;18) )
[18;22) [22;26) [26;30) [30;34]
5 9 9 3 3 1
Se non si conoscono i valori del campione ma solamente un riassunto in forma tabellare delle classi di frequenza...
-0,1 0,1 0,2 0,4 0,5 0,7 0,8 1,0
0 10 20 30 40
Mediana per classi di modalità
Q
P
La mediana varrà
x = 18 + 0,50 − 0,47
0, 77 − 0,47 × 22 −18 ( ) = 18,4
Quartili per classi di modalità
Estremi classi
Frequenze relative cumulate
10 0
14 0,17
18 0,47
… …
}
Per calcolare i quartili Q1 e Q3 è possibile considerare di nuovo la tabella delle frequenze cumulate relative.
Per Q1: la frequenza cumulata relativa passa da un valore inferiore a 0,25 (ossia 0,17 in 14) ad un valore superiore a 0,25 (ossia 0,47 in 18).
A. la classe di riferimento per
B.
Q1 è [14;18)
Q1 = 14 + 0,25 − 0,17
0, 47 − 0,17 × 18 −14
( )
= 15,08.Estremi classi
Frequenze relative cumulate
… …
18 0,47
22 0,77
26 0,87
30 0,97
34 1
}
Quartili per classi di modalità
Per calcolare i quartili Q1 e Q3 è possibile considerare di nuovo la tabella delle frequenze cumulate relative.
PerQ3: la frequenza cumulata relativa passa da un valore inferiore a 0,87 (ossia 0,47 in 18) ad un valore superiore a 0,75 (ossia 0,77 in 22).
A. la classe di riferimento per
B.
Q3 è [18;22)
Q3 = 18 + 0, 75 − 0,47
0, 77 − 0,47 × 22 −18
( )
= 21, 72.10 30 25 20 15
10 30 25 20 15
Box-plot di distribuzioni in classi
Per costruire il box-plot della distribuzione in classi riportiamo come al solito i quartili per costruire la scatola ed all'interno disegnamo la linea della mediana.
I baffi li disegniamo in relazione al minimo della prima classe ed al massimo dell'ultima classe.
Box-plot dataset esatto Box-plot dataset per classi di modalità
Indici di dispersione
1. Campo di variazione:
2. Intervallo interquartile:
CVar = max− min IQR = Q3− Q1
Si dicono indici di dispersione (o indici di variabilità) quei parametri che misurano la variabilità del campione casuale.
Fra di essi riconosciamo:
Indici di dispersione
Si dicono indici di dispersione (o indici di variabilità) quei parametri che misurano la variabilità del campione casuale.
Fra di essi riconosciamo:
1. Campo di variazione:
2. Intervallo interquartile:
CVar = max− min IQR = Q3− Q1
Chiamiamo varianza (campionaria) il valore calcolato attraverso la formula
s
2s
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = n 1 −1 ( x
i− m )
2i=1
∑
ns
2= 1
Xn −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
ns
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
ns
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
nX X X
s
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
ndove X
Un ulteriore indice di dispersione che introduciamo è è la media aritmetica del campione casuale.
Indici di dispersione
1. Campo di variazione:
2. Intervallo interquartile:
CVar = max− min IQR = Q3− Q1
s = varianza (campionaria)
Chiamiamo varianza (campionaria) il valore calcolato attraverso la formula
s
2s
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = n 1 −1 ( x
i− m )
2i=1
∑
ns
2= 1
Xn −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
ns
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
ns
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
nX X X
s
2= 1
n −1 ⎡ ⎣ ( x
1− m )
2+ x (
2− m )
2+!+ x (
n− m )
2⎤ ⎦ = 1
n −1 ( x
i− m )
2i=1
∑
nX
3. Deviazione standard (campionaria):
dove è la media aritmetica del campione casuale.
Un ulteriore indice di dispersione che introduciamo è
s
s2Si dicono indici di dispersione (o indici di variabilità) quei parametri che misurano la variabilità del campione casuale.
Fra di essi riconosciamo:
Indici di dispersione
Esempio
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
La media campionaria è =19,01
10,3 12,9 13,5 13,7 19,01 19,7 20,3 20,7 20,8 21,4
s2
= 1
29 ⎡⎣ ( 10, 3 −19,01 )
2+ 2 12,9 −19,01 ( )
2+
13,5 −19,01
( )
2+!+ 33,8 −19,01 ( )
2⎤⎦ = 28,7
La varianza vale
X
Indici di dispersione
Esempio
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
La media campionaria è =19,01
10,3 12,9 13,5 13,7 19,01 19,7 20,3 20,7 20,8 21,4
s2
= 1
29 ⎡⎣ ( 10, 3 −19,01 )
2+ 2 12,9 −19,01 ( )
2+
13,5 −19,01
( )
2+!+ 33,8 −19,01 ( )
2⎤⎦ = 28,7
La deviazione standard è la radice quadrata della varianza
s = 28,7 = 5,36
La varianza vale
X
.
Indici di dispersione
Esempio
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
La media campionaria è =19,01
10,3 12,9 13,5 13,7 19,01 19,7 20,3 20,7 20,8 21,4
s2
= 1
29 ⎡⎣ ( 10, 3 −19,01 )
2+ 2 12,9 −19,01 ( )
2+
13,5 −19,01
( )
2+!+ 33,8 −19,01 ( )
2⎤⎦ = 28,7
La deviazione standard è la radice quadrata della varianza
s = 28,7 = 5,36
La deviazione standard fornisce una misura della
“concentrazione” dei dati intorno alla media.
La varianza vale
X
.
Indici di dispersione
La deviazione standard non è una statistica robusta
1,2, 3 , 4,5
{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }
👇 👇 👇
CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 99 IQR = 2 s = 43,62
.
CVar = 99 IQR = 2
s = 43,62
. .CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 4
IQR = 2
s = 1,58
.Indici di dispersione
La deviazione standard non è una statistica robusta
1,2, 3 , 4,5
{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }
👇 👇 👇
CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 99 IQR = 2 s = 43,62
• Per variabili quantitative: ordinate in scale sia intervallari che proporzionali.
• Per il suo calcolo vengono utilizzati tutti i dati.
• Un insieme di dati ha una sola deviazione standard.
• Vale zero quando tutti i dati assumono lo stasso valore (variabile statistica degenere). [Esempio:
• È invariante per traslazione. Ossia, se ad ogni dato viene aggiunta una quantità costante allora la deviazione standard non cambia.
.
CVar = 99 IQR = 2
s = 43,62
. .CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 4
IQR = 2
s = 1,58
.• Per variabili quantitative: ordinate in scale sia intervallari che proporzionali.
• Per il suo calcolo vengono utilizzati tutti i dati.
• Un insieme di dati ha una sola deviazione standard.
• Vale zero quando tutti i dati assumono lo stasso valore (variabile statistica degenere). [Esempio:
• È invariante per traslazione. Ossia, se ad ogni dato viene aggiunta una quantità costante allora la deviazione standard non cambia.
Indici di dispersione
La deviazione standard non è una statistica robusta
1,2, 3 , 4,5
{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }
👇 👇 👇
CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 99 IQR = 2 s = 43,62
.
CVar = 99 IQR = 2
s = 43,62
. .CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 4
IQR = 2
s = 1,58
.• Per variabili quantitative: ordinate in scale sia intervallari che proporzionali.
• Per il suo calcolo vengono utilizzati tutti i dati.
• Un insieme di dati ha una sola deviazione standard.
• Vale zero quando tutti i dati assumono lo stasso valore (variabile statistica degenere). [Esempio:
• È invariante per traslazione. Ossia, se ad ogni dato viene aggiunta una quantità costante allora la deviazione standard non cambia.
Indici di dispersione
La deviazione standard non è una statistica robusta
1,2, 3 , 4,5
{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }
👇 👇 👇
CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 99 IQR = 2 s = 43,62
.
CVar = 99 IQR = 2
s = 43,62
. .CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 4
IQR = 2
s = 1,58
.• Per variabili quantitative: ordinate in scale sia intervallari che proporzionali.
• Per il suo calcolo vengono utilizzati tutti i dati.
• Un insieme di dati ha una sola deviazione standard.
• Vale zero quando tutti i dati assumono lo stasso valore (variabile statistica degenere). [Esempio:
• È invariante per traslazione. Ossia, se ad ogni dato viene aggiunta una quantità costante allora la deviazione standard non cambia.
2,2,2
{ }
, µX. = 2, s = 0].Indici di dispersione
La deviazione standard non è una statistica robusta
1,2, 3 , 4,5
{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }
👇 👇 👇
CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 99 IQR = 2 s = 43,62
.
CVar = 99 IQR = 2
s = 43,62
. .CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 4
IQR = 2
s = 1,58
.2, 3, 4 ,5,101
{ }
CVar 👇 = 99 IQR = 2 s = 43,62
• Per variabili quantitative: ordinate in scale sia intervallari che proporzionali.
• Per il suo calcolo vengono utilizzati tutti i dati.
• Un insieme di dati ha una sola deviazione standard.
• Vale zero quando tutti i dati assumono lo stasso valore (variabile statistica degenere). [Esempio:
• È invariante per traslazione. Ossia, se ad ogni dato viene aggiunta una quantità costante allora la deviazione standard non cambia.
2,2,2
{ }
, µX. = 2, s = 0].Indici di dispersione
La deviazione standard non è una statistica robusta
1,2, 3 , 4,5
{ } { 1,2, 3 , 4,15 } { 1,2, 3 , 4,100 }
👇 👇 👇
CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 99 IQR = 2 s = 43,62
.
CVar = 99 IQR = 2
s = 43,62
. .CVar = 4 IQR = 2 s = 1,58
CVar = 14 IQR = 2 s = 5,07
CVar = 4 IQR = 2
s = 1,58
. .CVar = 14 IQR = 2 s = 5,07
CVar = 4
IQR = 2
s = 1,58
.Concentrazione dei valori
Assumendo in un campione casuale di taglia n la media aritmetica
Xcome indice centrale, considerando la deviazione standard come
indice di dispersione dei dati, ci si pone la questione di stabilire a
priori una stima della percentuale di dati che si "concentrano" in
prossimità di . X
Concentrazione dei valori
come indice centrale, considerando la deviazione standard come indice di dispersione dei dati, ci si pone la questione di stabilire a priori una stima della percentuale di dati che si "concentrano" in prossimità di . X
Più precisamente:
che percentuale di dati si trova nell'intervallo ? Che percentuale nell'intervallo ?
E nell'intervallo ?
X X
[ - s, + s]
X X
[ - 2s, + 2s]
X X
[ - 3s, + 3s]
Assumendo in un campione casuale di taglia n la media aritmetica
XQuando la distribuzione dei dati non è caratterizzata da una forte asimmetria e le osservazioni sono concentrate in prossimità di media e mediana, vale la seguente regola empirica:
La regola empirica vs
la regola di Čebyšëv
• approssimativamente il 68% dei valori presenta uno scostamento dalla media pari ad 1 volta la deviazione standard;
• Approssimativamente il 95% dei valori presenta uno scostamento dalla media pari a 2 volte la deviazione standard.
• Approssimativamente il 99,7% dei valori presenta uno scostamento dalla media pari a 3 volte la deviazione standard.
Quando la distribuzione dei dati non è caratterizzata da una forte asimmetria e le osservazioni sono concentrate in prossimità di media e mediana, vale la seguente regola empirica:
La regola empirica vs
la regola di Čebyšëv
• approssimativamente il 68% dei valori presenta uno scostamento dalla media pari ad 1 volta la deviazione standard;
• approssimativamente il 95% dei valori presenta uno scostamento dalla media pari a 2 volte la deviazione standard;
• Approssimativamente il 99,7% dei valori presenta uno scostamento dalla media pari a 3 volte la deviazione standard.
Quando la distribuzione dei dati non è caratterizzata da una forte asimmetria e le osservazioni sono concentrate in prossimità di media e mediana, vale la seguente regola empirica:
La regola empirica vs
la regola di Čebyšëv
• approssimativamente il 68% dei valori presenta uno scostamento dalla media pari ad 1 volta la deviazione standard;
• approssimativamente il 95% dei valori presenta uno scostamento dalla media pari a 2 volte la deviazione standard;
• approssimativamente il 99,7% dei valori presenta uno scostamento dalla media pari a 3 volte la deviazione standard.