Statistica
Antonio Azzollini
antonio.azzollini@unibas.it
Anno accademico 2016/2017
Dipartimento di Matematica, Informatica ed Economia (DiMIE)
Le medie
Le medie si applicano ai caratteri quantitativi, sia intervallari che razionali.
Esse sono misure sintetiche che consentono il passaggio da una pluralità di informazioni ad una sola modalità.
Fra tutti i tipi di medie si distinguono:
• medie lasche o di posizione determinate in base alla frequenza o alla posizione occupata nella graduatoria delle osservazioni individuali.
(Esempi: Mediana, Quartili, Moda)
• medie analitiche calcolate con operazioni algebriche sui valori del carattere (Esempi: Media aritmetica, media geometrica, media
armonica).
Essa si applica solo ai caratteri quantitativi. Stabilisce l’indice centrale dei dati: si calcola dalla somma di valori numerici presi in considerazione diviso la loro numerosità.
Le medie
La media aritmetica
La media aritmetica insieme di una distribuzione statistica
X = x {
1, x
2, …, x
n}
di un carattere quantitativo considerato su una popolazione è data dalla seguente formula
µ = 1
n ( x
1+ x
2+!+ x
n) = 1
n x
ii=1
∑
nN N
N
N
N
Per la media aritmetica si usa la notazione X quando è riferita ad un campione della popolazione.
•
Per il suo calcolo vengono utilizzati tutti i valori.
•
Un insieme di dati possiede una sola media aritmetica.
•
La media aritmetica risente di eventuali valori anomali.
•
Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante.
Le medie
La media aritmetica
Osserviamo che:
•
Per il suo calcolo vengono utilizzati tutti i valori.
•
Un insieme di dati possiede una sola media aritmetica.
•
La media aritmetica risente di eventuali valori anomali.
•
Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante.
Le medie
La media aritmetica
Osserviamo che:
•
Per il suo calcolo vengono utilizzati tutti i valori.
•
Un insieme di dati possiede una sola media aritmetica.
•
La media aritmetica risente di eventuali valori anomali.
•
Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante.
Le medie
La media aritmetica
Osserviamo che:
X = 1,2,3,4,5
{ }
Le medie
La media aritmetica
µ = 3
👉
X = 1,2,3,4,15{ } 👉 µ = 15
X = 1,2,3,4,100
{ } 👉 µ = 22
X = 1,2,3,4,1000{ } 👉 µ = 202
La media aritmetica non è una statistica robusta!
µ
= 15•
Per il suo calcolo vengono utilizzati tutti i valori.
•
Un insieme di dati possiede una sola media aritmetica.
•
La media aritmetica risente di eventuali valori anomali.
•
Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante.
Le medie
La media aritmetica
Osserviamo che:
Le medie
La media aritmetica
Esempio: per i dati (3,4,8) la media è 5 Esempio: aggiungendo il valore 2, i dati diventano (5,6,10) e la media è 5+2=7
Esempio: calcolando la somma delle differenze fra ciascun valore e la media si ha
(3-5)+(4-5)+(8-5)=0
•
Per il suo calcolo vengono utilizzati tutti i valori.
•
Un insieme di dati possiede una sola media aritmetica.
•
La media aritmetica risente di eventuali valori anomali.
•
Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante.
Le medie
La media aritmetica
•
La somma delle differenze fra ciascun valore osservato e la media è nulla (ossia la somma degli scarti è nulla)
Osserviamo che:
µ = 1
n
(
x1 + x2 +!+ xn)
= 1n xii=1
∑
Nn ( - )=0µ = 1n(
x1 + x2 +!+ xn)
= 1n xi i=1∑
nLe medie
La media aritmetica
Esempio: per i dati (3,4,8) la media è 5
Esempio: calcolando la somma delle differenze fra ciascun valore e la media si ha
(3-5)+(4-5)+(8-5)=0
Le medie
La media aritmetica
In riferimento ad un carattere trasferibile, si dice ammontare del carattere la somma dei valori individuali (che quindi non varia al
trasferirsi di una modalità da una unità individuale all'altra).
La media aritmetica è quella costante che, sostituita a ciascun valore individuale della distribuzione , lascia invariato l’ammontare
µ = 1
n x
ii=1
∑
n👉 ∑1=1n x
i = n µ
del carattere. Infatti
N N
X = x {
1, x
2, …, x
nN}
A m m o n t a r e d e l l a distribuzione originale
A m m o n t a r e d e l l a distribuzione di sole µ = 1
n xi
i=1
∑
nN N
,
Supponendo che un dato x
isi ripeta con frequenza n
iX = x {
1, x
2, …, x
k} , 1 ≤ k ≤ n, n
jj=1
∑
k= n
Le medie
La media aritmetica
X = x {
1, x
2, …, x
k} , 1 ≤ k ≤ n, n
jj=1
∑
k= n
X = x {
1, x
2, …, x
k} , 1 ≤ k ≤ n, n
jj=1
∑
k= n
N N
, ,
µ = 1
n n
ix
ii=1
∑
kN
La media aritmetica si ottiene attraverso la formula
N
N
N
Le medie
La media aritmetica
Popolazione in esame: 88 studenti iscritti al corso di Economia Carattere osservato: voto conseguito all’esame di statistica
X
=
29,29,24,20,22,28,19,19,21,26,20,24,21,19,25, 25,23,28,22,29,26,23,28,30,20,27,22,27,20,24, 25,18,26,29,29,23,23,24,22,25,27,26,23,18,19, 26,22,25,20,26,22,24,20,22,21,29,30,19,24,24, 26,26,29,30,29,25,28,26,22,27,27,29,26,26,22, 27,24,29,30,20,24,24,21,18,22,28,23,21
⎧
⎨
⎪ ⎪
⎪
⎩
⎪ ⎪
⎪
⎫
⎬
⎪ ⎪
⎪
⎭
⎪ ⎪
⎪
µ = 29 + 29 + 24 +!+ 28 + 23+ 21
88 = 24,32
Le medie
Media aritmetica per una distribuzione di frequenze
1 18 3 54
2 19 5 95
3 20 7 140
4 21 5 105
5 22 10 220
6 23 6 138
7 24 10 240
8 25 6 150
9 26 11 286
10 27 6 162
11 28 5 140
12 29 10 290
13 30 4 120
Totale 88 2,140
n
ix
in
ix
iX = x {
i1 ≤ i ≤ n } con n = 88
µ = T
n = 1
n n
jx
j= 2.140
j=1
88
∑
88= 24,32
(con gli elementi ripetuti)
T = x
ii=1
∑
nX = x
jn
j≤ n volte, n
j= n
j=i
∑
k⎧ ⎨
⎩⎪
⎫ ⎬
⎭⎪
elementi distinti)
k
(con
La media aritmetica
N N=88
N N
X = x
jn
j≤ n volte, n
j= n
j=i
∑
k⎧ ⎨
⎩⎪
⎫ ⎬
µ = T ⎭⎪
n = 1
n n
jx
j= 2.140
j=1
88
∑
88= 24,32
N N
N
N
N
La media aritmetica per classi di modalità
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;
17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;
10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.
Le medie
Ricordate la distribuzione statistica relativa al numero di ore settimanali
trascorse a studiare?
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;
17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;
10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.
Le medie
Ricordate la distribuzione statistica relativa al numero di ore settimanali trascorse a studiare?
La media è
(15,0+23,7+19,7+...+27,1+16,6)/30=19
µ = T
n = 1
n n
jx
j= 2.140
j=1
88
∑
88= 24,32
La media aritmetica per classi di modalità
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;
17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;
10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.
Le medie
Ricordate la distribuzione statistica relativa al numero di ore settimanali trascorse a studiare?
La media è
(15,0+23,7+19,7+...+27,1+16,6)/30=19
Come calcoleremmo la media se i dati ci fossero forniti attraverso una distribuzione per classi di frequenza?
µ = T
n = 1
n n
jx
j= 2.140
j=1
88
∑
88= 24,32
La media aritmetica per classi di modalità
Classi [10;14) [14;18) [18;22) [22;26) [26;30) [30;34]
Centri
Classi 12 16 20 24 28 32
Frequ
enze 5 9 9 3 3 1
Prima scuola
µ =
∑
centri delle classi× frequenze assolute tagliaLe medie
µ =
(
12,5 × 5)
+ 16,5 × 9( )
+!+ 32,530 = 19,6
(12x5)+(16x9)+(20x9)+...+(32x1)
19,1
La media aritmetica per classi di modalità
Classi [10;14) [14;18) [18;22) [22;26) [26;30) [30;34]
Centri
Classi 12 16 20 24 28 32
Frequ
enze 5 9 9 3 3 1
Prima scuola
µ =
∑
centri delle classi× frequenze assolute tagliaLe medie
µ =
(
12,5 × 5)
+ 16,5 × 9( )
+!+ 32,530 = 19,6
(12x5)+(16x9)+(20x9)+...+(32x1)
19,1
Osserviamo che la media è pressappoco la stessa: è un caso?
La media aritmetica per classi di modalità
Le medie
La media pesata
La media pesata (o ponderata) di un insieme di numeri a ciascuno dei quali sia assegnato un coefficiente (peso) è data dalla seguente formula:
π =
∑
numeri× pesi∑
pesiMateria CFU Voto Materia CFU Voto Materia CFU voto
Matematica
generale 6 21 Diritto
privato 10 26 Economia
aziendale 10 27
Economia
politica 10 25 Economia e Gestione
delle imprese
10 23 Geografia
economica 6 27
π = 1
52
(
6 × 21+10 × 25 +10 × 26 +10 × 23+10 × 27 + 6 × 27)
= 24,96Voto medio di uno studente alla fine del primo anno del corso di economia
µ = 1
6
(
21+ 25 + 26 + 23+ 27 + 27)
= 24,83Le medie
La media pesata
#Stanze #Appartamenti
1 300
2 500
3 2,000
4 3,000
5 150
6 100
7 300
π = 1
6350
(
1× 300 + 2 × 500 +!+ 7 × 300)
= 3,58µ = 1
7
(
1+ 2 + 3+ 4 + 5 + 6 + 7)
= 4Rientra nel caso della media pesata la media di una distribuzione di frequenze del tipo:
L a f r e q u e n z a assoluta con la quale si presenta ciascuna modalità p u ò e s s e r e interpretata come peso.
Le medie
La media geometrica
La media geometrica di un insieme di numeri è la radice
n
-esima del loro prodotto:σ = x
n 1x
2!x
nViene utilizzata quando si vuole analizzare il variare di un fenomeno nel tempo, come ad esempio il tasso di variazione dei prezzi o i tassi di rendimento di capitali.
La media geometrica è tale che
σ × σ ×!× σ = x
1× x
2×!× x
nn volte
Le medie
La media geometrica
Esempio. Un impiegato ha ricevuto un 5% di aumento di stipendio nel 2014 e un 15% di aumento nell’anno successivo. Quant’è la percentuale di crescita media?
5% di aumento ⇒ da 100 a 105
15% di aumento ⇒ da 100 a 115
👉 parametri: 1,05 e 1,15
σ = 1,15 ×1,05
2= 1,09886 👉 L’aumento medio è del 9,89%
L’impiegato che all’inizio del 2014 aveva
1,05 ×1,15 = 1,21€
, alla fine del 2014 ha1,05€
ed allafine del 2015 ha
1€
σ × σ = 1,05 ×1,15
Le medie
La media armonica
La media armonica di un insieme di numeri è l’inverso della media aritmetica degli inversi. Serve per esempio a ricavare un valore centrale sulla velocità per dati che si riferiscono ad intervalli temporali diversi.
δ = n
1 x
ii=1
∑
nLa media armonica è tale che
1 δ +
1
δ +!+
1 δ =
1
x
1+ 1
x
2+!+ 1 x
n.
Le medie
La media armonica
Esempio. Si determini la velocità media di un quartetto di staffetta 4X100 sapendo che le veloctà medie individuali osservate sono, in m/s
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Le medie
La media armonica
Esempio. Si determini la velocità media di un quartetto di staffetta 4X100 sapendo che le veloctà medie individuali osservate sono, in m/s
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Per mostrare che la velocità media si calcola attraverso la media armonica, si osservi che
VM = spazio totale/tempo totale.
Le medie
La media armonica
Esempio. Si determini la velocità media di un quartetto di staffetta 4X100 sapendo che le veloctà medie individuali osservate sono, in m/s
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Per mostrare che la velocità media si calcola attraverso la media armonica, si osservi che
VM = spazio totale/tempo totale.
Lo spazio totale è 4x100=400, mentre i tempi sono T1=100/V1, T2=100/V2, T3=100/V3, T4=100/V4
Le medie
La media armonica
Esempio. Si determini la velocità media di un quartetto di staffetta 4X100 sapendo che le veloctà medie individuali osservate sono, in m/s
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Per mostrare che la velocità media si calcola attraverso la media armonica, si osservi che
VM = spazio totale/tempo totale.
Lo spazio totale è 4x100=400, mentre i tempi sono T1=100/V1, T2=100/V2, T3=100/V3, T4=100/V4
Dunque
VM =
π =
∑
numeri× pesi∑
4x100pesiT1+T2+T3 +T4
Le medie
La media armonica
Esempio. Si determini la velocità media di un quartetto di staffetta 4X100 sapendo che le veloctà medie individuali osservate sono, in m/s
V1=9,60, V2=10,05, V3=10,00, V4=10,10.
Per mostrare che la velocità media si calcola attraverso la media armonica, si osservi che
VM = spazio totale/tempo totale.
Lo spazio totale è 4x100=400, mentre i tempi sono T1=100/V1, T2=100/V2, T3=100/V3, T4=100/V4
Dunque
VM =
π =
∑
numeri× pesi∑
4x100pesiT1+T2+T3 π+T=4
numeri× pesi
∑
∑
pesi4x100 T1+T2+Tr 3 +T4 1
δ
+ 1δ
+!+1
δ
=1
x1 + 1
x2 +!+ 1 xn V1 V2
1
δ
+1
δ
+!+1
δ
=1
x1 + 1
x2 +!+ 1 xn V3 V4
100 1001 100 100
δ
+ 1δ
+!+1
δ
=1
x1 + 1
x2 +!+ 1 xn V1 V2
1
δ
+1
δ
+!+1
δ
=1
x1 + 1
x2 +!+ 1 xn V3 V4
=π =
∑
numeri× pesi =∑
pesi π =∑
numeri× pesi∑
pesi4Le medie
La mediana
Esempio. L’età di un campione di 5 studenti è: 21,25 19, 20, 22.
👇
Campione ordinato: 19, 20, 21, 22, 25.
La mediana è
👇
M = 21
M
di un insieme di dati (ordinato) è il suo valore centrale È una statistica robusta perché non risente di eventuali valori anomali.La mediana
Le medie
Esempio. L’altezza in centimetri di 4 giocatori di basket è: 186, 189, 190, 185.
👇
La mediana è… 185, 186, ?, 189, 190.
Una possibile scelta è porre
M = 186 +189
2 = 187,5
Più in generale…
La mediana
Le medie
La mediana
x
1, x
2, …, x
n rappresenta l’insieme di dati, il campione casuale deveessere ordinato: .
Poi si determina il rango per la mediana:
r = n +1 ( ) × 0,5
x
( )1≤ x
( )2≤! ≤ x
( )n.
.
.
.
Il rango
( ) j
di un elementox
i appartenente ad un campione indica che questo occupa laj
-esima posizione quando il campione è ordinato.Le medie
La mediana
x
1, x
2, …, x
n rappresenta l’insieme di dati, il campione casuale deveessere ordinato: .
Poi si determina il rango per la mediana:
r = n +1 ( ) × 0,5
x
( )1≤ x
( )2≤! ≤ x
( )n.
Se
n
è dispari il rango sarà un numero intero e si poneM = x
( )r ..
.
Il rango
( ) j
di un elementox
i appartenente ad un campione indica che questo occupa laj
-esima posizione quando il campione è ordinato.Le medie
La mediana
x
1, x
2, …, x
n rappresenta l’insieme di dati, il campione casuale deveessere ordinato: .
Poi si determina il rango per la mediana:
r = n +1 ( ) × 0,5
x
( )1≤ x
( )2≤! ≤ x
( )n.
Se
n
è dispari il rango sarà un numero intero e si poneM = x
( )r .Se
n
è pari il rango èn
2 + 0,5
e si poneIl rango
( ) j
di un elementox
i appartenente ad un campione indica che questo occupa laj
-esima posizione quando il campione è ordinato.Le medie
La mediana
x
1, x
2, …, x
n rappresenta l’insieme di dati, il campione casuale deveessere ordinato: .
Poi si determina il rango per la mediana:
r = n +1 ( ) × 0,5
x
( )1≤ x
( )2≤! ≤ x
( )n.
Se
n
è dispari il rango sarà un numero intero e si poneM = x
( )r .Se
n
è pari il rango èn
2 + 0,5
e si poneM = x
n2
⎛⎝⎜ ⎞
⎠⎟
+ x
n2+1
⎛⎝⎜ ⎞
⎠⎟
− x
n2
⎛⎝⎜ ⎞
⎠⎟
⎛
⎝ ⎜ ⎞
⎠ ⎟ × 0,5
.Così facendo ritroviamo il secondo esempio:
185;186;187,5;189;190
.Il rango
( ) j
di un elementox
i appartenente ad un campione indica che questo occupa laj
-esima posizione quando il campione è ordinato.M = x
n2
⎛⎝⎜ ⎞
⎠⎟
+ x
n2+1
⎛⎝⎜ ⎞
⎠⎟
− x
n2
⎛⎝⎜ ⎞
⎠⎟
⎛
⎝ ⎜ ⎞
⎠ ⎟ × 0,5 M = x
n2
⎛⎝⎜ ⎞
⎠⎟
+ x
n2+1
⎛⎝⎜ ⎞
⎠⎟
− x
n2
⎛⎝⎜ ⎞
⎠⎟
⎛
⎝ ⎜ ⎞
⎠ ⎟ × 0,5
Le medie
La mediana per distribuzioni di frequenze
#Stanze #Appartamenti Frequenze cumulate
1 300 300
2 500 800
3 2,000 2,800
4 3,000 5,800
5 150 5,950
6 100 6,050
7 300 6,350
Il rango è
r = n +1 ( ) × 0,5 = 6.351
2 = 3.175,5
Le medie
La mediana per distribuzioni di frequenze
#Stanze #Appartamenti Frequenze cumulate
1 300 300
2 500 800
3 2,000 2,800
4 3,000 5,800
5 150 5,950
6 100 6,050
7 300 6,350
Il rango è
r = n +1 ( ) × 0,5 = 6.351
2 = 3.175,5
L’elemento di posizione
3.175
è4
, come pure l’elemento di posizione3.176
. Pertanto possiamo porreM = 4
..
1,1,...,1 2,2,...,2 3,3,...,3 4,4,...,4
300 volte 500 volte 2000 volte 3000 volte 800 2800
300 5800
Colore dei
capelli N° di persone
Neri 10
Castani 6
Rossi 1
Biondi 5
Totale 22
Le medie
La moda
È l’elemento che compare più spesso nel campione.
#Stanze #Appartamenti
1 300
2 500
3 2,000
4 3,000
5 150
6 100
7 300
Moda
Moda
👉
👈
Le medie
La moda
Una distribuzione si dice unimodale se ammette un solo valore modale, bimodale se ne ammette due (ossia se esistono due valori che compaiono entrambi con la frequenza massima), trimodale se ne ammette tre e multimodale se ne ammette più di tre.
0 3 6 9 12
A B C D E 0
2.5 5 7.5 10
A B C D E
Unimodale Bimodale
Le medie
La moda
Quando si ha a che fare con classi di modalità, la moda è il punto medio della classe con frequenza più elevata.
In questo caso il valore della moda è 3.200.
Peso in grammi Neonati 1.800-2.200 10 2.200-2.600 32 2.600-3.000 120 3.000-3.400 254 3.400-3.800 134 3.800-4.200 40 4.200-4.600 10
👈
0 0.088 0.175 0.263 0.35
A B C D E F
Poligono di frequenza
L’area sottesa dall’istogramma delle frequenze relative (e dal poligono delle frequenze) è uguale a 1.
Simmetria
Un poligono di frequenza simmetrico ha questa forma:
moda = media = mediana
coda sinistra coda destra
Un poligono di frequenza è asimmetrico quando ha una di queste forme:
moda mediana
media
coda destra coda sinistra
Simmetria
Un poligono di frequenza simmetrico ha questa forma:
moda = media = mediana
coda sinistra coda destra
Simmetria
Modalità Frequenza
1 1
2 2
3 3
4 4
5 5
6 6
7 7
Modalità Frequenza
1 7
2 6
3 5
4 4
5 3
6 2
7 1
Media = 5
0 2 4 5 7
1 2 3 4 5 6 7
Moda = 7
0 2 4 5 7
1 2 3 4 5 6 7
Media = 3 Moda = 1
media − mediana
Possibile indice: ?
Simmetria
r = n +1
( )
× 0,5 = 292 = 14,5
La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15
Simmetria
Modalità Frequenza Frequenza cumulata
1 1 1
2 2 3
3 3 6
4 4 10
5 5 15
6 6 21
7 7 28
r = n +1
( )
× 0,5 = 292 = 14,5
La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15
x
14= x
15= 5 ⇒ M = 5
👈
medianaSimmetria
Modalità Frequenza Frequenza cumulata
1 1 1
2 2 3
3 3 6
4 4 10
5 5 15
6 6 21
7 7 28
r = n +1
( )
× 0,5 = 292 = 14,5
La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15
x
14= x
15= 5 ⇒ M = 5
👈
medianar = n +1
( )
× 0,5 = 292 = 14,5
La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15
Simmetria
Modalità Frequenza Frequenza cumulata
1 1 1
2 2 3
3 3 6
4 4 10
5 5 15
6 6 21
7 7 28
Modalità Frequenza Frequenza cumulata
1 7 7
2 6 13
3 5 18
4 4 22
5 3 25
6 2 27
7 1 28
r = n +1
( )
× 0,5 = 292 = 14,5
La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15
x
14= x
15= 5 ⇒ M = 5
👈
medianar = n +1
( )
× 0,5 = 292 = 14,5
La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15
x
14= x
15= 3 ⇒ M = 3
mediana
👉
Simmetria
Modalità Frequenza Frequenza cumulata
1 1 1
2 2 3
3 3 6
4 4 10
5 5 15
6 6 21
7 7 28
Modalità Frequenza Frequenza cumulata
1 7 7
2 6 13
3 5 18
4 4 22
5 3 25
6 2 27
7 1 28
r = n +1
( )
× 0,5 = 292 = 14,5
La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15
x
14= x
15= 5 ⇒ M = 5
👈
medianar = n +1
( )
× 0,5 = 292 = 14,5
La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15
x
14= x
15= 3 ⇒ M = 3
mediana
👉
In entrambi i casi: media - mediana =0!
Simmetria
Asimmetria: A = max− M
( )
− M − min( )
Introduciamo come indice di asimmetria la quantità A così definita
Dove max individua il valore massimo della modalità e min quello minimo
Simmetria
Asimmetria: A = max− M
( )
− M − min( )
Introduciamo come indice di asimmetria la quantità A così definita
Modalità Frequenza Frequenza cumulata
1 1 1
2 2 3
3 3 6
4 4 10
5 5 15
6 6 21
7 7 28
A = 7 − 5
( )
− 5 −1( )
= −2asimmetria negativa
Dove max individua il valore massimo della modalità e min quello minimo
Simmetria
Asimmetria: A = max− M
( )
− M − min( )
Introduciamo come indice di asimmetria la quantità A così definita
Modalità Frequenza Frequenza cumulata
1 1 1
2 2 3
3 3 6
4 4 10
5 5 15
6 6 21
7 7 28
A = 7 − 5
( )
− 5 −1( )
= −2asimmetria negativa
Dove max individua il valore massimo della modalità e min quello minimo
Modalità Frequenza Frequenza cumulata
1 7 7
2 6 13
3 5 18
4 4 22
5 3 25
6 2 27
7 1 28
A = 7 − 3
( )
− 3−1( )
= 2asimmetria positiva
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
Il primo quartile può appartenere al campione casuale oppure no.
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
Il primo quartile può appartenere al campione casuale oppure no.
Mostriamo con un esempio come si determina Esempio. L’età per un campione di 5 studenti è
1° passo: Il campione va ordinato:
19,20,21,22,25
21,25,19,20,22
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
Il primo quartile può appartenere al campione casuale oppure no.
Mostriamo con un esempio come si determina Esempio. L’età per un campione di 5 studenti è
1° passo: Il campione va ordinato:
Dunque il primo quartile
19,20,21,22,25
21,25,19,20,22
Q1
si colloca fra l’elemento di posizione 1 e quello posizione 2.2° passo: Determinare il rango (la posizione) per il primo quartile:
(n +1) × 0,25 = 1,5
.
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
Il primo quartile può appartenere al campione casuale oppure no.
Mostriamo con un esempio come si determina Esempio. L’età per un campione di 5 studenti è
1° passo: Il campione va ordinato:
Dunque il primo quartile
19,20,21,22,25
21,25,19,20,22
Q1
si colloca fra l’elemento di posizione 1 e quello posizione 2.2° passo: Determinare il rango (la posizione) per il primo quartile:
(n +1) × 0,25 = 1,5
.
I decimali nel numero trovato mi servono per stabilire l'esatto valore del primo quartile come stabilito nel...
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
Il primo quartile può appartenere al campione casuale oppure no.
Mostriamo con un esempio come si determina Esempio. L’età per un campione di 5 studenti è
1° passo: Il campione va ordinato:
Dunque il primo quartile
19,20,21,22,25
21,25,19,20,22
Q1
si colloca fra l’elemento di posizione 1 e quello posizione 2.19, Q1 ,20,21,22,25 👉 Q1 = 19 + 20 −19 (
.) × 0,5 = 19,5
2° passo: Determinare il rango (la posizione) per il primo quartile:
(n +1) × 0,25 = 1,5
.
I decimali nel numero trovato mi servono per stabilire l'esatto valore del primo quartile come stabilito nel...
3° passo:
1,5 - 1
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
Il primo quartile può appartenere al campione casuale oppure no.
.
.
. Vediamo un altro esempio.
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
Il primo quartile può appartenere al campione casuale oppure no.
.
. Esempio. L’altezza di 4 giocatori di basket è
186,189,190,185
. In questo caso il primo quartile è
185, Q1 ,186,189,190
Determinare il rango per il primo quartile:
(
n +1)
× 0,25 = 1,25Q1 = 185 × 186 −185 ( ) × 0,25 = 185,25
.
Q1 = 185 × 186 −185 ( ) × 0,25 = 185,25
Vediamo un altro esempio.
185, ( n +1 Q1 ,186,189,190 ) × 0,25 = 1,25
Quartili
Il terzo quartile è quel valore che lascia a sinistra il 75% dei dati.
Il terzo quartile può appartenere al campione casuale oppure no.
.
Quartili
Il terzo quartile è quel valore che lascia a sinistra il 75% dei dati.
Il terzo quartile può appartenere al campione casuale oppure no.
Esempio. L’età per un campione di 5 studenti è Il campione va ordinato:
Determinare il rango per il terzo quartile:
(
n +1)
× 0,75 = 4,5 Il terzo quartile19,20,21,22,25
21,25,19,20,22
.Q3
si colloca fra l’elemento di posizione 4 e quello diposizione 5
👉 19,20,21,22, Q3 ,25 👉 Q3 = 22 + 25 − 22 (
.) × 0,5 = 23,5
.Quartili
Il terzo quartile è quel valore che lascia a sinistra il 75% dei dati.
Il terzo quartile può appartenere al campione casuale oppure no.
Esempio. L’età per un campione di 5 studenti è Il campione va ordinato:
Determinare il rango per il terzo quartile:
(
n +1)
× 0,75 = 4,5 Il terzo quartile19,20,21,22,25
21,25,19,20,22
.Q3
si colloca fra l’elemento di posizione 4 e quello diposizione 5
👉 19,20,21,22, Q3 ,25 👉 Q3 = 22 + 25 − 22 (
.) × 0,5 = 23,5
.Esempio. L’altezza di 4 giocatori di basket è
186,189,190,185
. In questo caso il terzo quartile è185,186,189, Q3 ,190
Determinare il rango per il terzo quartile:
(
n +1)
× 0,75 = 3,75Q3 = 189 + 190 −189 ( ) × 0,75 = 189, 75
.Box-plot
Box-plot
Il Box-plot (o diagramma a scatola e baffi) è un diagramma che fornisce una rappresentazione grafica della distribuzione dei dati, evidenziando dove cade la maggioranza dei valori, e di quei valori che differiscono di parecchio dalla norma, cosiddetti dati anomali.
Box-plot
Il Box-plot (o diagramma a scatola e baffi) è un diagramma che fornisce una rappresentazione grafica della distribuzione dei dati, evidenziando dove cade la maggioranza dei valori, e di quei valori che differiscono di parecchio dalla norma, cosiddetti dati anomali.
I capisaldi nella rappresentazione di un box-plot sono
Box-plot
Il Box-plot (o diagramma a scatola e baffi) è un diagramma che fornisce una rappresentazione grafica della distribuzione dei dati, evidenziando dove cade la maggioranza dei valori, e di quei valori che differiscono di parecchio dalla norma, cosiddetti dati anomali.
• Q0 = min( )
• Q1 = 1° quartile
• Q2 = mediana o 2° quartile
• Q3 = 3° quartile;
• Q4 = max( )
IQR = Q3 - Q1 = campo di variazione interquartile I capisaldi nella rappresentazione di un box-plot sono
x
1, x
2, …, x
nx
1, x
2, …, x
nBox-plot
Il Box-plot (o diagramma a scatola e baffi) è un diagramma che fornisce una rappresentazione grafica della distribuzione dei dati, evidenziando dove cade la maggioranza dei valori, e di quei valori che differiscono di parecchio dalla norma, cosiddetti dati anomali.
• Q0 = min( )
• Q1 = 1° quartile
• Q2 = mediana o 2° quartile
• Q3 = 3° quartile;
• Q4 = max( )
IQR = Q3 - Q1 = campo di variazione interquartile I capisaldi nella rappresentazione di un box-plot sono
x
1, x
2, …, x
nx
1, x
2, …, x
nIQR = Q3 - Q1 = campo di variazione interquartile Introduciamo infine il numero
Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Primo quartile:
(
30 +1)
× 0,25 = 7,75 Si colloca fra le posizioni 7 e 8Il suo valore è fra
14,2
e15
14,2 + 15 −14,2 ( ) × 0,75 = 14,8
ed è pari a.Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Mediana:
(
30 +1)
× 0,5 = 15,5Si colloca fra le posizioni 15 e 16 Punto medio fra
ossia
18, 3
e18, 3 18, 3
.Primo quartile:
(
30 +1)
× 0,25 = 7,75 Si colloca fra le posizioni 7 e 8Il suo valore è fra
14,2
e15
14,2 + 15 −14,2 ( ) × 0,75 = 14,8
ed è pari a.Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Mediana:
(
30 +1)
× 0,5 = 15,5Si colloca fra le posizioni 15 e 16 Punto medio fra
ossia
Terzo quartile:
(
30 +1)
× 0,75 = 23,25 Si colloca fra le posizioni 23 e 24Il suo valore è fra
18, 3
e18, 3 18, 3
.21, 4 + 23− 21,4 ( 21, 4 23
e) × 0,25 = 21,8
. ed è pari a Primo quartile:
(
30 +1)
× 0,25 = 7,75 Si colloca fra le posizioni 7 e 8Il suo valore è fra
14,2
e15
14,2 + 15 −14,2 ( ) × 0,75 = 14,8
ed è pari a.Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Mediana:
(
30 +1)
× 0,5 = 15,5Si colloca fra le posizioni 15 e 16 Punto medio fra
ossia
Terzo quartile:
(
30 +1)
× 0,75 = 23,25 Si colloca fra le posizioni 23 e 24Il suo valore è fra
18, 3
e18, 3 18, 3
.21, 4 + 23− 21,4 ( 21, 4 23
e) × 0,25 = 21,8
.
Box plot ore di studio
10 30 25 20 15 ed è pari a
Primo quartile:
(
30 +1)
× 0,25 = 7,75 Si colloca fra le posizioni 7 e 8Il suo valore è fra
14,2
e15
14,2 + 15 −14,2 ( ) × 0,75 = 14,8
ed è pari a.Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Mediana:
(
30 +1)
× 0,5 = 15,5Si colloca fra le posizioni 15 e 16 Punto medio fra
ossia
Terzo quartile:
(
30 +1)
× 0,75 = 23,25 Si colloca fra le posizioni 23 e 24Il suo valore è fra
18, 3
e18, 3 18, 3
.21, 4 + 23− 21,4 ( 21, 4 23
e) × 0,25 = 21,8
.
Box plot ore di studio
10 30 25 20
15 • Q1 ed è pari a
Primo quartile:
(
30 +1)
× 0,25 = 7,75 Si colloca fra le posizioni 7 e 8Il suo valore è fra
14,2
e15
14,2 + 15 −14,2 ( ) × 0,75 = 14,8
ed è pari a.Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Mediana:
(
30 +1)
× 0,5 = 15,5Si colloca fra le posizioni 15 e 16 Punto medio fra
ossia
Terzo quartile:
(
30 +1)
× 0,75 = 23,25 Si colloca fra le posizioni 23 e 24Il suo valore è fra
18, 3
e18, 3 18, 3
.21, 4 + 23− 21,4 ( 21, 4 23
e) × 0,25 = 21,8
.
Box plot ore di studio
10 30 25 20 15
• Q2
ed è pari a Primo quartile:
(
30 +1)
× 0,25 = 7,75 Si colloca fra le posizioni 7 e 8Il suo valore è fra
14,2
e15
14,2 + 15 −14,2 ( ) × 0,75 = 14,8
ed è pari a.Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Mediana:
(
30 +1)
× 0,5 = 15,5Si colloca fra le posizioni 15 e 16 Punto medio fra
ossia
Terzo quartile:
(
30 +1)
× 0,75 = 23,25 Si colloca fra le posizioni 23 e 24Il suo valore è fra
18, 3
e18, 3 18, 3
.21, 4 + 23− 21,4 ( 21, 4 23
e) × 0,25 = 21,8
.
Box plot ore di studio
10 30 25 20 15 ed è pari a
• Q3 Primo quartile:
(
30 +1)
× 0,25 = 7,75Si colloca fra le posizioni 7 e 8 Il suo valore è fra
14,2
e15
14,2 + 15 −14,2 ( ) × 0,75 = 14,8
ed è pari a.Dopo aver disegnato la "scatola" ora disegnamo i "baffi"
La lunghezza di ciascun baffo "non supera" il valore convenzionale
1,5 × Q3− Q1 ( )
Q3
− Q1 = 7
quindi1,5 × 7 = 10,5
Si confronta il valore del minimo con il valoreQ1−10,5 = 14,6 −10,5 = 4,1
Poiché
min = 10,3 > 4,1
allora il baffo inferiore è collocato in corrispondenza del minimo.Box-plot
Box plot ore di studio
10 30 25 20 15 e se ne prende il più grande.
Dopo aver disegnato la "scatola" ora disegnamo i "baffi"
La lunghezza di ciascun baffo "non supera" il valore convenzionale
1,5 × Q3− Q1 ( )
Q3
− Q1 = 7
quindi1,5 × 7 = 10,5
Si confronta il valore del massimo con il valore
Q3+10,5 = 22,6 +10,5 = 33,1
Poiché
max = 33,8 > 33,1
allorail baffo superiore è collocato in corrispondenza di 33,1 .
Box-plot
Box plot ore di studio
10 30 25 20 15 e se ne prende il più piccolo.
Un valore del campione casuale “troppo distante” dal resto del campione casuale si dice outlier o valore anomalo. Più precisamente un outlier è un dato che si trova al di sopra del baffo superiore o al di sotto del baffo inferiore del box-plot
Poiché max = 33,8 > 33,1
allora 33,8 è un outlier. Esso si
Box-plot
Box plot ore di studio
10 30 25 20
disegna con un punto.
15Box-plot
Box plot ore di studio
10 30 25 20 15
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Dataset ore di studio