5
Indici di variabilità
La variabilità
Abbiamo già detto che, per un dato insieme di osservazioni, ci sono diverse caratteristiche che potremmo voler sintetizzare e abbiamo visto che una di queste, la più intuitiva, è la loro media, intesa in senso lato come un valore che sia in qualche modo il rappresentante dell’intera serie di osservazioni.
La variabilità
E’ ovvio, però, che sintetizzare con una media una serie di osservazioni descrive il fenomeno solo in parte.
Ricordando il concetto di «baricentro» di una distribuzione di frequenze, capiamo che l’informazione contenuta in una media si riferisce solamente a «dove la distribuzione è localizzata».
La variabilità
BARICENTRO
Le due distribuzioni sono «centrate» su valori differenti
La variabilità
A parità di media, le distribuzioni possono essere molto differenti tra loro.
Ricordiamo un altro grafico che avevamo esaminato parlando di distribuzioni di frequenze.
La variabilità
VARIABILITÀ
Una delle due distribuzioni
assume una gamma di valori più ampia
La variabilità
La variabilità (per i caratteri qualitativi si parla più propriamente di eterogeneità) è l’attitudine di un carattere ad assumere valori differenti tra loro (modalità differenti, se il carattere è qualitativo).
La variabilità
Si considerino ad esempio le distribuzioni secondo le certificazioni (IGT, DOC, DOCG) dei vini venduti da parte di due enoteche
Enoteca 1 fi %
IGT 15%
DOC 74%
DOCG 11%
Enoteca 2 fi %
IGT 27%
DOC 38%
DOCG 35%
La variabilità
Se sintetizziamo le due distribuzioni attraverso una media (in questo caso l’unica possibile è la moda) troviamo che esse hanno la stessa moda.
Enoteca 1 fi %
IGT 15%
DOC 74%
DOCG 11%
Enoteca 2 fi %
IGT 27%
DOC 38%
DOCG 35%
La variabilità
Se rappresentiamo i grafici a barre delle due distribuzioni ci rendiamo conto che, a parità di moda, la prima è più concentrata sulla moda, quindi è meno eterogenea.
La variabilità
Quando abbiamo parlato della moda avevamo detto che è opportuno calcolare anche la sua rappresentatività.
La variabilità
Il concetto di rappresentatività della moda è collegato con l’eterogeneità della distribuzione di frequenze.
La variabilità
Tuttavia, per descrivere adeguatamente la diversità di eterogeneità delle due distribuzioni abbiamo bisogno di un indice statistico (indice di eterogeneità).
La variabilità
Un altro esempio riguarda due aziende proprietarie di terreni coltivati a vite. Le tabelle riportano le estensioni (in ha) dei terreni posseduti.
Azienda 1
terreno 1 4
terreno 2 3
terreno 3 4.2
terreno 4 2.8
Azienda 2
terreno 1 7
terreno 2 6.5
terreno 3 0.3
terreno 4 0.2
La variabilità
Se calcoliamo l’estensione media dei terreni posseduti dalle due aziende scopriamo che le medie aritmetiche sono uguali (M=3.5).
Azienda 2
terreno 1 7
terreno 2 6.5
terreno 3 0.3
terreno 4 0.2
Azienda 1
terreno 1 4
terreno 2 3
terreno 3 4.2
terreno 4 2.8
La variabilità
Anche in questo caso un semplice grafico ci mostra la diversità delle due situazioni.
media
La variabilità
Anche in questo caso un semplice grafico ci mostra la diversità delle due situazioni.
media
La variabilità
Le due situazioni descritte hanno la stessa media, e questo ci informa sull’ordine di grandezza dei fenomeni, ma la variabilità dei valori attorno alla media è molto diversa.
Abbiamo bisogno di un indice di variabilità che descriva la differenza tra queste due situazioni.
La variabilità
Abbiamo vari tipi di indici di variabilità:
• indici di eterogeneità: si calcolano sulla base delle frequenze e si utilizzano prevalentemente per i caratteri qualitativi
• intervalli di variazione: sono basati sulla differenza tra valori che occupano una certa posizione nella distribuzione (caratteri quantitativi)
• scostamenti medi: sono basati sulla differenza tra i valori e una media (caratteri quantitativi)
Indici di eterogenità
L’eterogenità è un concetto che fa riferimento alla distribuzione di frequenze e quindi è particolarmente adatto per i caratteri qualitativi.
Per comprendere meglio questo concetto esaminiamo i casi limite di minima eterogeneità (massima omogeneità) e massima eterogenità.
Indici di eterogenità
Modalità ni
IGT 300
DOC 300
DOCG 300
Modalità ni
IGT 900
DOC 0
DOCG 0
massima omogeneità massima eterogeneità
Torniamo all’esempio delle due enoteche.
La distribuzione reale si colloca in un punto intermedio tra questi due casi limite.
Indice di eterogenità di Gini
L’indice di eterogenità di Gini si calcola sulla base delle frequenze relative.
E’ compreso tra 0 (minima eterogeneità) e 1 (massima eterogeneità).
−
= − ∑
= k
1 i
2
fi
1 1 k
G k
k = numero di modalità
Indice di entropia di Shannon
Anche l’indice di entropia di Shannon si calcola sulla base delle frequenze relative.
E’ compreso tra 0 (minima eterogeneità) e 1 (massima eterogeneità).
k = numero di modalità
( ) ( )k
ln
f ln f
E
i k
1 i
∑ i
− =
=
Indici di eterogenità
Calcoliamo gli indici di eterogeneità per l’esempio delle due enoteche.
Enoteca 1 fi %
IGT 15%
DOC 74%
DOCG 11%
Enoteca 2 fi %
IGT 27%
DOC 38%
DOCG 35%
Indici di eterogenità
Enoteca 1
fi % fi fi2 ln(fi) fi∙ln(fi) IGT 15% 0.15 0.0225 -1.8971 -0.2846 DOC 74% 0.74 0.5476 -0.3011 -0.2228 DOCG 11% 0.11 0.0121 -2.2073 -0.2428 Totale 100% 1 0.5822 -4.4055-0.7502
[1 0.5822] 0.63 2
f 3 1 1
k G k
k
1 i
2
i = − =
−
= − ∑
=
Indici di eterogenità
Enoteca 1
fi % fi fi2 ln(fi) fi∙ln(fi) IGT 15% 0.15 0.0225 -1.8971 -0.2846 DOC 74% 0.74 0.5476 -0.3011 -0.2228 DOCG 11% 0.11 0.0121 -2.2073 -0.2428 Totale 100% 1 0.5822 -4.4055-0.7502
( )
( ) ln(3) 0.68
7502 .
0 k
ln
f ln f E
i k
1 i
i
− =
−
=
−
=
∑
=
Indici di eterogenità
Enoteca 2
fi % fi fi2 ln(fi) fi∙ln(fi) IGT 27% 0.27 0.0729 -1.3093 -0.3535 DOC 38% 0.38 0.1444 -0.9676 -0.3677 DOCG 35% 0.35 0.1225 -1.0498 -0.3674 Totale 100% 1 0.3398 -3.3267-1.0886
[1 0.3398] 0.99 2
f 3 1 1
k G k
k
1 i
2
i = − =
−
= − ∑
=
Indici di eterogenità
Enoteca 2
fi % fi fi2 ln(fi) fi∙ln(fi) IGT 27% 0.27 0.0729 -1.3093 -0.3535 DOC 38% 0.38 0.1444 -0.9676 -0.3677 DOCG 35% 0.35 0.1225 -1.0498 -0.3674 Totale 100% 1 0.3398 -3.3267-1.0886
( )
( ) ln(3) 0.99
0886 .
1 k
ln
f ln f E
i k
1 i
i
− =
−
=
−
=
∑
=
Indici di eterogenità
Calcoliamo gli indici di eterogeneità per l’esempio delle due enoteche.
Enoteca 1 fi %
IGT 15%
DOC 74%
DOCG 11%
G 0.63 E 0.68
Enoteca 2 fi %
IGT 27%
DOC 38%
DOCG 35%
G 0.99 E 0.99
Intervalli di variazione
Gli intervalli di variazione sono indici basati sulla differenza tra valori che occupano una certa posizione nella distribuzione.
Si possono calcolare solo se il carattere è quantitativo.
Campo di variazione
Campo di variazione (detto anche range): differenza tra il valore massimo e il valore minimo
Azienda 1
terreno 1 4
terreno 2 3
terreno 3 4.2
terreno 4 2.8
Range 1.4
Azienda 2
terreno 1 7
terreno 2 6.5
terreno 3 0.3
terreno 4 0.2
Range 6.8
Campo di variazione
Attenzione al caso in cui i dati siano forniti sotto forma di distribuzione di frequenze!!
Numero di trattori
posseduti dall'azienda ni
1 - 5 10
6 - 9 35
10 - 15 13
16 - 19 4
Totale aziende 62
Differenza interquartile
Ricordiamo che i quartili sono una generalizzazione del concetto di mediana.
In particolare, sono i 3 valori Q1, Q2, Q3 che dividono la successione ordinata dei valori in 4 gruppi di uguale numerosità.
Differenza interquartile
Differenza interquartile: differenza tra il terzo e il primo quartile della distribuzione
indica l’ampiezza dell’intervallo centrale che contiene il 50% dei valori della distribuzione.
1 3
Q ,
Q Q Q
D 3 1 = −
Differenza interdecile
Ricordiamo che i decili sono una generalizzazione del concetto di mediana.
In particolare, sono i 9 valori D1, ..., D9 che dividono la successione ordinata dei valori in 10 gruppi di uguale numerosità.
Differenza interdecile
Differenza interdecile: differenza tra il nono e il primo decile della distribuzione
indica l’ampiezza dell’intervallo centrale che contiene l’80% dei valori della distribuzione.
1 9
D ,
D D D
D 9 1 = −
Differenza interdecile
Differenza interdecile: si possono calcolare anche differenze tra decili diversi, (purchè simmetrici)
indica l’ampiezza dell’intervallo centrale che contiene il 60% dei valori della distribuzione.
2 8
D ,
D D D
D 8 2 = −
Differenza interdecile
Vediamo alcuni esempi alla lavagna
Prezzo ni
1 |− 3 € 37
3 |− 5 € 100
5 |− 7 € 62
7 |− 9 € 39
9 |− 11 € 15
11 |− 13 € 14
13 |− 15 € 12
15 |− 17 € 3
17 |− 19 € 1
Totale 283