∆ ∆
Unità 5
Gli indici di variabilità e forma
∆
Requisiti di un indice di variabilità
• Gli indici di variabilità devono soddisfare alcuni requisiti necessari:
1. Devono assumere un valore non negativo 2. Devono assumere un valore nullo quando la
distribuzione è costante, ovvero tutte le
osservazioni sono uguali tra loro (in tal caso si parla di variabile degenere)
3. Aggiungendo una costante a una variabile, l’indice di variabilità non deve cambiare
STATISTICA - Università di Salerno 2
∆
La variabilità:
esempio voti esami• Distribuzioni statistiche molto diverse possono presentare la stessa posizione.
STATISTICA - Università di Salerno
A 22 22 23 23 24 25 26 27 27 28 28 B 22 22 22 22 22 25 28 28 28 28 28 C 25 25 25 25 25 25 25 25 25 25 25
= 25 x
A= 25 x
B= 25 x
C3
∆
La variabilità:
esempio• Distribuzioni statistiche molto diverse possono presentare la stessa posizione.
STATISTICA - Università di Salerno 4
∆
La variabilità
• La variabilità è l’attitudine di un fenomeno ad assumere differenti modalità.
• Distinguiamo le misure di variabilità in quattro classi:
A. variabilità rispetto ad una posizione (media, mediana) B. variabilità delle modalità ordinate
C. variabilità reciproca (mutua) tra tutte le modalità di un carattere considerate due a due.
D. variabilità delle frequenze
STATISTICA - Università di Salerno 5
∆
Varianza: serie di dati
STATISTICA - Università di Salerno
= Media degli
scarti al quadrato
La varianza è un indice di variabilità appartenente alla categoria A. Essa può essere calcolata soltanto per caratteri quantitativi.
( )
∑
=
− −
=
ni
i
x
n x s
1 2 2
1 1
N.B.: la formula e il simbolo cambiano a seconda che si lavori sul campione (statistica) o sulla popolazione (parametro)
( )
∑
=
−
=
Ni
i
x
N
1x
2
1
2σ
6
∆
Varianza:
esempio• Distribuzioni statistiche molto diverse possono presentare la stessa posizione.
STATISTICA - Università di Salerno
A 22 22 23 23 24 25 26 27 27 28 28 B 22 22 22 22 22 25 28 28 28 28 28 C 25 25 25 25 25 25 25 25 25 25 25
2
4.91
σ
A=
2
8.18
σ
B=
2
0.0 σ
C=
= 25 x
A= 25 x
B= 25 x
C7
∆
Varianza: proprietà (1)
STATISTICA - Università di Salerno
Variabilità nulla
2
0
σ = Variabilità massima
x x
x
x
1=
2= L =
N=
x N x
x x
x
N
N
=
=
=
=
=
2 −10
1
L
( 1 )
2
2
= x N −
σ
( 1 )
0 ≤ σ
2≤ x
2N −
8
∆
Varianza: proprietà (2)
STATISTICA - Università di Salerno
Y = ⋅ b X σ
Y2= ⋅ b
2σ
X2Y = + a X σ
Y2= σ
X2Y = + ⋅ a b X σ
Y2= ⋅ b
2σ
X22 2
2
= µ − x
σ ∑
=
=
Ni
x
idove N
1 2 2
µ 1
9
∆
Varianza: distribuzioni di frequenza
STATISTICA - Università di Salerno
Distribuzioni di frequenza
(N.B.: formula per campione)
Distribuzioni di frequenza con dati raggruppati in classi
(N.B.: formula per campione)
( )
∑
=
− −
=
ki
i
i
x n
n x s
1 2 2
1 1
( )
∑
=
− −
=
ki
i
i
x n
n c s
1 2 2
1 1
10
∆
Varianza: distribuzioni di frequenza
STATISTICA - Università di Salerno
1 2 k
N = + + n n L + n
X n
ix
1n
1x
2n
2… …
x
kn
kN
(x
i- )
2· n
i(x
1- )
2· n
1(x
2- )
2· n
2…
(x
k- )
2· n
k( )
∑
=
−
=
ki
i
i
x n
N
1x
2
1
2σ
x x x
x ∑ ( )
= k
−
i
i
i
x n
x
1
2
11
∆
Deviazione Standard
STATISTICA - Università di Salerno
Una difficoltà nell’interpretazione della varianza è che essa viene espressa nella unità di misura del fenomeno al quadrato.
Per ovviare a questo inconveniente si può utilizzare lo Scarto Quadratico Medio o Deviazione Standard
2 2
oppure s = s
= σ σ
12
∆
Esempio
STATISTICA - Università di Salerno
Paese GNI ($ correnti)
Nicaragua 420
Honduras 850
Guatemala 1690
El Salvador 1990
Panama 3260
Costa Rica 3960
Mexico 5080
Canada 21050
United States 34260
63 , 247 .
= 1
σ
56 , 013 .
= 11
Tutti
σ
13
∆
Campo di variazione o range
• Questo indice di variabilità appartiene alla categoria B.
• È un indice di variabilità poco attendibile perché non robusto
STATISTICA - Università di Salerno
Min Max
Range = −
14
∆
Differenza tra quartili
• Questo indice di variabilità appartiene alla categoria B.
• Esso misura la variabilità del 50% dei dati centrali
• È quindi un indice di variabilità robusto
STATISTICA - Università di Salerno
1
3
Q
Q
DI = −
15
∆
Indici di variabilità: il coefficiente di variazione
• Un indice indipendente dall’unità di misura è il coefficiente di variazione
CV = σ x
16
∆
Coefficiente di variazione:
esempioA 22 22 23 23 24 25 26 27 27 28 28 B 22 22 22 22 22 25 28 28 28 28 28 C 25 25 25 25 25 25 25 25 25 25 25
A
2.22
σ =
B
2.86
σ =
C
0.0
σ =
A
0.09 CV =
B
0.11 CV =
C
0.0 CV =
17
∆
Limitazioni del CV
• Non è definito per fenomeni con media nulla.
• Perde di significato per fenomeni con media molto piccola e prossima a zero.
18
∆
Scostamento semplice mediano
• Se l’indice di posizione scelto è la
mediana, la dispersione del fenomeno intorno a questa posizione viene
misurata dallo scostamento semplice mediano:
( ) = ∑ −
= N
i
x
iMe Me N
S
1
1
19
∆
Scostamento semplice medio
• Un altro indice appartenente alla categoria A. è basato sugli scarti assoluti dalla media
• Si dimostra che:
( ) ∑
=
−
=
Ni
i
x
N x x
S
1
1
STATISTICA - cdl in SAO e SPRI -
Università di Salerno 20
( ) ( ) Me ≤ S x ≤ σ
S
∆
Riepilogo sugli indici statistici
• Riassumono alcune caratteristiche delle distribuzioni di frequenza consentendo il confronto tra diverse distribuzioni.
• Possono calcolarsi basandosi solo sulle frequenze oppure anche sulle modalità del carattere.
• Qualora l’indice coinvolga anche le modalità del carattere, quest’ultimo deve essere
necessariamente quantitativo.
STATISTICA - Università di Salerno 21
∆
Tipi di indici
• Indici assoluti.
• Indici relativi.
• Indici normalizzati
22
∆
Indici assoluti
• Sono misure che variano liberamente tra un minimo ed un massimo, anche infiniti.
• L’intervallo di variazione dell’indice dipende dal campo di variazione della variabile in esame.
• Sono espressi nella stessa unità di misura del fenomeno oggetto di studio.
• Esempi:
– Media
– Deviazione standard
– ………
23
∆
Indici relativi
• Sono misure svincolate dall’unità di misura
• Sono ottenuti:
– rapportando due indici assoluti
– rapportando un indice assoluto al suo massimo
• Sono “numeri puri” e sono utili per confrontare fenomeni simili.
• Esempi:
– Coefficiente di variazione – …………
24
∆
Indici normalizzati
• Sono particolari indici relativi il cui campo di
variazione è un intervallo finito, generalmente [0, 1] oppure [-1, +1].
• Vengono utilizzati per sintesi e confronto di qualsiasi tipo di fenomeno, misurato anche in unità diverse, purché logicamente confrontabili.
• Esempi:
– Coefficiente di variazione normalizzato – …………
25
∆
Una tecnica di normalizzazione
0 ≤ Φ ≤* 1
( ) ( )
min Φ ≤ Φ ≤ max Φ
Indice compreso tra un minimo ed un massimo
( ) ( ) ( )
* Min
Max Min Φ − Φ
Φ = Φ − Φ
Indice normalizzato
26
∆
Aspetti rilevanti distribuzione
• Posizione : è un valore rappresentativo della distribuzione nella sua globalità.
• Variabilità : è l’attitudine di una variabile ad assumere diverse modalità.
• Forma : è l’aspetto complessivo di una
distribuzione rispetto a configurazioni standard
– simmetria
– grado di appiattimento (curtosi).
STATISTICA - Università di Salerno 27
∆
Forma di una distribuzione
• Due distribuzioni possono avere stessa posizione e variabilità ma differire per il peso, l’importanza, dei valori più grandi o più piccoli, rispetto al valore
centrale, a causa di un comportamento
differenziato nelle due “code” della distribuzione.
STATISTICA - Università di Salerno 28
∆
Simmetria
• Una distribuzione è simmetrica, rispetto ad un dato valore, se presenta un comportamento
speculare rispetto ad un asse passante per tale valore.
STATISTICA - Università di Salerno 29
∆
Esempio (1)
STATISTICA - Università di Salerno 30
∆
Esempio (2)
STATISTICA - Università di Salerno 31
∆
Esempio: Asimmetria positiva
STATISTICA - Università di Salerno 32
∆
Esempio: Asimmetria negativa
STATISTICA - Università di Salerno 33
∆
Commento (1)
• Distribuzione simmetrica: media = mediana.
STATISTICA - Università di Salerno
Me x =
34
∆
Commento (2)
• Asimmetrica positiva: mediana < media
STATISTICA - Università di Salerno
Me x >
35
∆
Commento (3)
• Asimmetrica negativa: mediana > media
STATISTICA - Università di Salerno
Me x <
36
∆
Distribuzione simm. unimodale
STATISTICA - Università di Salerno
Mo Me
x = =
37
∆
Commento (2)
• In una distribuzione unimodale valgono le seguenti relazioni:
– Media = Mediana = Moda (simmetria)
– Moda < Mediana < Media (asimmetria +) – Media < Mediana < Moda (asimmetria -)
STATISTICA - Università di Salerno 38
∆
Indici di asimmetria
• Un indice di asimmetria misura la presenza di asimmetria in una distribuzione. E’ logico
aspettarsi che tale indice sia:
– Nullo quando la distribuzione è simmetrica – Negativo quando vi è asimmetria negativa – Positivo quando vi è asimmetria positiva
STATISTICA - Università di Salerno 39
∆
Misure di asimmetria (1)
STATISTICA - Università di Salerno
s
0
A >
Asimmetria positivas
0
A <
Asimmetria negativas
0
A =
SimmetriaMe x
A
s= −
40
∆
Misure di asimmetria (2)
1 1 ≤
*≤
− A
s* > 0 As
*
= 0 A
sSTATISTICA - Università di Salerno
Asimmetria positiva
Asimmetria negativa Simmetria
* < 0 As
σ
Me
A
s*= x −
∆
Misure di asimmetria (3)
( ) ( )
(
33 22) (
22 11)
R
Q Q Q Q
A Q Q Q Q
− − −
= − + −
STATISTICA - Università di Salerno
R
0
A >
Asimmetria positivaR
0
A <
Asimmetria negativaR
0
A =
SimmetriaIndice di Yule e Bowley
42
∆
Misure di asimmetria (4)
• Questo indice è
– positivo, nel caso di asimmetria positiva – negativo, nel caso di asimmetria negativa – nullo, per distribuzioni simmetriche
STATISTICA - Università di Salerno
Indice di Fisher
∑
=
−
=
Ni
i
x
x N
13 1
1 γ σ
43
∆
Formule per distribuzioni…
STATISTICA - Università di Salerno
Distribuzioni di frequenza
Distribuzioni di frequenza in classi di modalità
∑
=
−
=
ki
i
i
x n
x N
13 1
1 γ σ
∑
=
−
≅
ki
i
i
x n
c N
13 1
1 γ σ
44
∆
Curtosi
• Due distribuzioni che hanno approssimativamente stessa media, varianza e indice di asimmetria, possono ancora differire per la diversa “pesantezza” delle due code.
• È quindi necessario tener conto di un ulteriore aspetto della distribuzione, legato al concetto di curtosi
• Per curtosi si intende il maggiore o minore appuntimento e, conseguentemente, il peso più o meno marcato delle code rispetto alla parte centrale della distribuzione
.STATISTICA - Università di Salerno 45
∆
Misure di curtosi
• Se l’indice di curtosi di Fisher risulta
– positivo, si parla di distribuzione leptocurtica – negativo, si parla di sitribuzione platicurtica – nullo, si parla di distribuzione mesocurtica.
STATISTICA - Università di Salerno
Indice di Fisher
1 3
1
4
2
−
−
= ∑
= k
i
i
i
x n
x
N σ
γ
46