Statistica
Antonio Azzollini
antonio.azzollini@unibas.it
Anno accademico 2018/2019
Dipartimento di Matematica, Informatica ed Economia (DiMIE) Dipartimento di Matematica, Informatica ed Economia (DiMIE)
Distribuzione del carattere
Come si definisce e si valuta un indice di concentrazione?
Distribuzione del carattere
1, 4,2, 3
Come si definisce e si valuta un indice di concentrazione?
Consideriamo la distribuzione . Il primo passo consiste nel
mettere in ordine la distribuzione: x 1, 4,2, 3
(1)1, 4,2, 3 1, 4,2, 3 x ≤ x
(1) (2)≤ x x
(1)≤! ≤ x
(2)1, 4,2, 3 ≤ x ≤! ≤ x
(2). ≤! ≤ x
(n) (n) (n)Distribuzione del carattere
1, 4,2, 3
Come si definisce e si valuta un indice di concentrazione?
Consideriamo la distribuzione . Il primo passo consiste nel mettere in ordine la distribuzione: 1, 4,2, 3
Successivamente, poniamo A A
11= 1, A = 1, A A
1 2= 1, A
2= 3, A = 3, A 1, 4,2, 3 1, 4,2, 3 1, 4,2, 3
+ =2A A = 3, A
1133= 1, A = 1, A = 6, = 6,
3A A
221, 4,2, 3 = 6,
441, 4,2, 3 = 3, A = 3, A 1, 4,2, 3 = 10 = 10
+ +A
4 33= 10 = 6, = 6, A A
44= 10 = 10 . x
(1)≤ x
(2)≤! ≤ x
(n)x
(1)≤ x
(2)≤! ≤ x
(n)x 1, 4,2, 3
(1)1, 4,2, 3 ≤ x
(2)≤! ≤ x 1, 4,2, 3 .
(n)Distribuzione del carattere
1, 4,2, 3
Come si definisce e si valuta un indice di concentrazione?
Consideriamo la distribuzione . Il primo passo consiste nel mettere in ordine la distribuzione: 1, 4,2, 3
Successivamente, poniamo
Si osservi che l'ultima quantità introdotta corrisponde all'ammontare del carattere.
Poniamo A
1= 1, A
2= 3, A
3= 6, A
4= 10 Q
1= 1
10 , Q
2= 3
10 , Q
3= 3
5 , Q
4= 1 Q
1= 1
10 , Q
2= 3
10 , Q
3= 3
5 , Q
4= 1 Q
1= 1
10 , Q
2= 3
10 , Q
3= 3
5 , Q
4= 1
A
1= 1, A
2= 3, A
3= 6, A
1= 1, A / A
4= 10
2= 3, A A Q
1 1= 1, A =
3= 6, 1
2/ = 3, A A
4= 10
3= 6, A
4= 10 10 , Q
2= 3
10 , Q
3= 3
5 , Q
4= 1
ed in analogia .
x
(1)≤ x
(2)≤! ≤ x
(n)A A
11= 1, A = 1, A A
1 2= 1, A
2= 3, A = 3, A 1, 4,2, 3 1, 4,2, 3 1, 4,2, 3
+ =2A A = 3, A
1133= 1, A = 1, A = 6, = 6,
3A A
221, 4,2, 3 = 6,
441, 4,2, 3 = 3, A = 3, A 1, 4,2, 3 = 10 = 10
+ +A
4 33= 10 = 6, = 6, A A
44= 10 = 10 . x
(1)≤ x
(2)≤! ≤ x
(n)x
(1)≤ x
(2)≤! ≤ x
(n)x 1, 4,2, 3
(1)1, 4,2, 3 ≤ x
(2)≤! ≤ x 1, 4,2, 3 .
(n)Distribuzione del carattere
In generale consideriamo n dati e li ordiniamo: x x x x x
(1)(1)(1)(1)(1)= x = x = x ≤ x = x x
(2)(2)(2)(1)(2)(2)= ! = x ≤ x = ! = x = ! = x ≤! ≤ x = ! = x x
(1)(2)≤ x ≤! ≤ x
(n)(2)(n)(n)(n)(n). ≤! ≤ x = = = = µ µ µ µ
(n) (n)Distribuzione del carattere
In generale consideriamo n dati e li ordiniamo:
x
(1)= x
(2)= ! = x
(n)= µ
x
(1)= x
(2)= ! = x
(n−1)= 0, x
(n)= n µ massima concentrazione si ha se
In una equidistribuzione si ha , mentre la
.
x
(1)= x
(2)= ! = x
(n)= µ x
(1)≤ x
(2)≤! ≤ x
(n)x
(1)= x
(2)= ! = x
(n)= µ
x x
(1)(1)= x = x x
(2)(2)(1)= ! = x ≤ x = ! = x x
(1)(2)≤ x ≤! ≤ x
(2)(n)(n). = ≤! ≤ x = µ µ
(n) (n)Distribuzione del carattere
A
i= x
(1)+ x
(2)+!+ x
(i ) informazione disponibile fino al datoi
-esimo.Informazione totale:
A
n= x
(1)+ x
(2)+!+ x
(n)👉 A
n= n µ
In generale consideriamo n dati e li ordiniamo:
x
(1)= x
(2)= ! = x
(n)= µ
x
(1)= x
(2)= ! = x
(n−1)= 0, x
(n)= n µ
, mentre la
.
.
x
(1)= x
(2)= ! = x
(n)= µ x
(1)≤ x
(2)≤! ≤ x
(n)x
(1)= x
(2)= ! = x
(n)= µ
x x
(1)(1)= x = x x
(2)(2)(1)= ! = x ≤ x = ! = x x
(1)(2)≤ x ≤! ≤ x
(2)(n)(n)≤! ≤ x = = µ µ
(n) (n)massima concentrazione si ha se In una equidistribuzione si ha
.
Distribuzione del carattere
A
i= x
(1)+ x
(2)+!+ x
(i ) informazione disponibile fino al datoi
-esimo.Informazione totale:
A
n= x
(1)+ x
(2)+!+ x
(n)👉 A
n= n µ
Q
i= A
iA
n= x
(1)+ x
(2)+!+ x
(i )x
(1)+ x
(2)+!+ x
(n)i
-esima quota del carattere.In generale consideriamo n dati e li ordiniamo:
x
(1)= x
(2)= ! = x
(n)= µ
x
(1)= x
(2)= ! = x
(n−1)= 0, x
(n)= n µ
, mentre la
.
.
x
(1)= x
(2)= ! = x
(n)= µ x
(1)≤ x
(2)≤! ≤ x
(n)x
(1)= x
(2)= ! = x
(n)= µ
x x
(1)(1)= x = x x
(2)(2)(1)= ! = x ≤ x = ! = x x
(1)(2)≤ x ≤! ≤ x
(2)(n)(n)≤! ≤ x = = µ µ
(n) (n)massima concentrazione si ha se In una equidistribuzione si ha
.
Distribuzione del carattere
Nel caso di equidistribuzione, in cui tutti i dati sono uguali,
Q
i= i µ n µ =
i
n 👉 i
-esima quota del carattere👉 P
i= n i
quota unitài
-esimaIl rapporto di concentrazione di Gini dell’insieme di dati
x
1, x
2, …, x
n è dato da:C = ∑
i=1n−1( P
i− Q
i)
P
ii=1
∑
n−1Si hanno le seguenti implicazioni:
P
i= Q
i per ognii = 1,2,…,n 👉 C = 0
Q
i= 0
per ognii = 1,2,…,n 👉 C = 1
Se invece non c’è equidistribuzione si ha sempre
P
i≥ Q
i..
C = 1 C = ∑
i=1n−1( P
i− Q
i)
P
ii=1
∑
n−1C = 1
C = ∑
i=1n−1( P
i− Q
i)
P
ii=1
∑
n−1Distribuzione del carattere
Osserviamo che vale la disuguaglianza
P
i− Q
i( )
i=1
∑
n−1≤ P
i i=1∑
n−1dove a sinistra abbiamo una misura della concentrazione che è nulla nel caso di equidistribuzione ed è massima nel caso di massima concentrazione, cioè
P
ii=1
∑
n−1Una scrittura equivalente del rapporto di concentrazione di Gini è data da
C = 2
n −1 ( P
i− Q
i)
i=1
∑
n−1.
.
Distribuzione del carattere
Osserviamo che vale la disuguaglianza
P
i− Q
i( )
i=1
∑
n−1≤ P
i i=1∑
n−1dove a sinistra abbiamo una misura della concentrazione che è nulla nel caso di equidistribuzione ed è massima nel caso di massima concentrazione, cioè
P
ii=1
∑
n−1Una scrittura equivalente del rapporto di concentrazione di Gini è data da
C = 2
n −1 ( P
i− Q
i)
i=1
∑
n−1P
ii=1
∑
n−1= 1 + 2 +!+ n −1
n = 1
n
1 + n −1 ( )
2 ( n −1 )
⎛
⎝⎜
⎞
⎠⎟ = n −1 2 .
.
.
Distribuzione del carattere
Alcuni esempi
Esempio: 1<2<3<4 Dati
1 1 0,25 0,1 0,15
2 3 0,50 0,3 0,2
3 6 0,75 0,6 0,15
Totale 1,5 0,5
C = 0,33 verificare che il risultato è uguale con ambedue le formule.
La concentrazione è tanto maggiore quanto più le quote unità differiscono dalle quote carattere.
A
iP
iQ
iP
i− Q
iDistribuzione del carattere
Alcuni esempi
Esempio: 1<2<3<4 Dati
1 1 0,25 0,1 0,15
2 3 0,50 0,3 0,2
3 6 0,75 0,6 0,15
Totale 1,5 0,5
C = 0,33 verificare che il risultato è uguale con ambedue le formule.
La concentrazione è tanto maggiore quanto più le quote unità differiscono dalle quote carattere.
A
iP
iQ
iP
i− Q
iEsempio: 1=1<3<5 Dati
1 1 0,25 0,1 0,15
1 2 0,50 0,2 0,3
3 5 0,75 0,5 0,25
Totale 1,5 0,7
C = 0,47
A
iP
iQ
iEsempio: 0=0<1<9 Dati
0 0 0,25 0 0,25
0 0 0,50 0 0,5
1 1 0,75 0,1 0,65
Totale 1,5 1,4
C = 0,93
A
iP
iQ
iP
i− Q
iP
i− Q
iDistribuzione del carattere
Alcuni esempi
Esempio: 1<2<3<4 Dati
1 1 0,25 0,1 0,15
2 3 0,50 0,3 0,2
3 6 0,75 0,6 0,15
Totale 1,5 0,5
C = 0,33 verificare che il risultato è uguale con ambedue le formule.
La concentrazione è tanto maggiore quanto più le quote unità differiscono dalle quote carattere.
A
iP
iQ
iP
i− Q
iEsempio: 1=1<3<5 Dati
1 1 0,25 0,1 0,15
1 2 0,50 0,2 0,3
3 5 0,75 0,5 0,25
Totale 1,5 0,7
C = 0,47
A
iP
iQ
iEsempio: 0=0<1<9 Dati
0 0 0,25 0 0,25
0 0 0,50 0 0,5
1 1 0,75 0,1 0,65
Totale 1,5 1,4
C = 0,93
A
iP
iQ
iEsempio: 2=2<3=3 Dati
2 2 0,25 0,2 0,05
2 4 0,50 0,4 0,1
3 7 0,75 0,7 0,05
Totale 1,5 0,2
C = 0,13
A
iP
iQ
iEsempio: 1=1=1<7 Dati
1 1 0,25 0,1 0,15
1 2 0,50 0,2 0,3
1 3 0,75 0,3 0,45
Totale 1,5 0,9
C = 0,6
A
iP
iQ
iP
i− Q
iP
i− Q
iP
i− Q
iP
i− Q
iDistribuzione del carattere
Se una quantità viene spostata da una unità con dato minore ad un’altra con dato superiore l’indice aumenta:
x
(1)<! < x
(i )− c <! < x
(k )+ c <! < x
(n)Alcune proprietà
Distribuzione del carattere
Se una quantità viene spostata da una unità con dato minore ad un’altra con dato superiore l’indice aumenta:
x
(1)<! < x
(i )− c <! < x
(k )+ c <! < x
(n)Q
1, …,Q
i−1non cambiano
Q
k, …,Q
nnon cambiano
Alcune proprietà
Q
i, …,Q
k−1diminuiscono
P
i− Q
i, …,P
k−1− Q
k−1aumentano
Distribuzione del carattere
Se una quantità viene spostata da una unità con dato minore ad un’altra con dato superiore l’indice aumenta:
x
(1)<! < x
(i )− c <! < x
(k )+ c <! < x
(n)Q
1, …,Q
i−1non cambiano
Q
k, …,Q
nnon cambiano
Alcune proprietà
Q
i, …,Q
k−1diminuiscono
P
i− Q
i, …,P
k−1− Q
k−1aumentano La quota carattere
x
1, x
2, …, x
n acx
1,cx
2, …,cx
nQ
i= cx
(1)+ cx
(2)+!+ cx
(i )cx
(1)+ cx
(2)+!+ cx
(n)= c x (
(1)+ x
(2)+!+ x
(i ))
c x (
(1)+ x
(2)+!+ x
(n)) = x x
(1)(1)+ x + x
(2)(2)+!+ x +!+ x
(n)(i )= A A
ninon cambia da
Q
iL’indice rimane anche esso invariato.
C = 0
Distribuzione del carattere
Se una quantità viene spostata da una unità con dato minore ad un’altra con dato superiore l’indice aumenta:
x
(1)<! < x
(i )− c <! < x
(k )+ c <! < x
(n)Q
1, …,Q
i−1non cambiano
Q
k, …,Q
nnon cambiano
Alcune proprietà
Q
i, …,Q
k−1diminuiscono
P
i− Q
i, …,P
k−1− Q
k−1aumentano La quota carattere
x
1, x
2, …, x
n acx
1,cx
2, …,cx
nQ
i= cx
(1)+ cx
(2)+!+ cx
(i )cx
(1)+ cx
(2)+!+ cx
(n)= c x (
(1)+ x
(2)+!+ x
(i ))
c x (
(1)+ x
(2)+!+ x
(n)) = x x
(1)(1)+ x + x
(2)(2)+!+ x +!+ x
(n)(i )= A A
niSe ad ogni elemento di
x
1, x
2, …, x
n si aggiunge una quantità positiva, l’indice diminuisce perché le quote carattere aumentano, mentre le quote unità restano invariate. Esempi: 2 = 2 < 3 = 3, C = 0,13 - 3 = 3 < 4 = 4, C = 0,096non cambia da
Q
iL’indice rimane anche esso invariato.
C = 0
La curva di Lorenz
Assegnato un insieme di dati
x
1, x
2, …, x
n si chiama curva di Lorenz o curva di concentrazione la spezzata che unisce i punti di coordinate( ) 0,0 , P (
1,Q
1) , P (
2,Q
2) , …, P (
n,Q
n)
Esempio: 1,4,2,3 Dati
1 0,25 0,1 2 0,50 0,3 3 0,75 0,6
4 1 1
P
iQ
i👉
Esempio: 1,4,2,3
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
Massima concentrazione
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
Massima concentrazione
Dati
0 0,25 0
0 0,50 0
0 0,75 0
10 1 1
P
iQ
i👈
n −1 n ,0
⎛ ⎝⎜ ⎞
⎠⎟
Equidistribuzione Dati
2,5 0,25 0,25 2,5 0,50 0,50 2,5 0,75 0,75
2,5 1 1
P
iQ
iLa curva di Lorenz
Equidistribuzione
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
👉
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
equidistribuzione
massima concentrazione esempio qualsiasi
Si mostra che il rapporto di concentrazione di Gini dell’insieme di dati è
C = S max S
dove
S
è l’area racchiusa fra il segmento blu e la curva rossa mentremax S
èl’area racchiusa fra il segmento blu e la spezzata verde.
Fornisce un’interpretazione geometrica del rapporto di concentrazione.
S
La curva di Lorenz
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
equidistribuzione
massima concentrazione
A
B
D C
max S = area ABC ( ) − area BCD ( ) 👉
n
n −1
n × 1 2 n −1
n n ≈ 1 −1
n × 1 2 n −1
n ≈ 1 n −1
n n ≈ 1 −1
n × 1 2 n −1
n × 1 2 -
Infatti:
La curva di Lorenz
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
equidistribuzione
massima concentrazione
A
B
D C
max S = area ABC ( ) − area BCD ( ) 👉
n −1
n × 1 2
n
n −1
n × 1 2 n −1
n n ≈ 1 −1
n × 1 2 n −1
n ≈ 1 n −1
n n ≈ 1 −1
n × 1 2 n −1
n × 1 2 -
=
Infatti:
La curva di Lorenz
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
equidistribuzione
massima concentrazione
A
B
D C
max S = area ABC ( ) − area BCD ( ) 👉
n −1
n × 1 2
n
n −1
n × 1 2 n −1
n n ≈ 1 −1
n × 1 2 n −1
n ≈ 1 n −1
n n ≈ 1 −1
n × 1 2 n −1
n × 1 2 -
=
Infatti:
Mentre si mostra che
C = S 2
n −1 ( P
i− Q
i)
i=1
∑
n−1.
n
n −1
n × 1
= 2
La curva di Lorenz
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
equidistribuzione
massima concentrazione
A
B
D C
max S = area ABC ( ) − area BCD ( ) 👉
n −1
n × 1 2
C = S max S
L’espressione ci permette di capire il significato dell’indice: poiché
max S
è costante, al crescere diS
la curva si allontana dal segmento di equidistribuzione.n
n −1
n × 1 2 n −1
n n ≈ 1 −1
n × 1 2 n −1
n ≈ 1 n −1
n n ≈ 1 −1
n × 1 2 n −1
n × 1 2 -
=
Infatti:
Mentre si mostra che
C = S 2
n −1 ( P
i− Q
i)
i=1
∑
n−1.
n
n −1
n × 1
= 2
Dunque C = S
max S C = 2
n −1 ( P
i− Q
i)
i=1
∑
n−1.
La curva di Lorenz
Introduciamo il parametro
R = n −1
n C
che mediante la formula già vistaC = 2
n −1 ( P
i− Q
i)
i=1
∑
n−1 si scrive comeR = 2
n ( P
i− Q
i)
i=1
∑
n−1. .
.
Quest’ultima poi può essere posta nella forma
R = 1
n ⎡⎣ ( P
i−1− Q
i−1) + P (
i− Q
i) ⎤⎦
i=1
∑
nPer modalità
Esempio. Distribuzione delle aziende di credito di una certa regione secondo il numero degli sportelli operanti nel territorio.
Numero di sportelli
Aziende di credito
Totale sportelli per azienda
Frequenze cumulate aziende
5 2 10 2
8 3 24 5
15 2 30 7
20 4 80 11
52 1 52 12
xi ni xi × ni Ni
x
i modalitàn
i frequenze assolutek = 5 N = 12
A
i= x
( )1× n
( )1+ x
( )2× n
( )2+!+ x
( )i× n
( )i informazione disponibile al momentoA
k= x
( )1× n
( )1+ x
( )2× n
( )2+!+ x
( )k× n
( )k informazione totaleQ
i= x
( )1× n
( )1+ x
( )2× n
( )2+!+ x
( )i× n
( )ix
( )1× n
( )1+ x
( )2× n
( )2+!+ x
( )k× n
( )ki
-esima quota di carattereP
i= N
iN i
-esima quota unitàPer modalità
Il rapporto di concentrazione delle modalità
x
1, x
2, …, x
k è dato daR = 1
n n
i⎡⎣ ( P
i−1− Q
i−1) + P (
i− Q
i) ⎤⎦
i=1
∑
kNumero di sportelli
Aziende di credito
Totale sportelli per azienda
Frequenze cumulate aziende
5 2 10 10 0,05 2 0,17
8 3 24 34 0,17 5 0,42
15 2 30 64 0,33 7 0,58
20 4 80 144 0,73 11 0,92
52 1 52 196 1,00 12 1,00
xi ni xi × ni Ai Qi Ni Pi
A
5= 196 👉
informazione totalePer modalità
Il rapporto di concentrazione delle modalità
x
1, x
2, …, x
k è dato daR = 1
n n
i⎡⎣ ( P
i−1− Q
i−1) + P (
i− Q
i) ⎤⎦
i=1
∑
k= 0,36
Numero di sportelli
Aziende di credito
Totale sportelli per azienda
5 2 10 0,17 0,05 0,12 0,24
8 3 24 0,42 0,17 0,25 1,11
15 2 30 0,58 0,33 0,25 1,00
20 4 80 0,92 0,73 0,19 1,76
52 1 52 1,00 1,00 0,19
xi ni xi × ni Qi Pi − Qi πi
A
5= 196 👉
informazione totale PiPer modalità
In questo caso la curva di concentrazione di Lorenz è
0,17 0,05 0,42 0,17 0,58 0,33 0.92 0,73 1,00 1,00
Qi Pi
0 0,25 0,5 0,75 1
0 0,17 0,42 0,58 0,92 1
Per classi di modalità
Lo stesso indice di concentrazione può essere utilizzato per classi di modalità scegliendo come valori di riferimento i centri delle classi al posto delle modalità.
Esempio. Distribuzione dei comuni della Valle D’Aosta secondo la superficie.
Superficie Numero dei comuni
Superficie totale
Centri delle classi
Fino a 1.000 8 6.209 500
1.001-2.000 14 21.024 1.500
2.001-4.000 27 78.445 3.000
4.001-6.000 9 44.871 5.000
6.001-10.000 8 57.034 8.000
10.001-25.000 8 118.944 17.500
ni Ti ci
R = 0,44
A
i= x
( )1× n
( )1+ x
( )2× n
( )2+!+ x
( )i× n
( )iinformazione disponibile al momento
A
k= x
( )1× n
( )1+ x
( )2× n
( )2+!+ x
( )k× n
( )kinformazione totale