Statistica
Antonio Azzollini
antonio.azzollini@unibas.it
Anno accademico 2019/2020
Dipartimento di Matematica, Informatica ed Economia (DiMIE) Dipartimento di Matematica, Informatica ed Economia (DiMIE)
La curva di Lorenz
Assegnato un insieme di dati
x
1, x
2, …, x
n si chiama curva di Lorenz o curva di concentrazione la spezzata che unisce i punti di coordinate( ) 0,0 , P (
1,Q
1) , P (
2,Q
2) , …, P (
n,Q
n)
Esempio: 1,4,2,3 Dati
1 0,25 0,1 2 0,50 0,3 3 0,75 0,6
4 1 1
P
iQ
i👉
Esempio: 1,4,2,3
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
Massima concentrazione
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
Massima concentrazione
Dati
0 0,25 0
0 0,50 0
0 0,75 0
10 1 1
P
iQ
i👈
n −1 n ,0
⎛ ⎝⎜ ⎞
⎠⎟
Equidistribuzione Dati
2,5 0,25 0,25 2,5 0,50 0,50 2,5 0,75 0,75
2,5 1 1
P
iQ
iLa curva di Lorenz
Equidistribuzione
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
👉
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
equidistribuzione
massima concentrazione esempio qualsiasi
Si mostra che il rapporto di concentrazione di Gini dell’insieme di dati è
C = S max S
dove
S
è l’area racchiusa fra il segmento blu e la curva rossa mentremax S
èl’area racchiusa fra il segmento blu e la spezzata verde.
Fornisce un’interpretazione geometrica del rapporto di concentrazione.
S
La curva di Lorenz
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
equidistribuzione
massima concentrazione
A
B
D C
max S = area ABC ( ) − area BCD ( ) 👉
n
n −1
n × 1 2 n −1
n n ≈ 1 −1
n × 1 2 n −1
n ≈ 1 n −1
n n ≈ 1 −1
n × 1 2 n −1
n × 1 2 -
Infatti:
La curva di Lorenz
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
equidistribuzione
massima concentrazione
A
B
D C
max S = area ABC ( ) − area BCD ( ) 👉
n −1
n × 1 2
n
n −1
n × 1 2 n −1
n n ≈ 1 −1
n × 1 2 n −1
n ≈ 1 n −1
n n ≈ 1 −1
n × 1 2 n −1
n × 1 2 -
=
Infatti:
La curva di Lorenz
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
equidistribuzione
massima concentrazione
A
B
D C
max S = area ABC ( ) − area BCD ( ) 👉
n −1
n × 1 2
n
n −1
n × 1 2 n −1
n n ≈ 1 −1
n × 1 2 n −1
n ≈ 1 n −1
n n ≈ 1 −1
n × 1 2 n −1
n × 1 2 -
=
Infatti:
Mentre si mostra che C = S 2
n −1 ( P
i− Q
i)
i=1
∑
n−1.
n
n −1
n × 1
= 2
La curva di Lorenz
0,2 0,5 0,8 1,1
0 0,25 0,5 0,75 1
equidistribuzione
massima concentrazione
A
B
D C
max S = area ABC ( ) − area BCD ( ) 👉
n −1
n × 1 2
C = S max S
L’espressione ci permette di capire il significato dell’indice: poiché
max S
è costante, al crescere diS
la curva si allontana dal segmento di equidistribuzione.n
n −1
n × 1 2 n −1
n n ≈ 1 −1
n × 1 2 n −1
n ≈ 1 n −1
n n ≈ 1 −1
n × 1 2 n −1
n × 1 2 -
=
Infatti:
Mentre si mostra che C = S 2
n −1 ( P
i− Q
i)
i=1
∑
n−1.
n
n −1
n × 1
= 2
Dunque C = S
max S C = 2
n −1 ( P
i− Q
i)
i=1
∑
n−1.
La curva di Lorenz
Introduciamo il parametro
R = n −1
n C
, e siccomeC = 2
n −1 ( P
i− Q
i)
i=1
∑
n−1 , si ha cheR = 2
n ( P
i− Q
i)
i=1
∑
n−1. .
.
Quest’ultima poi può essere posta nella forma
R = 1
n ⎡⎣ ( P
i−1− Q
i−1) + P (
i− Q
i) ⎤⎦
i=1
∑
nQuando è molto grande, al posto di si utilizza un altro parametro.
R = C 2
n ( P
i− Q
i)
i=1
∑
n−1Per modalità
Esempio. Distribuzione delle agenzie di una azienda di credito in una certa regione secondo il numero degli sportelli operanti nel territorio.
Numero di sportelli
Frequenza agenzie
Totale sportelli per agenzia
Frequenze cumulate agenzie
5 2 10 2
8 3 24 5
15 2 30 7
20 4 80 11
52 1 52 12
xi ni xi × ni Ni
x
i modalitàn
i frequenze assolutek = 5 N = 12
A
i= x
( )1× n
( )1+ x
( )2× n
( )2+!+ x
( )i× n
( )i informazione disponibile al momentoA
k= x
( )1× n
( )1+ x
( )2× n
( )2+!+ x
( )k× n
( )k informazione totaleQ
i= x
( )1× n
( )1+ x
( )2× n
( )2+!+ x
( )i× n
( )ix
( )1× n
( )1+ x
( )2× n
( )2+!+ x
( )k× n
( )ki
-esima quota di carattereP
i= N
iN i
-esima quota unitàPer modalità
il rapporto di concentrazione si definisce come
x
1, x
2, …, x
kR = 1
n n
i⎡⎣ ( P
i−1− Q
i−1) + P (
i− Q
i) ⎤⎦
i=1
∑
kNumero di sportelli
Frequenza agenzie
Totale sportelli per agenzia
Frequenze cumulate agenzia
5 2 10 10 0,05 2 0,17
8 3 24 34 0,17 5 0,42
15 2 30 64 0,33 7 0,58
20 4 80 144 0,73 11 0,92
52 1 52 196 1,00 12 1,00
xi ni xi × ni Ai Qi Ni Pi
A
5= 196 👉
informazione totaleIn una distribuzione delle modalità secondo le frequenze
n x x x
1i11, x , x , x n
2i22, , , …, x …, x …, x n
kkikPer modalità
R = 1
n n
i⎡⎣ ( P
i−1− Q
i−1) + P (
i− Q
i) ⎤⎦
i=1
∑
k= 0,36
Numero di sportelli
Frequenza agenzie
Totale sportelli per agenzie
5 2 10 0,17 0,05 0,12 0,24
8 3 24 0,42 0,17 0,25 1,11
15 2 30 0,58 0,33 0,25 1,00
20 4 80 0,92 0,73 0,19 1,76
52 1 52 1,00 1,00 0,19
xi ni xi × ni Qi Pi − Qi
π
iA
5= 196 👉
informazione totale Piil rapporto di concentrazione si definisce come
x
1, x
2, …, x
kIn una distribuzione delle modalità secondo le frequenze
n x x x
1i11, x , x , x n
2i22, , , …, x …, x …, x n
kkikPer modalità
In questo caso la curva di concentrazione di Lorenz è
0,17 0,05 0,42 0,17 0,58 0,33 0.92 0,73 1,00 1,00
Qi Pi
0 0,25 0,5 0,75 1
0 0,17 0,42 0,58 0,92 1
Per classi di modalità
Lo stesso indice di concentrazione può essere utilizzato per classi di modalità scegliendo come valori di riferimento i centri delle classi al posto delle modalità.
Esempio. Distribuzione dei comuni della Valle D’Aosta secondo la superficie.
Superficie Numero dei comuni
Superficie totale
Centri delle classi
Fino a 1.000 8 6.209 500
1.001-2.000 14 21.024 1.500
2.001-4.000 27 78.445 3.000
4.001-6.000 9 44.871 5.000
6.001-10.000 8 57.034 8.000
10.001-25.000 8 118.944 17.500
ni Ti ci
R = 0,44
A
i= x
( )1× n
( )1+ x
( )2× n
( )2+!+ x
( )i× n
( )iinformazione disponibile al momento
A
k= x
( )1× n
( )1+ x
( )2× n
( )2+!+ x
( )k× n
( )kinformazione totale
A
i= T
( )1+ T
( )2+!+ T
( )iA
i= T
( )1+ T
( )2+!+ T
( )kDistribuzioni multiple
Quando si raccolgono più informazioni su una singola unità…
Genere: uomo donna Nascita: mese anno
Componenti della famiglia (incluso l’intervistato): _______
Vi sono componenti di età minore di 12 anni? si no
Titolo di studio: scuola dell’obbligo diploma laurea triennale laurea magistrale dottorato
Residenza: città Roma provincia RM regione Lazio Italia estero Occhiali da vista: si no Scrittura con la mano: destra sinistra Fumo: si no Per lo più, passeggi: da solo con altri
Sport? no individuale di squadra Animale di compagnia? si no Lavoro? no pensionato occasionale tempo determinato
tempo indeterminato
Raccolta dei dati
Genere:
• uomo 0
• donna 1
Stato civile:
• celibe/nubile 1
• coniugato/convivente 2
• separato/divorziato 3
• vedovo 4
Scrittura con la mano:
• destra 1
• sinistra 0
Componenti di età minore di 12 anni:
• si 1
• no 0
Residenza:
• Roma
• provincia RM
• Lazio
• Italia
• estero
Fumo:
• si 1
• no 0
Titolo di studio:
• scuola dell’obbligo 1
• diploma 2
• laurea triennale 3
• laurea magistrale 4
• dottorato 5
Occhiali:
• si 1
• no 0
Per lo più passeggi:
• da solo 1
• con altri 0
Etc…
Memorizzazione in un foglio elettronico
👇
👇
Raccolta dei dati
Memorizzazione in un foglio elettronico
Distribuzione unitaria doppia
Si tratta dell’elencazione delle modalità di due caratteri, osservate per ogni unità statistica del campione considerato
👉
distribuzione doppia disaggregataRappresentata come
{ ( x
1, y
1) , x (
2, y
2) , …, x (
n, y
n) }
Distribuzione unitaria doppia
Si tratta dell’elencazione delle modalità di due caratteri, osservate per ogni unità statistica del campione considerato
👉
distribuzione doppia disaggregataRappresentata come
{ ( x
1, y
1) , x (
2, y
2) , …, x (
n, y
n) }
Id. Genere Occhiali 1 maschio si
2 maschio no 3 femmina si 4 femmina no 5 femmina no
… … …
Distribuzione unitaria doppia
Si tratta dell’elencazione delle modalità di due caratteri, osservate per ogni unità statistica del campione considerato
👉
distribuzione doppia disaggregataRappresentata come
{ ( x
1, y
1) , x (
2, y
2) , …, x (
n, y
n) }
Id. Genere Occhiali 1 maschio si
2 maschio no 3 femmina si 4 femmina no 5 femmina no
… … …
👉
Lo spoglio dei datiocchiali si (1) occhiali no (0) maschio (0) X X
femmina (1) X XX
Distribuzione unitaria doppia
Si tratta dell’elencazione delle modalità di due caratteri, osservate per ogni unità statistica del campione considerato
👉
distribuzione doppia disaggregataRappresentata come
{ ( x
1, y
1) , x (
2, y
2) , …, x (
n, y
n) }
Id. Genere Occhiali 1 maschio si
2 maschio no 3 femmina si 4 femmina no 5 femmina no
… … …
👉
Lo spoglio dei datiocchiali si (1) occhiali no (0) maschio (0) X X
femmina (1) X XX
👇
( ) 0,0 , 0,1 ( ) , 1,0 ( ) , 1,1 ( )
{ }
( ) 0,0 , 0,1 ( ) , 1,0 ( ) , 1,1 ( )
{ { ( ) 0,0 , 0,1 ( ) { { ( ) ( ) , 1,0 ( ) 0,0 0,0 { ( ) 0,0 { , 0,1 , 0,1 , 1,1 ( ) ( ) ( ) ( ) 0,0 , 0,1 } ( ) } , 1,0 , 1,0 ( ) , 0,1 ( ) ( ) , 1,0 ( ) , 1,1 , 1,1 , 1,0 ( ) ( ) ( ) , 1,1 ( ) } } , 1,1 ( ) ... } }
Tabella a doppia entrata
Se si vogliono esaminare due caratteri contemporaneamente, un utile strumento per riassumere le informazioni raccolte sui due caratteri è rappresentato dalla tabella a doppia entrata.
Occhiali
Genere occhiali no occhiali si Totale
maschi 62 29 91
femmine 31 41 72
Totale 93 70 163
Distribuzione marginale del carattere occhiali
Distribuzione marginale del carattere genere
Frequenze assolute congiunte
Distribuzione congiunta
Tabella a doppia entrata
Se si vogliono esaminare due caratteri contemporaneamente, un utile strumento per riassumere le informazioni raccolte sui due caratteri è rappresentato dalla tabella a doppia entrata.
Occhiali
Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%
femmine 19,02% 25,15% 44,17%
Totale 57,06% 42,94% 100%
Distribuzione marginale del carattere occhiali
Distribuzione marginale del carattere genere
Frequenze relative percentuali
62
163 ×100
31
163 ×100 93
163 ×100
Distribuzione congiunta
Istogramma tridimensionale
Istogramma tridimensionale
maschi femmine
Occhiali
Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%
femmine 19,02% 25,15% 44,17%
Totale 57,06% 42,94% 100%
Istogramma composto
0 10 20 30 40
occhiali no occhiali si
0 15 30 45 60
occhiali no occhiali si
Distribuzione marginale occhiali
Occhiali
Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%
femmine 19,02% 25,15% 44,17%
Totale 57,06% 42,94% 100%
0 25 50 75 100
occhiali no occhiali si 0
15 30 45 60
occhiali no occhiali si
maschi femmine
Istogramma composto
Proiezione su 100
👇
Occhiali
Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%
femmine 19,02% 25,15% 44,17%
Totale 57,06% 42,94% 100%
Occhiali
Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%
femmine 19,02% 25,15% 44,17%
Totale 57,06% 42,94% 100%
Distribuzione congiunta
Distribuzione condizionata
Tra coloro che non portano occhiali, qual è la percentuale di maschi?
Occhiali
Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%
femmine 19,02% 25,15% 44,17%
Totale 57,06% 42,94% 100%
Distribuzione congiunta
Distribuzione condizionata
Tra coloro che non portano occhiali, qual è la percentuale di maschi?
NON è il 38,04%!
Occhiali
Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%
femmine 19,02% 25,15% 44,17%
Totale 57,06% 42,94% 100%
Distribuzione congiunta
Distribuzione condizionata
Tra coloro che non portano occhiali, qual è la percentuale di maschi?
NON è il 38,04%!
38,04
57,06 ×100 = rapporto di composizione = 66,67%
Occhiali
Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%
femmine 19,02% 25,15% 44,17%
Totale 57,06% 42,94% 100%
Distribuzione congiunta
Distribuzione condizionata
Tra coloro che non portano occhiali, qual è la percentuale di femmine?
NON è il 19,02%!
19,02
57,06 ×100 = rapporto di composizione = 33,33%
Notazione
Frequenze assolute
Totale
Totale
Frequenze relative
Totale
Totale Frequenze relative condizionate
Totale
x
1x
x
2y
1y
2n
11n
12n
21n
22n
1*n
2*n
*1n
*2n
x
1x
x
2y
1y
2f
11f
12f
21f
22f
1*f
2*f
*1f
*21 y
y
x
1x
x
2y
1y
2y
1 1
n
*1= n
11+ n
21n
1*= n
11+ n
12👈
👈
👉
f
1|1f
1|2f
2|1f
2|2f
*1= f
11+ f
21= n
11n + n
21n f
1*= f
11+ f
12= n
11n + n
12n
f
1|1= f
11f
*1, f
1|2= f
12f
*2Il paradosso di Simpson
Ad Alberto & Barbara piace giocare a basket e si sfidano in una gara di tiri.
Ognuno prova 200 tiri con i seguenti risultati.
Alberto Barbara Canestri 100 80
Fuori 100 120 Totale 200 200
A prima vista si direbbe Alberto perché ha una percentuale
di centri del 50% contro il 40%
di Barbara.
Stratifichiamo rispetto ai tiri da sotto canestro
Alberto Barbara
da fuori da sotto totale da fuori da sotto totale
Canestri 10 90 100 50 30 80
Fuori 30 70 100 100 20 120
Totale 40 160 200 150 50 200
Stratifichiamo rispetto ai tiri da sotto canestro
Alberto Barbara
da fuori da sotto totale da fuori da sotto totale
Canestri 10 90 100 50 30 80
Fuori 30 70 100 100 20 120
Totale 40 160 200 150 50 200
Il paradosso di Simpson
Nei tiri da fuori Alberto ha una percentuale del 25% (10/40) mentre Barbara ha una percentuale del 33% (50/150). Nei tiri da fuori è più brava Barbara.
Alberto Barbara
da fuori da sotto totale da fuori da sotto totale
Canestri 10 90 100 50 30 80
Fuori 30 70 100 100 20 120
Totale 40 160 200 150 50 200
Stratifichiamo rispetto ai tiri da sotto canestro
Il paradosso di Simpson
Nei tiri da fuori Alberto ha una percentuale del 25% (10/40) mentre Barbara ha una percentuale del 33% (50/150). Nei tiri da fuori è più brava Barbara.
Nei tiri da sotto canestro, Alberto ha una percentuale del 56,25% (90/160) mentre Barbara ha una percentuale del 60% (30/50). Dunque anche nei tiri da sotto
canestro Barbara è più brava!
Alberto Barbara
da fuori da sotto totale da fuori da sotto totale
Canestri 10 90 100 50 30 80
Fuori 30 70 100 100 20 120
Totale 40 160 200 150 50 200
Stratifichiamo rispetto ai tiri da sotto canestro