La curva di Lorenz

(1)

Statistica

Antonio Azzollini

[email protected]

Anno accademico 2019/2020

Dipartimento di Matematica, Informatica ed Economia (DiMIE) Dipartimento di Matematica, Informatica ed Economia (DiMIE)

(2)

La curva di Lorenz

Assegnato un insieme di dati

x

₁

, x

₂

, …, x

_n si chiama curva di Lorenz o curva di concentrazione la spezzata che unisce i punti di coordinate

( ) 0,0 ^{, P} (

1

,Q

₁

) ^{, P} (

²

^,Q

²

) ^, ^{…, P} (

ⁿ

^,Q

ⁿ

)

Esempio: 1,4,2,3 Dati

1 0,25 0,1 2 0,50 0,3 3 0,75 0,6

4 1 1

P

_i

Q

_i

👉

Esempio: 1,4,2,3

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

Massima concentrazione

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

Massima concentrazione

Dati

0 0,25 0

0 0,50 0

0 0,75 0

10 1 1

P

_i

Q

_i

👈

n −1 n ,0

⎛ ⎝⎜ ⎞

⎠⎟

(3)

Equidistribuzione Dati

2,5 0,25 0,25 2,5 0,50 0,50 2,5 0,75 0,75

2,5 1 1

P

_i

Q

_i

La curva di Lorenz

Equidistribuzione

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

👉

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

equidistribuzione

massima concentrazione esempio qualsiasi

Si mostra che il rapporto di concentrazione di Gini dell’insieme di dati è

C = S max S

dove

S

è l’area racchiusa fra il segmento blu e la curva rossa mentre

max S

^è

l’area racchiusa fra il segmento blu e la spezzata verde.

Fornisce un’interpretazione geometrica del rapporto di concentrazione.

S

(4)

La curva di Lorenz

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

equidistribuzione

massima concentrazione

A

B

D C

max S = area ABC ( ) ^{− area BCD} ( ) 👉

n

n −1

n × 1 2 n −1

n n ≈ 1 −1

n × 1 2 n −1

n ≈ 1 n −1

n n ≈ 1 −1

n × 1 2 n −1

n × 1 2 -

Infatti:

(5)

La curva di Lorenz

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

equidistribuzione

A

B

D C

max S = area ABC ( ) ^{− area BCD} ( ) 👉

n −1

n × 1 2

n

n −1

n × 1 2 n −1

n n ≈ 1 −1

n × 1 2 n −1

n ≈ 1 n −1

n n ≈ 1 −1

n × 1 2 n −1

n × 1 2 -

=

Infatti:

(6)

La curva di Lorenz

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

equidistribuzione

A

B

D C

max S = area ABC ( ) ^{− area BCD} ( ) 👉

n −1

n × 1 2

n

n −1

n × 1 2 n −1

n n ≈ 1 −1

n × 1 2 n −1

n ≈ 1 n −1

n n ≈ 1 −1

n × 1 2 n −1

n × 1 2 -

=

Infatti:

Mentre si mostra che C = S 2

n −1 ( P

_i

− Q

_i

)

i=1

∑

n−1

^.

n

n −1

n × 1

= 2

(7)

La curva di Lorenz

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

equidistribuzione

A

B

D C

max S = area ABC ( ) ^{− area BCD} ( ) 👉

n −1

n × 1 2

C = S max S

L’espressione ci permette di capire il significato dell’indice: poiché

max S

è costante, al crescere di

S

la curva si allontana dal segmento di equidistribuzione.

n

n −1

n × 1 2 n −1

n n ≈ 1 −1

n × 1 2 n −1

n ≈ 1 n −1

n n ≈ 1 −1

n × 1 2 n −1

n × 1 2 -

=

Infatti:

Mentre si mostra che C = S 2

n −1 ( P

_i

− Q

_i

)

i=1

∑

n−1

^.

n

n −1

n × 1

= 2

Dunque C = S

max S C = 2

n −1 ( P

_i

− Q

_i

)

i=1

∑

n−1

^.

(8)

La curva di Lorenz

Introduciamo il parametro

R = n −1

n C

, e siccome

C = 2

n −1 ( P

_i

− Q

_i

)

i=1

∑

n−1 , si ha che

R = 2

n ( P

_i

− Q

_i

)

i=1

∑

n−1

. .

.

Quest’ultima poi può essere posta nella forma

R = 1

n _⎡⎣ ( P

_i−1

− Q

_i−1

) ^{+ P} (

ⁱ

^{− Q}

ⁱ

) _⎤⎦

i=1

∑

n

Quando è molto grande, al posto di si utilizza un altro parametro.

^R ⁼ C 2

n ( P

_i

− Q

_i

)

i=1

∑

n−1

(9)

Per modalità

Esempio. Distribuzione delle agenzie di una azienda di credito in una certa regione secondo il numero degli sportelli operanti nel territorio.

Numero di sportelli

Frequenza agenzie

Totale sportelli per agenzia

Frequenze cumulate agenzie

5 2 10 2

8 3 24 5

15 2 30 7

20 4 80 11

52 1 52 12

x_i n_i x_i × n_i ^N_i

x

_i ^modalità

n

_i frequenze assolute

k = 5 N = 12

A

_i

= x

_{( )}₁

× n

_{( )}₁

+ x

_{( )}₂

× n

_{( )}₂

+!+ x

_{( )}_i

× n

_{( )}_i informazione disponibile al momento

A

_k

= x

_{( )}₁

× n

_{( )}₁

+ x

_{( )}₂

× n

_{( )}₂

+!+ x

_{( )}_k

× n

_{( )}_k informazione totale

Q

_i

= x

_{( )}₁

× n

_{( )}₁

+ x

_{( )}₂

× n

_{( )}₂

+!+ x

_{( )}_i

× n

_{( )}_i

x

_{( )}₁

× n

_{( )}₁

+ x

_{( )}₂

× n

_{( )}₂

+!+ x

_{( )}_k

× n

_{( )}_k

ⁱ

-esima quota di carattere

P

_i

= N

_i

N i

-esima quota unità

(10)

Per modalità

il rapporto di concentrazione si definisce come

x

₁

, x

₂

, …, x

_k

R = 1

n n

_i

_⎡⎣ ( P

_i−1

− Q

_i−1

) ^{+ P} (

ⁱ

^{− Q}

ⁱ

) _⎤⎦

i=1

∑

k

Numero di sportelli

Frequenza agenzie

Totale sportelli per agenzia

Frequenze cumulate agenzia

5 2 10 10 0,05 2 0,17

8 3 24 34 0,17 5 0,42

15 2 30 64 0,33 7 0,58

20 4 80 144 0,73 11 0,92

52 1 52 196 1,00 12 1,00

x_i n_i x_i × n_i A_i Q_i ^N_i P_i

A

₅

= 196 👉

informazione totale

In una distribuzione delle modalità secondo le frequenze

n ^x x x

1_i₁₁

, x , x , x n

₂_i₂₂

, , , …, x …, x …, x n

_k_k_i_k

(11)

Per modalità

R = 1

n n

_i

_⎡⎣ ( P

_i−1

− Q

_i−1

) ^{+ P} (

ⁱ

^{− Q}

ⁱ

) _⎤⎦

i=1

∑

k

^{= 0,36}

Numero di sportelli

Frequenza agenzie

Totale sportelli per agenzie

5 2 10 0,17 0,05 0,12 0,24

8 3 24 0,42 0,17 0,25 1,11

15 2 30 0,58 0,33 0,25 1,00

20 4 80 0,92 0,73 0,19 1,76

52 1 52 1,00 1,00 0,19

x_i n_i x_i × n_i Q_i ^Pⁱ ^{− Q}ⁱ

π

_i

A

₅

= 196 👉

informazione totale P_i

il rapporto di concentrazione si definisce come

x

₁

, x

₂

, …, x

_k

In una distribuzione delle modalità secondo le frequenze

n ^x x x

1_i₁₁

, x , x , x n

₂_i₂₂

, , , …, x …, x …, x n

_k_k_i_k

(12)

Per modalità

In questo caso la curva di concentrazione di Lorenz è

0,17 0,05 0,42 0,17 0,58 0,33 0.92 0,73 1,00 1,00

Q_i P_i

0 0,25 0,5 0,75 1

0 0,17 0,42 0,58 0,92 1

(13)

Per classi di modalità

Lo stesso indice di concentrazione può essere utilizzato per classi di modalità scegliendo come valori di riferimento i centri delle classi al posto delle modalità.

Esempio. Distribuzione dei comuni della Valle D’Aosta secondo la superficie.

Superficie Numero dei  comuni

Superficie  totale

Centri delle  classi

Fino a 1.000 8 6.209 500

1.001-2.000 14 21.024 1.500

2.001-4.000 27 78.445 3.000

4.001-6.000 9 44.871 5.000

6.001-10.000 8 57.034 8.000

10.001-25.000 8 118.944 17.500

n_i T_i c_i

R = 0,44

A

_i

= x

_{( )}₁

× n

_{( )}₁

+ x

_{( )}₂

× n

_{( )}₂

+!+ x

_{( )}_i

× n

_{( )}_i

informazione disponibile al momento

A

_k

= x

_{( )}₁

× n

_{( )}₁

+ x

_{( )}₂

× n

_{( )}₂

+!+ x

_{( )}_k

× n

_{( )}_k

informazione totale

A

_i

= T

_{( )}₁

+ T

_{( )}₂

+!+ T

_{( )}_i

A

_i

= T

_{( )}₁

+ T

_{( )}₂

+!+ T

_{( )}_k

(14)

Distribuzioni multiple

Quando si raccolgono più informazioni su una singola unità…

Genere: uomo donna Nascita: mese anno

Componenti della famiglia (incluso l’intervistato): _______

Vi sono componenti di età minore di 12 anni? si no

Titolo di studio: scuola dell’obbligo diploma laurea triennale laurea magistrale dottorato

Residenza: città Roma provincia RM regione Lazio Italia estero Occhiali da vista: si no Scrittura con la mano: destra sinistra Fumo: si no Per lo più, passeggi: da solo con altri

Sport? no individuale di squadra Animale di compagnia? si no Lavoro? no pensionato occasionale tempo determinato

tempo indeterminato

(15)

Raccolta dei dati

Genere:

• uomo 0

• donna 1

Stato civile:

• celibe/nubile 1

• coniugato/convivente 2

• separato/divorziato 3

• vedovo 4

Scrittura con la mano:

• destra 1

• sinistra 0

Componenti di età minore di 12 anni:

• si 1

• no 0

Residenza:

• Roma

• provincia RM

• Lazio

• Italia

• estero

Fumo:

• si 1

• no 0

Titolo di studio:

• scuola dell’obbligo 1

• diploma 2

• laurea triennale 3

• laurea magistrale 4

• dottorato 5

Occhiali:

• si 1

• no 0

Per lo più passeggi:

• da solo 1

• con altri 0

Etc…

Memorizzazione in un foglio elettronico

👇

(16)

Raccolta dei dati

Memorizzazione in un foglio elettronico

(17)

Distribuzione unitaria doppia

Si tratta dell’elencazione delle modalità di due caratteri, osservate per ogni unità statistica del campione considerato

👉

distribuzione doppia disaggregata

Rappresentata come

{ ( x

₁

, y

₁

) ^{, x} (

²

^{, y}

²

) ^, ^{…, x} (

ⁿ

^{, y}

ⁿ

) }

(18)

Distribuzione unitaria doppia

👉

Rappresentata come

{ ( x

₁

, y

₁

) ^{, x} (

²

^{, y}

²

) ^, ^{…, x} (

ⁿ

^{, y}

ⁿ

) }

Id. Genere Occhiali 1 maschio si

2 maschio no 3 femmina si 4 femmina no 5 femmina no

… … …

(19)

Distribuzione unitaria doppia

👉

Rappresentata come

{ ( x

₁

, y

₁

) ^{, x} (

²

^{, y}

²

) ^, ^{…, x} (

ⁿ

^{, y}

ⁿ

) }

Id. Genere Occhiali 1 maschio si

2 maschio no 3 femmina si 4 femmina no 5 femmina no

… … …

👉

Lo spoglio dei dati

occhiali si (1) occhiali no (0) maschio (0) X X

femmina (1) X XX

(20)

Distribuzione unitaria doppia

👉

Rappresentata come

{ ( x

₁

, y

₁

) ^{, x} (

²

^{, y}

²

) ^, ^{…, x} (

ⁿ

^{, y}

ⁿ

) }

Id. Genere Occhiali 1 maschio si

2 maschio no 3 femmina si 4 femmina no 5 femmina no

… … …

👉

Lo spoglio dei dati

occhiali si (1) occhiali no (0) maschio (0) X X

femmina (1) X XX

👇

( ) 0,0 ^{, 0,1} ( ) ^{, 1,0} ( ) ^{, 1,1} ( )

{ }

( ) 0,0 ^{, 0,1} ( ) ^{, 1,0} ( ) ^{, 1,1} ( )

{ { ^{( )} ^0,0 ^{, 0,1} ^{( )} { { ^{( )} ^{( )} ^{, 1,0} ^{( )} ^0,0 ^0,0 { ^{( )} ^0,0 { ^{, 0,1} ^{, 0,1} ^{, 1,1} ^{( )} ^{( )} ^{( )} ^{( )} ^0,0 ^{, 0,1} } ^{( )} } ^{, 1,0} ^{, 1,0} ^{( )} ^{, 0,1} ^{( )} ^{( )} ^{, 1,0} ^{( )} ^{, 1,1} ^{, 1,1} ^{, 1,0} ^{( )} ^{( )} ^{( )} ^{, 1,1} ^{( )} } } ^{, 1,1} ^{( )} ^... } }

(21)

Tabella a doppia entrata

Se si vogliono esaminare due caratteri contemporaneamente, un utile strumento per riassumere le informazioni raccolte sui due caratteri è rappresentato dalla tabella a doppia entrata.

Occhiali

Genere occhiali no occhiali si Totale

maschi 62 29 91

femmine 31 41 72

Totale 93 70 163

Distribuzione marginale del carattere occhiali

Distribuzione marginale del carattere genere

Frequenze assolute congiunte

Distribuzione congiunta

(22)

Tabella a doppia entrata

Se si vogliono esaminare due caratteri contemporaneamente, un utile strumento per riassumere le informazioni raccolte sui due caratteri è rappresentato dalla tabella a doppia entrata.

Occhiali

Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

Distribuzione marginale del carattere occhiali

Distribuzione marginale del carattere genere

Frequenze relative percentuali

62

163 ×100

31

163 ×100 93

163 ×100

(23)

Istogramma tridimensionale

(24)

Istogramma tridimensionale

maschi femmine

Occhiali

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

(25)

Istogramma composto

0 10 20 30 40

occhiali no occhiali si

0 15 30 45 60

Distribuzione marginale occhiali

Occhiali

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

(26)

0 25 50 75 100

occhiali no occhiali si 0

15 30 45 60

maschi femmine

Istogramma composto

Proiezione su 100

👇

Occhiali

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

(27)

Occhiali

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

Distribuzione condizionata

Tra coloro che non portano occhiali, qual è la percentuale di maschi?

(28)

Occhiali

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

Distribuzione condizionata

NON è il 38,04%!

(29)

Occhiali

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

Distribuzione condizionata

NON è il 38,04%!

38,04

57,06 ×100 = rapporto di composizione = 66,67%

(30)

Occhiali

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

Distribuzione condizionata

Tra coloro che non portano occhiali, qual è la percentuale di femmine?

NON è il 19,02%!

19,02

57,06 ×100 = rapporto di composizione = 33,33%

(31)

Notazione

Frequenze assolute

Totale

Frequenze relative

Totale

Totale Frequenze relative condizionate

Totale

x

₁

x

₂

y

₁

y

₂

n

₁₁

n

₁₂

n

₂₁

n

₂₂

n

_1*

n

_2*

n

_*1

n

_*2

n

x

₁

x

₂

y

₁

y

₂

f

₁₁

f

₁₂

f

₂₁

f

₂₂

f

_1*

f

_2*

f

_*1

f

_*2

1 y

y

x

₁

x

₂

y

₁

y

₂

y

1 1

n

_*1

= n

₁₁

+ n

₂₁

n

_1*

= n

₁₁

+ n

₁₂

👈

👉

f

_1|1

f

_1|2

f

_2|1

f

_2|2

f

_*1

= f

₁₁

+ f

₂₁

= n

₁₁

n + n

₂₁

n f

_1*

= f

₁₁

+ f

₁₂

= n

₁₁

n + n

₁₂

n

f

_1|1

= f

₁₁

f

_*1

, f

_1|2

= f

₁₂

f

_*2

(32)

Il paradosso di Simpson

Ad Alberto & Barbara piace giocare a basket e si sfidano in una gara di tiri.

Ognuno prova 200 tiri con i seguenti risultati.

Alberto Barbara Canestri 100 80

Fuori 100 120 Totale 200 200

A prima vista si direbbe Alberto perché ha una percentuale

di centri del 50% contro il 40%

di Barbara.

Stratifichiamo rispetto ai tiri da sotto canestro

Alberto Barbara

da fuori da sotto totale da fuori da sotto totale

Canestri 10 90 100 50 30 80

Fuori 30 70 100 100 20 120

Totale 40 160 200 150 50 200

(33)

Alberto Barbara

da fuori da sotto totale da fuori da sotto totale

Canestri 10 90 100 50 30 80

Fuori 30 70 100 100 20 120

Totale 40 160 200 150 50 200

Il paradosso di Simpson

(34)

Nei tiri da fuori Alberto ha una percentuale del 25% (10/40) mentre Barbara ha una percentuale del 33% (50/150). Nei tiri da fuori è più brava Barbara.

Alberto Barbara

da fuori da sotto totale da fuori da sotto totale

Canestri 10 90 100 50 30 80

Fuori 30 70 100 100 20 120

Totale 40 160 200 150 50 200

Il paradosso di Simpson

(35)

Nei tiri da fuori Alberto ha una percentuale del 25% (10/40) mentre Barbara ha una percentuale del 33% (50/150). Nei tiri da fuori è più brava Barbara.

Nei tiri da sotto canestro, Alberto ha una percentuale del 56,25% (90/160) mentre Barbara ha una percentuale del 60% (30/50). Dunque anche nei tiri da sotto

canestro Barbara è più brava!

Alberto Barbara

da fuori da sotto totale da fuori da sotto totale

Canestri 10 90 100 50 30 80

Fuori 30 70 100 100 20 120

Totale 40 160 200 150 50 200

Il paradosso di Simpson

La curva di Lorenz

Statistica

Antonio Azzollini

[email protected]