• Non ci sono risultati.

La curva di Lorenz

N/A
N/A
Protected

Academic year: 2021

Condividi "La curva di Lorenz"

Copied!
35
0
0

Testo completo

(1)

Statistica

Antonio Azzollini

antonio.azzollini@unibas.it

Anno accademico 2019/2020

Dipartimento di Matematica, Informatica ed Economia (DiMIE) Dipartimento di Matematica, Informatica ed Economia (DiMIE)

(2)

La curva di Lorenz

Assegnato un insieme di dati

x

1

, x

2

, …, x

n si chiama curva di Lorenz o curva di concentrazione la spezzata che unisce i punti di coordinate

( ) 0,0 , P (

1

,Q

1

) , P (

2

,Q

2

) , …, P (

n

,Q

n

)

Esempio: 1,4,2,3 Dati

1 0,25 0,1 2 0,50 0,3 3 0,75 0,6

4 1 1

P

i

Q

i

👉

Esempio: 1,4,2,3

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

Massima concentrazione

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

Massima concentrazione

Dati

0 0,25 0

0 0,50 0

0 0,75 0

10 1 1

P

i

Q

i

👈

n −1 n ,0

⎛ ⎝⎜ ⎞

⎠⎟

(3)

Equidistribuzione Dati

2,5 0,25 0,25 2,5 0,50 0,50 2,5 0,75 0,75

2,5 1 1

P

i

Q

i

La curva di Lorenz

Equidistribuzione

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

👉

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

equidistribuzione

massima concentrazione esempio qualsiasi

Si mostra che il rapporto di concentrazione di Gini dell’insieme di dati è

C = S max S

dove

S

è l’area racchiusa fra il segmento blu e la curva rossa mentre

max S

è

l’area racchiusa fra il segmento blu e la spezzata verde.

Fornisce un’interpretazione geometrica del rapporto di concentrazione.

S

(4)

La curva di Lorenz

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

equidistribuzione

massima concentrazione

A

B

D C

max S = area ABC ( ) − area BCD ( ) 👉

n

n −1

n × 1 2 n −1

n n ≈ 1 −1

n × 1 2 n −1

n ≈ 1 n −1

n n ≈ 1 −1

n × 1 2 n −1

n × 1 2 -

Infatti:

(5)

La curva di Lorenz

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

equidistribuzione

massima concentrazione

A

B

D C

max S = area ABC ( ) − area BCD ( ) 👉

n −1

n × 1 2

n

n −1

n × 1 2 n −1

n n ≈ 1 −1

n × 1 2 n −1

n ≈ 1 n −1

n n ≈ 1 −1

n × 1 2 n −1

n × 1 2 -

=

Infatti:

(6)

La curva di Lorenz

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

equidistribuzione

massima concentrazione

A

B

D C

max S = area ABC ( ) − area BCD ( ) 👉

n −1

n × 1 2

n

n −1

n × 1 2 n −1

n n ≈ 1 −1

n × 1 2 n −1

n ≈ 1 n −1

n n ≈ 1 −1

n × 1 2 n −1

n × 1 2 -

=

Infatti:

Mentre si mostra che C = S 2

n −1 ( P

i

− Q

i

)

i=1

n−1

.

n

n −1

n × 1

= 2

(7)

La curva di Lorenz

0,2 0,5 0,8 1,1

0 0,25 0,5 0,75 1

equidistribuzione

massima concentrazione

A

B

D C

max S = area ABC ( ) − area BCD ( ) 👉

n −1

n × 1 2

C = S max S

L’espressione ci permette di capire il significato dell’indice: poiché

max S

è costante, al crescere di

S

la curva si allontana dal segmento di equidistribuzione.

n

n −1

n × 1 2 n −1

n n ≈ 1 −1

n × 1 2 n −1

n ≈ 1 n −1

n n ≈ 1 −1

n × 1 2 n −1

n × 1 2 -

=

Infatti:

Mentre si mostra che C = S 2

n −1 ( P

i

− Q

i

)

i=1

n−1

.

n

n −1

n × 1

= 2

Dunque C = S

max S C = 2

n −1 ( P

i

− Q

i

)

i=1

n−1

.

(8)

La curva di Lorenz

Introduciamo il parametro

R = n −1

n C

, e siccome

C = 2

n −1 ( P

i

− Q

i

)

i=1

n−1 , si ha che

R = 2

n ( P

i

− Q

i

)

i=1

n−1

. .

.

Quest’ultima poi può essere posta nella forma

R = 1

n ⎡⎣ ( P

i−1

− Q

i−1

) + P (

i

− Q

i

) ⎤⎦

i=1

n

Quando è molto grande, al posto di si utilizza un altro parametro.

R = C 2

n ( P

i

− Q

i

)

i=1

n−1

(9)

Per modalità

Esempio. Distribuzione delle agenzie di una azienda di credito in una certa regione secondo il numero degli sportelli operanti nel territorio.

Numero di sportelli

Frequenza agenzie

Totale sportelli per agenzia

Frequenze cumulate agenzie

5 2 10 2

8 3 24 5

15 2 30 7

20 4 80 11

52 1 52 12

xi ni xi × ni Ni

x

i modalità

n

i frequenze assolute

k = 5 N = 12

A

i

= x

( )1

× n

( )1

+ x

( )2

× n

( )2

+!+ x

( )i

× n

( )i informazione disponibile al momento

A

k

= x

( )1

× n

( )1

+ x

( )2

× n

( )2

+!+ x

( )k

× n

( )k informazione totale

Q

i

= x

( )1

× n

( )1

+ x

( )2

× n

( )2

+!+ x

( )i

× n

( )i

x

( )1

× n

( )1

+ x

( )2

× n

( )2

+!+ x

( )k

× n

( )k

i

-esima quota di carattere

P

i

= N

i

N i

-esima quota unità

(10)

Per modalità

il rapporto di concentrazione si definisce come

x

1

, x

2

, …, x

k

R = 1

n n

i

⎡⎣ ( P

i−1

− Q

i−1

) + P (

i

− Q

i

) ⎤⎦

i=1

k

Numero di sportelli

Frequenza agenzie

Totale sportelli per agenzia

Frequenze cumulate agenzia

5 2 10 10 0,05 2 0,17

8 3 24 34 0,17 5 0,42

15 2 30 64 0,33 7 0,58

20 4 80 144 0,73 11 0,92

52 1 52 196 1,00 12 1,00

xi ni xi × ni Ai Qi Ni Pi

A

5

= 196 👉

informazione totale

In una distribuzione delle modalità secondo le frequenze

n x x x

1i11

, x , x , x n

2i22

, , , …, x …, x …, x n

kkik

(11)

Per modalità

R = 1

n n

i

⎡⎣ ( P

i−1

− Q

i−1

) + P (

i

− Q

i

) ⎤⎦

i=1

k

= 0,36

Numero di sportelli

Frequenza agenzie

Totale sportelli per agenzie

5 2 10 0,17 0,05 0,12 0,24

8 3 24 0,42 0,17 0,25 1,11

15 2 30 0,58 0,33 0,25 1,00

20 4 80 0,92 0,73 0,19 1,76

52 1 52 1,00 1,00 0,19

xi ni xi × ni Qi Pi − Qi

π

i

A

5

= 196 👉

informazione totale Pi

il rapporto di concentrazione si definisce come

x

1

, x

2

, …, x

k

In una distribuzione delle modalità secondo le frequenze

n x x x

1i11

, x , x , x n

2i22

, , , …, x …, x …, x n

kkik

(12)

Per modalità

In questo caso la curva di concentrazione di Lorenz è

0,17 0,05 0,42 0,17 0,58 0,33 0.92 0,73 1,00 1,00

Qi Pi

0 0,25 0,5 0,75 1

0 0,17 0,42 0,58 0,92 1

(13)

Per classi di modalità

Lo stesso indice di concentrazione può essere utilizzato per classi di modalità scegliendo come valori di riferimento i centri delle classi al posto delle modalità.

Esempio. Distribuzione dei comuni della Valle D’Aosta secondo la superficie.

Superficie Numero dei
 comuni

Superficie
 totale

Centri delle
 classi

Fino a 1.000 8 6.209 500

1.001-2.000 14 21.024 1.500

2.001-4.000 27 78.445 3.000

4.001-6.000 9 44.871 5.000

6.001-10.000 8 57.034 8.000

10.001-25.000 8 118.944 17.500

ni Ti ci

R = 0,44

A

i

= x

( )1

× n

( )1

+ x

( )2

× n

( )2

+!+ x

( )i

× n

( )i

informazione disponibile al momento

A

k

= x

( )1

× n

( )1

+ x

( )2

× n

( )2

+!+ x

( )k

× n

( )k

informazione totale

A

i

= T

( )1

+ T

( )2

+!+ T

( )i

A

i

= T

( )1

+ T

( )2

+!+ T

( )k

(14)

Distribuzioni multiple

Quando si raccolgono più informazioni su una singola unità…

Genere: uomo donna Nascita: mese anno

Componenti della famiglia (incluso l’intervistato): _______

Vi sono componenti di età minore di 12 anni? si no

Titolo di studio: scuola dell’obbligo diploma laurea triennale laurea magistrale dottorato

Residenza: città Roma provincia RM regione Lazio Italia estero Occhiali da vista: si no Scrittura con la mano: destra sinistra Fumo: si no Per lo più, passeggi: da solo con altri

Sport? no individuale di squadra Animale di compagnia? si no Lavoro? no pensionato occasionale tempo determinato

tempo indeterminato

(15)

Raccolta dei dati

Genere:

uomo 0

donna 1

Stato civile:

celibe/nubile 1

coniugato/convivente 2

separato/divorziato 3

vedovo 4

Scrittura con la mano:

destra 1

sinistra 0

Componenti di età minore di 12 anni:

si 1

no 0

Residenza:

Roma

provincia RM

Lazio

Italia

estero

Fumo:

si 1

no 0

Titolo di studio:

scuola dell’obbligo 1

diploma 2

laurea triennale 3

laurea magistrale 4

dottorato 5

Occhiali:

si 1

no 0

Per lo più passeggi:

da solo 1

con altri 0

Etc…

Memorizzazione in un foglio elettronico

👇

👇

(16)

Raccolta dei dati

Memorizzazione in un foglio elettronico

(17)

Distribuzione unitaria doppia

Si tratta dell’elencazione delle modalità di due caratteri, osservate per ogni unità statistica del campione considerato

👉

distribuzione doppia disaggregata

Rappresentata come

{ ( x

1

, y

1

) , x (

2

, y

2

) , …, x (

n

, y

n

) }

(18)

Distribuzione unitaria doppia

Si tratta dell’elencazione delle modalità di due caratteri, osservate per ogni unità statistica del campione considerato

👉

distribuzione doppia disaggregata

Rappresentata come

{ ( x

1

, y

1

) , x (

2

, y

2

) , …, x (

n

, y

n

) }

Id. Genere Occhiali 1 maschio si

2 maschio no 3 femmina si 4 femmina no 5 femmina no

… … …

(19)

Distribuzione unitaria doppia

Si tratta dell’elencazione delle modalità di due caratteri, osservate per ogni unità statistica del campione considerato

👉

distribuzione doppia disaggregata

Rappresentata come

{ ( x

1

, y

1

) , x (

2

, y

2

) , …, x (

n

, y

n

) }

Id. Genere Occhiali 1 maschio si

2 maschio no 3 femmina si 4 femmina no 5 femmina no

… … …

👉

Lo spoglio dei dati

occhiali si (1) occhiali no (0) maschio (0) X X

femmina (1) X XX

(20)

Distribuzione unitaria doppia

Si tratta dell’elencazione delle modalità di due caratteri, osservate per ogni unità statistica del campione considerato

👉

distribuzione doppia disaggregata

Rappresentata come

{ ( x

1

, y

1

) , x (

2

, y

2

) , …, x (

n

, y

n

) }

Id. Genere Occhiali 1 maschio si

2 maschio no 3 femmina si 4 femmina no 5 femmina no

… … …

👉

Lo spoglio dei dati

occhiali si (1) occhiali no (0) maschio (0) X X

femmina (1) X XX

👇

( ) 0,0 , 0,1 ( ) , 1,0 ( ) , 1,1 ( )

{ }

( ) 0,0 , 0,1 ( ) , 1,0 ( ) , 1,1 ( )

{ { ( ) 0,0 , 0,1 ( ) { { ( ) ( ) , 1,0 ( ) 0,0 0,0 { ( ) 0,0 { , 0,1 , 0,1 , 1,1 ( ) ( ) ( ) ( ) 0,0 , 0,1 } ( ) } , 1,0 , 1,0 ( ) , 0,1 ( ) ( ) , 1,0 ( ) , 1,1 , 1,1 , 1,0 ( ) ( ) ( ) , 1,1 ( ) } } , 1,1 ( ) ... } }

(21)

Tabella a doppia entrata

Se si vogliono esaminare due caratteri contemporaneamente, un utile strumento per riassumere le informazioni raccolte sui due caratteri è rappresentato dalla tabella a doppia entrata.

Occhiali

Genere occhiali no occhiali si Totale

maschi 62 29 91

femmine 31 41 72

Totale 93 70 163

Distribuzione marginale del carattere occhiali

Distribuzione marginale del carattere genere

Frequenze assolute congiunte

Distribuzione congiunta

(22)

Tabella a doppia entrata

Se si vogliono esaminare due caratteri contemporaneamente, un utile strumento per riassumere le informazioni raccolte sui due caratteri è rappresentato dalla tabella a doppia entrata.

Occhiali

Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

Distribuzione marginale del carattere occhiali

Distribuzione marginale del carattere genere

Frequenze relative percentuali

62

163 ×100

31

163 ×100 93

163 ×100

Distribuzione congiunta

(23)

Istogramma tridimensionale

(24)

Istogramma tridimensionale

maschi femmine

Occhiali

Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

(25)

Istogramma composto

0 10 20 30 40

occhiali no occhiali si

0 15 30 45 60

occhiali no occhiali si

Distribuzione marginale occhiali

Occhiali

Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

(26)

0 25 50 75 100

occhiali no occhiali si 0

15 30 45 60

occhiali no occhiali si

maschi femmine

Istogramma composto

Proiezione su 100

👇

Occhiali

Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

(27)

Occhiali

Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

Distribuzione congiunta

Distribuzione condizionata

Tra coloro che non portano occhiali, qual è la percentuale di maschi?

(28)

Occhiali

Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

Distribuzione congiunta

Distribuzione condizionata

Tra coloro che non portano occhiali, qual è la percentuale di maschi?

NON è il 38,04%!

(29)

Occhiali

Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

Distribuzione congiunta

Distribuzione condizionata

Tra coloro che non portano occhiali, qual è la percentuale di maschi?

NON è il 38,04%!

38,04

57,06 ×100 = rapporto di composizione = 66,67%

(30)

Occhiali

Genere occhiali no occhiali si Totale maschi 38,04% 17,79% 55,83%

femmine 19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

Distribuzione congiunta

Distribuzione condizionata

Tra coloro che non portano occhiali, qual è la percentuale di femmine?

NON è il 19,02%!

19,02

57,06 ×100 = rapporto di composizione = 33,33%

(31)

Notazione

Frequenze assolute

Totale

Totale

Frequenze relative

Totale

Totale Frequenze relative condizionate

Totale

x

1

x

x

2

y

1

y

2

n

11

n

12

n

21

n

22

n

1*

n

2*

n

*1

n

*2

n

x

1

x

x

2

y

1

y

2

f

11

f

12

f

21

f

22

f

1*

f

2*

f

*1

f

*2

1 y

y

x

1

x

x

2

y

1

y

2

y

1 1

n

*1

= n

11

+ n

21

n

1*

= n

11

+ n

12

👈

👈

👉

f

1|1

f

1|2

f

2|1

f

2|2

f

*1

= f

11

+ f

21

= n

11

n + n

21

n f

1*

= f

11

+ f

12

= n

11

n + n

12

n

f

1|1

= f

11

f

*1

, f

1|2

= f

12

f

*2

(32)

Il paradosso di Simpson

Ad Alberto & Barbara piace giocare a basket e si sfidano in una gara di tiri.

Ognuno prova 200 tiri con i seguenti risultati.

Alberto Barbara Canestri 100 80

Fuori 100 120 Totale 200 200

A prima vista si direbbe Alberto perché ha una percentuale

di centri del 50% contro il 40%

di Barbara.

Stratifichiamo rispetto ai tiri da sotto canestro

Alberto Barbara

da fuori da sotto totale da fuori da sotto totale

Canestri 10 90 100 50 30 80

Fuori 30 70 100 100 20 120

Totale 40 160 200 150 50 200

(33)

Stratifichiamo rispetto ai tiri da sotto canestro

Alberto Barbara

da fuori da sotto totale da fuori da sotto totale

Canestri 10 90 100 50 30 80

Fuori 30 70 100 100 20 120

Totale 40 160 200 150 50 200

Il paradosso di Simpson

(34)

Nei tiri da fuori Alberto ha una percentuale del 25% (10/40) mentre Barbara ha una percentuale del 33% (50/150). Nei tiri da fuori è più brava Barbara.

Alberto Barbara

da fuori da sotto totale da fuori da sotto totale

Canestri 10 90 100 50 30 80

Fuori 30 70 100 100 20 120

Totale 40 160 200 150 50 200

Stratifichiamo rispetto ai tiri da sotto canestro

Il paradosso di Simpson

(35)

Nei tiri da fuori Alberto ha una percentuale del 25% (10/40) mentre Barbara ha una percentuale del 33% (50/150). Nei tiri da fuori è più brava Barbara.

Nei tiri da sotto canestro, Alberto ha una percentuale del 56,25% (90/160) mentre Barbara ha una percentuale del 60% (30/50). Dunque anche nei tiri da sotto

canestro Barbara è più brava!

Alberto Barbara

da fuori da sotto totale da fuori da sotto totale

Canestri 10 90 100 50 30 80

Fuori 30 70 100 100 20 120

Totale 40 160 200 150 50 200

Stratifichiamo rispetto ai tiri da sotto canestro

Il paradosso di Simpson

Riferimenti

Documenti correlati

Non vi è un altro carattere (inizio stringa) Vi è un altro carattere, ma non è una lettera. Fine di parola: lettera, dopo la quale non vi è

-Stampare tutte le copie che desideri utilizzare in classe o a casa -Pubblicarlo online sui tuoi canali, impegnandoti a citarne la fonte e condividere il collegamento alla

¨  Nell’input di stringhe, la scanf scarta automaticamente i white space iniziali e continua a leggere fino a quando incontra un white space (quindi non si può usare la scanf

dalla definizione di prob... che almeno uno

Ci serviamo di un indice j che scorre tutti i caratteri della stringa nome assegnata in input finché non raggiunge il carattere nullo; ognuno di questi caratteri deve essere

cost = 20; // estero ancora più

cost = 10; // Hawaii più costoso else // NON FUNZIONA. cost = 20; // estero ancora

cost = 20; // estero ancora più