• Non ci sono risultati.

Corso diAnalisi Statistica per le Imprese Indici di variabilità ed eterogeneitàProf

N/A
N/A
Protected

Academic year: 2021

Condividi "Corso diAnalisi Statistica per le Imprese Indici di variabilità ed eterogeneitàProf"

Copied!
25
0
0

Testo completo

(1)

Corso di

Analisi Statistica per le Imprese

Indici di variabilità ed eterogeneità

Prof . L. Neri

a.a. 2017-2018

(2)

Variabilità

• La variabilità di una distribuzione esprime la tendenza delle unità di un collettivo ad

assumere diverse modalità del carattere.

• Per misurare la variabilità di una distribuzione si ricorre agli indici di variabilità che devono rispettare le seguenti caratteristiche:

-assumere valore minimo se tutte le unità della distribuzione presentano la stessa modalità del carattere

-aumentare al crescere della “diversità” tra le

(3)

Variabilità

• Il calcolo di una media non esaurisce la descrizione sintetica di un fenomeno

osservato in un collettivo

• Due insiemi di valori o due distribuzioni di frequenza, pur avendo lo stesso valore

medio, possono essere molto differenti tra di loro

• Gli indici di variabilità forniscono

informazioni complementari a quelle degli indici medi

(4)

Punti

vendita Ricavi Costi addetti ubicazione Genere

respons. Vendita On-line

R.O

1 350 205 5 centro maschio si 145

2 200 100 3 periferia maschio si 100

3 600 350 10 semicentro femmina no 250

4 500 270 10 periferia femmina no 230

5 270 200 6 centro maschio no 70

6 180 120 3 centro maschio no 60

7 205 105 3 periferia maschio no 100

8 340 210 5 semicentro femmina no 120

(5)

Variabilità

Ricavi

350 200 600 500 270 180 205 340 280

Ricavi (A)

Ricavi (B)

Ricavi (C)

325 300 140

325 350 270

325 400 830

325 200 605

325 300 120

325 325 200

325 300 190

325 400 200

325 350 370

Distribuzione osservata

Distribuzioni teoriche

Le 3 distribuzioni

teoriche hanno la stessa media della

distribuzione osservata

La sintesi con la media aritmetica porta allo stesso risultato

325 x 

Eppure le distribuzioni sono molto diverse tra di loro

(6)

Alcuni indici di variabilità

Il range (o campo di variazione)

è l’ampiezza dell’intervallo che contiene tutti i valori della distribuzione

La differenza interquartile

è l’ampiezza dell’intervallo che contiene il 50% dei valori (quelli centrali)

min

max x

x

range

1

3 Q

Q dQ

(7)

Esempio

Ricavi

350 200 600 500 270 180 205 340 280

Ricavi (A)

Ricavi (B)

Ricavi (C)

325 300 140

325 350 270

325 400 830

325 200 605

325 300 120

325 325 200

325 300 190

325 400 200

325 350 370

xmin 180 325 200 120

xmax 600 325 400 830

Range=xmax-xmin 420 0 200 710

Distr. A Variabilità nulla

Tutti i valori uguali

Passando da A a B

e da B a C, aumenta la variabilità perché i

valori cadono in un range sempre più ampio

(8)

Indici basati sullo scostamento dalla media

La varianza σ2 è funzione delle differenze (scarti) tra ogni valore xi e la media

La devianza è il numeratore della varianza

 

n

1 1

2 i

2 x x

n

1

 

n

1 i

2

i x

x )

X ( Dev

2  0

x

(9)

Indici basati sullo scostamento dalla media

La deviazione standard (o scarto quadratico medio) è la radice quadrata della varianza

Il coefficiente di variazione CV è il rapporto tra la dev. standard e la media moltiplicato per 100

 

n

1 i

2

i x

n x

1

x 100

CV x  0

(10)

Confronto tra due distribuzioni in termini di variabilità

CV si calcola per confrontare la variabilità

della distribuzione del carattere X con quella del carattere Y quando sono espressi o con diversa unità di misura o con diverso ordine di grandezza

Se CVX>CVy allora la variabilità del carattere X è maggiore di quella del carattere Y

(11)

11

Esempio di calcolo

Ricavi xj

Scarti dalla media

(xj-μ)

Quadrato degli scarti (xj-μ)2

350 25 625

200 -125 15625

600 275 75625

500 175 30625

270 -55 3025

180 -145 21025

205 -120 14400

340 15 225

280 -45 2025

325 x

media

x x0

n 1

i i

x xDev(X) 163200

n 1 i

2

i

 

3 , 18133 9

163200

n ) X ( x Dev

n x

1 n 2

1 i

2 i

 

7 , 134 3

, 18133

x n x

1 n

1 i

2 i

Per la proprietà della media

Devianza=163200

Varianza=18133,3

Dev.std.=134,7

(12)

Variabilità dei ricavi dei punti vendita

• Un basso grado di variabilità indica che i punti vendita realizzano performance

simili (i ricavi si discostano poco tra di loro)

• Viceversa un alto grado di variabilità fa capire che c’è una certa eterogeneità nei risultati delle vendite ottenuti nei diversi negozi

(13)

Varianza di una distribuzione di frequenza

 

6,10

9 88 , n 54

x n x

1

j K

1 j

2 j

2

Addetti (xj)

Numero punti vendita

(nj)

3 2

4 1

6 3

7 1

10 2

(xj-μ)2*nj

19,34 4,45 0,04 0,79 30,26

11 , 6

x 

47 , 2 10

,

6

100 40,43%

11 , 6

47 ,

CV 2

(14)

Box plot

Q1 max

Q3 Q2

min

L’altezza del box indica la dispersione del 50% delle osservazioni centrali intorno alla mediana.

Si evidenzia una certa simmetria nella parte centrale, dato che la

differenza Q2-Q1 non è molto diversa da Q3-Q2

I segmenti esterni al box indicano la dispersione dei valori estremi.

Si nota una maggiore

dispersione del 25% dei valori

(15)

Data Visualization (ESEMPIO)

histogram a bar graph designed to show frequencies:

November 21, 2021

15

There are nearly 30 States with population under 5 millions and few States with more than 10 millions of inhabitants.

With nearly 40 Statest clustered into the first couple of bars, we may lose some details, so…

(16)

Data Visualization (ESEMPIO)

We decide the number of bars with the break option: hist(US_POP2017_R$respop, break=20)

Now we have 2 million for each bar, so: there 15 States with

population under 2 millions, 10 with

population within 2 and 4 millions….

(17)

Data Visualization (ESEMPIO)

The box plot is a standardized way of displaying the distribution of data based on the five number summary: min, first quartile, median, third quartile, and max.

boxplot(US_POP2017_R$respop,data=US_POP2017_R, main="USA Population")

November 21, 2021

Data Mining: Concepts and Techniques 17

The box spans the interquartile range; the median is marked by the bold line inside the box;

the whiskers are the two lines outside the box.

Here high variability due to some huge values

(18)

Calcolo dei valori standardizzati

Se il carattere quantitativo X ha media

e deviazione standard σ allora è possibile sempre ottenere i suoi valori standardizzati

x

/ i 1...n

x x

y

i i

La distribuzione del carattere Y avrà allora media zero e deviazione standard uguale ad 1

(19)

Confronto del rendimento di due investimenti (uguale media)

Negli ultimi cinque anni, due fondi di investimento F1 e F2 hanno

avuto lo stesso rendimento medio annuo, ma le varianze sono molto diverse Var(F1)>Var(F2)

F1 F2 2003 7,7 6,4 2004 6,1 5,9 2005 0,4 3,2 2006 9,8 7,1 2007 3,5 4,9 media 5,5 5,5 var 10,7 1,8

Una varianza maggiore indica che rendimenti molto diversi dalla media sono più frequenti

Maggiore volatilità Maggior rischio

A parità di rendimento medio, il cliente che è disposto ad accettare un rischio più alto sceglierà di investire in F1

(20)

Confronto del rendimento di due investimenti (media diversa)

Il rendimento di F1 ha registrato una

media e una varianza superiore a quello di F2

Si può concludere che F1 rappresenta un investimento più rischioso rispetto a F2?

F1 F2 2003 9,7 1,4 2004 7,1 1,9 2005 0,9 2,2 2006 9,9 2,1 2007 7,5 4,9 media 7,0 2,5

var 10,6 1,5 Le due medie hanno un ordine di grandezza diverso

CV 46,5 49,3

la variabilità si confronta con CV

(21)

Omogeneità ed eterogeneità

Sono aspetti della variabilità di un carattere qualitativo

• Eterogeneità nulla (o massima omogeneità)

→ Il carattere assume un’unica modalità (tutte le unità del collettivo presentano quella modalità)

• Eterogeneità massima (o minima

omogeneità) → Il carattere presenta tutte le modalità e a ciascuna di esse è associata la stessa frequenza

(22)

Eterogeneità

Eterogeneità nulla

(tutte le unità hanno la stessa modalità)

Eterogeneità massima (a ciascuna modalità è associata la stessa

frequenza)

Mod. Freq.

rel.

a 1

Mod. Freq.

rel.

a1 1/k a2 1/k

(23)

Indice di eterogeneità

Indice di

eterogeneità di Gini

Indice relativo di

eterogeneità di Gini

Mod. Freq. Freq. rel.

a1 n1 f1 a2

n2

f2 ..

aj nj fj aK nK fK

K

1 j

2 j

1 1 f

E

K 1 E K

0 1

1 K

E K

K 1 K

e1 E1 1

1 e

0 1

(24)

Eterogeneità dell’ubicazione dei punti vendita

Ubicazione

del p.v. F. ass.

(nj) F. rel.

(fj)

Centro 4 0,45

Semicentro 2 0,22

Periferia 3 0,33

Totale 9 1,00

0,20 0,05 0,11 0,36

2

fj

64 , 0 36

, 0 1

f 1

E1

K j2

67 , 3 0

2 K

1 E K

0 1

(25)

Eterogeneità dell’ubicazione dei punti vendita

Distr. osservata Ubicazione

del p.v. F. ass.

(nj) F. rel. (fj)

Centro 4 0,45

Semicentro 2 0,22

Periferia 3 0,33

Totale 9 1,00

Distr. con la max eterog.

F. ass.

(nj)

F. rel.

(fj)

3 0,33

3 0,33

3 0,33

9 1,00

C’è un elevato grado di eterogeneità

La distribuzione osservata si avvicina a quella che si avrebbe nella situazione di massima eterogeneità

Riferimenti

Documenti correlati

In generale il livello di confidenza è indicato con (1-)% dove  è la probabilità che si trova nelle code della distribuzione, al di fuori dell’intervallo

• La prima relazione significa che le azioni che vengono svolte da chi opera nella prospettiva dell‘efficienza interna, devono portare alla fissazione del giusto volume di

L’area di ogni rettangolo deve essere uguale (o proporzionale) alla frequenza di ciascuna classe di valori in modo che l’area. complessiva di tutti i rettangoli sia uguale (o

Dalla formula 4.3.2 risulta che la varianza è uguale a zero se e solo se tutte le osservazioni sono uguali fra di loro (e uguali quindi alla loro media), mentre il suo valore tende

Dato che, come si vedrà nell’ultima parte di questo corso di Statistica, i procedimenti inferenziali sono molto più semplici quando la distribuzione reale di

Presentazione dei concetti di base di popolazione e campione Sintesi e presentazione in tabelle dei dati categorici. Presentazione grafica dei

Presentazione dei concetti di base di popolazione e campione Sintesi e presentazione in tabelle dei dati categorici. Presentazione grafica dei

Se ci limitassimo a confrontare la variabilità delle due produzioni semplicemente facendo riferimento allo scarto quadratico medio, dovremmo concludere che la seconda azienda ha