• Non ci sono risultati.

4. INDICI DI VARIABILITÀ E DI FORMA

N/A
N/A
Protected

Academic year: 2021

Condividi "4. INDICI DI VARIABILITÀ E DI FORMA"

Copied!
24
0
0

Testo completo

(1)

4. INDICI DI VARIABILITÀ E DI FORMA

4.1 Introduzione

L'aspetto che caratterizza una qualsiasi variabile X è la diversità delle modalità o dei valori assunti da X sulle n unità statistiche rilevate ed è proprio questa pluralità di determinazioni che rende necessaria l'utilizzazione dei metodi statistici per una sua adeguata descrizione. Lo studio di una variabile singolarmente considerata, così come quello delle relazioni fra variabili diverse che sarà analizzato nel capitolo seguente, è essenzialmente un'analisi della loro variabilità.

Tutti gli indici analizzati nel capitolo precedente forniscono informazioni utili sulla variabile oggetto di indagine e in particolare la moda, la media e la mediana sono chiamati indici della tendenza centrale perché sintetizzano l’insieme delle n osservazioni in un'unica modalità o valore che ha lo scopo di riassumere tutta l’informazione contenuta nelle n unità esaminate. Questi indici, però, non sono mai sufficienti per una descrizione dettagliata della variabile in esame perché due diversi gruppi di unità statistiche possono presentare una stessa moda, una stessa mediana o una stessa media, ma possono essere molto diversi per quanto riguarda la variabilità delle determinazioni assunte dalla variabile.

La situazione limite di assenza di variabilità, si avrebbe se tutte le n unità presentassero una stessa determinazione della variabile alla quale sarebbe associata, quindi, una frequenza assoluta pari a n (o frequenza relativa pari a 1), mentre tutte le altre frequenze sarebbero nulle.

Gli indici che saranno esaminati nelle prossime pagine permettono di confrontare la variabilità di variabili diverse rilevate su uno stesso gruppo di unità statistiche o la variabilità di una stessa variabile rilevata in luoghi o in tempi diversi. Questi indici devono verificare necessariamente alcune proprietà, tenuto conto del motivo per cui sono utilizzati.

In particolare, un indice di variabilità deve assumere il suo valore minimo in caso di assenza di variabilità, mentre deve assumere valori via via maggiori al crescere del grado di “diversità” esistente fra le n osservazioni

Nota

Saranno esaminati i più comuni indici di variabilità limitatamente al caso in cui la variabile è di tipo quantitativo, ma esistono indici diversi che permettono di misurare la variabilità di variabili qualitative.

(2)

4.2 Ampiezza del campo di variazione e differenza interquartile

Per misurare la variabilità di una variabile X di tipo quantitativo si fa di solito riferimento alla grandezza delle differenze fra i suoi valori, ossia alla cosiddetta dispersione dei valori all'interno del campo di variazione x = [x(1), x(n)] della X.

La variabilità della X risulta evidentemente tanto più bassa quanto più piccole sono le differenze fra i suoi diversi valori, per cui la situazione limite, di assenza di variabilità, si ha quando gli n valori rilevati sono tutti uguali fra di loro.

L'importanza della variabilità può essere illustrata, per esempio, considerando un’indagine volta a rilevare il reddito di n individui: a parità di reddito complessivo, un basso livello di variabilità corrisponde a una situazione in cui i redditi individuali sono tutti abbastanza simili fra loro, mentre una variabilità elevata corrisponde alla situazione in cui poche unità detengono una frazione rilevante del reddito totale.

Un’altra situazione in cui risulta evidente l'importanza del grado di variabilità di una variabile si ha quando si confrontano i rendimenti di diverse forme di investimento. A parità di rendimento medio, infatti, è essenziale tenere presente anche la variabilità, che può essere considerata come una misura del rischio connesso con i diversi tipi di investimento.

Uno dei più semplici indici di variabilità è l’ampiezza del campo di variazione che, considerata la sequenza ordinata in modo non decrescente degli n valori assunti dalla variabile sulle unità statistiche esaminate, assume la forma

x = x(n) − x(1) . 4.2.1

Questo indice risulta pari a zero se e solo se tutti gli n valori sono uguali fra loro e tende ad assumere valori crescenti al crescere della variabilità della variabile.

Nel caso dei dati riportati nell’esempio 2.1.1 l’ampiezza del campo di variazione corrisponde alla differenza 11.8 − 11.2 ed è quindi pari a 0.6, mentre nell’esempio 2.1.4 il medesimo indice assume il valore 81.9 − 0.8 = 81.1.

Il difetto principale dell’ampiezza del campo di variazione consiste nel fatto che il risultato della 4.2.1 dipende esclusivamente dal più piccolo e dal più grande valore rilevato, per cui è fortemente influenzato della presenza di eventuali valori anomali. Inoltre, se la distribuzione è in classi e la prima e/o l’ultima

(3)

classe sono aperte, il risultato è influenzato dalla chiusura di tali classi. A causa di questi motivi, l’ampiezza del campo di variazione è un indice poco usato.

Un altro semplice indice di variabilità è la differenza interquartile

Wx = x0.75 − x0.25 4.2.2

fra il terzo e il primo quartile.

Nel caso dei dati riportati nell’esempio 2.1.4 il primo quartile occupa il settimo posto nella sequenza dei 25 valori ordinati in senso non decrescente, mentre il terzo quartile occupa il diciannovesimo posto.

Pertanto la differenza interquartile corrisponde alla differenza 27.8 – 6.1 = 21.7.

A differenza dell’ampiezza del campo di variazione, l’indice Wx non risente dell’eventuale presenza di valori anomali, ma ha comunque il difetto di dipendere esclusivamente da due soli valori caratteristici calcolati sulle n osservazioni.

(4)

4.3 Varianza

Gli indici di variabilità di uso più frequente sono i cosiddetti indici di dispersione, basati sulle differenze fra i valori 𝑥𝑖 (i = 1, 2, …, n) assunti dalla variabile X sulle n unità esaminate rispetto a un qualche indice della tendenza centrale, che tipicamente è la media aritmetica 𝑥̅.

L’ordine di grandezza di queste n differenze

𝑥𝑖− 𝑥̅ 4.3.1

va poi valutato mediante il calcolo di un opportuno valore medio, ma va innanzitutto tenuto presente che, per quanto riguarda la misura della variabilità, uno scarto 4.3.1 di segno negativo ha la stessa rilevanza di uno scarto di segno positivo, per cui è necessario che nel calcolo della media gli scarti di segno diverso non si compensino fra loro.

Per questo motivo gli indici di dispersione si basano sugli scarti considerati in valore assoluto oppure sugli scarti elevati a una potenza pari.

Uno degli indici di variabilità più utilizzati in statistica è la varianza, che corrisponde alla media aritmetica dei quadrati degli n scarti della variabile X dalla sua media aritmetica.

Se si dispone della sequenza degli n valori rilevati x1, x2, …., xn, la varianza di una variabile quantitativa X, usualmente indicata con s2x, è data da

( )

=

= n

i i

x x x

s n

1 2 1 2

4.3.2

e corrisponde quindi al secondo momento centrale, come risulta dal confronto con la 3.6.8, per cui di solito viene calcolata facendo la differenza fra il secondo momento della variabile e la sua media elevata al quadrato.

Dalla formula 4.3.2 risulta che la varianza è uguale a zero se e solo se tutte le osservazioni sono uguali fra di loro (e uguali quindi alla loro media), mentre il suo valore tende a crescere al crescere dell'ampiezza degli scarti.

(5)

Esempio 4.3.1

Su 5 unità sono state rilevati i valori x

1=7, x

2=8, x

3=12, x

4=15 e x

5=18 di una variabile quantitativa discreta X. Per calcolare la varianza della variabile conviene innanzitutto calcolarne la media

5 12 60 5

18 15 12 8 7

1 + + + + = =

=

= x

m ,

e la media dei quadrati (o il secondo momento) 161.2 5

806 5

18 15 12 8

72 2 2 2 2

2 + + + + = =

m = .

La varianza risulta quindi pari a sx2=m2x2=161.2−122 =17.2 .

Se i dati raccolti sono organizzati in una distribuzione di frequenza, la varianza è data da

( )  ( )

= =

=

= k

j

j j

k

j

j j

x c x n c x f

s n

1

2 1

2

2 1

4.3.3

ed infine, se la distribuzione è raggruppata in classi, gli scarti da considerare ai fini del calcolo sono quelli fra i valori centrali delle classi e la media aritmetica, per cui il valore approssimato di s2x è dato da

(

c x

)

n

(

c x

)

f .

s n

k

j

j j

k

j

j j

x

 

=

=

=

1

2 1

2

2 1

4.3.4

Esempio 4.3.2

Data la seguente distribuzione relativa a una variabile discreta X

Determinazioni Frequenza relativa cumulata

2 0.25

4 0.75

6 1.00

calcolarne la varianza.

Le frequenze relative associate a ciascuna determinazione della X risultano quelle riportate nella tabella seguente Determinazioni Frequenza relativa

2 0.25

4 0.50

6 0.25

per cui si ottiene

𝑥̅ = 2×0.25 + 4×0.5 + 6×0.25 = 4, m2 = 22×0.25 + 42×0.5 + 62×0.25 = 18 𝑠𝑥2 = 18 – 42 = 2

(6)

Esempio 4.3.3

Data la seguente distribuzione relativa a una variabile continua X

Classi Frequenza

5 - 6 45

6 - 8 30

8 - 12 25

100 si ottengono i seguenti risultati approssimati

075 . 100 7

25 10 30 7 45 5 .

5  +  +  = x

3125 . 100 53

25 10 30 7 45 5 .

5 2 2 2

2 + + =

m

256875 . 3 075 . 7 3125 .

53 2

2 =

sx

Prima proprietà

La varianza è un minimo, nel senso che la media dei quadrati degli scarti delle osservazioni da un qualsiasi valore h diverso dalla media aritmetica risulta sempre maggiore della varianza.

Dimostrazione

Questa proprietà deriva dalla quarta proprietà della media aritmetica. Considerata infatti una variabile quantitativa X e un valore h diverso dalla sua media aritmetica x, si vuole dimostrare che vale la seguente disuguaglianza

( ) (

x h

)

h x

x n n x

n

i i n

i

i − 

− 

= =

ogni 1 per

1

1

2 1

2 4.3.5

che corrisponde esattamente alla disuguaglianza 3.5.4, a parte la costante moltiplicativa 1/n. Pertanto, utilizzando lo stesso procedimento esaminato in precedenza, si ottiene

( )  ( ) ( )  ( ) ( ) ( ) ( )

( )

2

( )

2

( )

2

2

1 1

2 1

2 1

2 1

2

0 2

2 1 1

1 1

1

h x s h

x h

n x s n

x n x

h x h

n x x n x

h x x n x

h n x

x x

n

i i n

i n

i i n

i i n

i i

− +

=

− +

− +

=

=

− +

− +

=

− +

=

   

= = = = =

dato che la media della variabile scarto è pari a zero.

(7)

Il termine a destra nella disuguaglianza 4.3.5 può essere quindi scomposto nella somma della varianza più la differenza al quadrato fra la costante arbitraria h e la media aritmetica x , dove quest’ultima quantità risulta nulla se e solo se h =x.

Seconda proprietà

Considerata una variabile X di media x e varianza sx2, la varianza di una trasformazione lineare del tipo Y = a + bX corrisponde alla varianza della X moltiplicata per il quadrato del coefficiente b.

Dimostrazione

Questa proprietà è un caso particolare della proprietà dei momenti centrali di ordine r. Considerata l’uguaglianza 3.6.7 è infatti sufficiente sostituire al generico valore r il valore 2 per ottenere il risultato

𝑚̅2𝑦= 𝑠𝑦2= 𝑏2𝑠𝑥2= 𝑏2𝑚̅2𝑥 . 4.3.6

La 4.3.6 indica che un semplice cambiamento dell’origine della scala di misura non ha effetto sul valore assunto dalla varianza, che invece risente di un eventuale cambiamento della scala di misura stessa.

L’invarianza della varianza rispetto a traslazioni è una proprietà abbastanza intuitiva, dato che un eventuale slittamento della distribuzione lungo l’asse delle ascisse (in un senso o nell’altro) non modifica la struttura della distribuzione stessa e quindi non ne modifica la variabilità.

Se, per esempio, si volesse valutare la variabilità del peso di un determinato bene confezionato in modo standard, sarebbe irrilevante considerare i pesi lordi anziché i pesi netti.

Se, invece, la statura di un gruppo di persone venisse misurata una volta in millimetri e la seconda volta in centimetri, nel primo caso si otterrebbe una varianza 100 volte più grande di quella ottenuta nel secondo caso. Allo stesso modo, se il peso corporeo di un gruppo di neonati venisse misurato in chilogrammi, la varianza risulterebbe un milione di volte più piccola di quella che si sarebbe ottenuta effettuando la rilevazione in grammi.

Esempio 4.3.4

Data una variabile X di media x=4 varianza s2x =3, si determini media e varianza delle seguenti variabili

trasformate X

5 2 3 Y=− + ,

5 X 3 2

W=− + , X

2 1 4 Z=1− .

Risulta

5; 4 2 5 2 3 5

2+3 =− +  =

= x

y

25 3 27 25

9 5

3 2 2

2  =  =

 

= x

y s

s ;

(8)

5 ; 8 37 5 4 3 5 2 2 3 5

3− = −  = − =−

= x

w s2w=

( )

22s2x =43=12;

8; 4 7 2 1 4 1 2 1 4

1− = −  =−

= x

z 4

3 3 4 1 2

1 2 2

2  =  =

 

−

= x

z s

s .

Come caso particolare di trasformazione lineare si consideri la variabile

sx

x

=X

Y 4.3.7

detta variabile scarto standardizzato, che si ottiene dalla 3.5.1 ponendo a = −𝑥̅/𝑠𝑥 e b = 1/𝑠𝑥. La particolarità di questa variabile è che la sua media è pari a zero, come già evidenziato per la variabile scarto definita dalla 3.5.3, mentre la sua varianza è pari a 1, come risulta dalla 4.3.6.

Terza proprietà: scomposizione della varianza

Se le n unità statistiche oggetto di indagine sono naturalmente suddivise in g gruppi distinti, la varianza della variabile X può essere scomposta nella somma della media ponderata delle varianze nei gruppi più la varianza delle medie dei gruppi.

Indicata con nh la numerosità dell’h-esimo gruppo (h = 1, 2, …, g), con n n,

g

h h=

=1

e con x e h sh2 la media e la varianza della variabile X all’interno dell’h-esimo gruppo, si dimostra che la varianza complessiva sx2 della X è data dalla somma

( )

= =

− +

= g

h

h h

g

h h h

x x x n

n n n s s

1

2 1

2

2 1 1

La prima quantità alla destra del segno di uguaglianza corrisponde alla media delle varianze dei gruppi ponderata con la numerosità dei gruppi e rappresenta quindi una misura della variabilità “all’interno dei gruppi”. Infatti risulta nulla se e solo se la varianza di ogni gruppo è nulla, ossia se la variabile X assume sempre uno stesso valore all’interno di ciascun gruppo. Questa quantità viene usualmente chiamata varianza within (o varianza all’interno dei gruppi) ed è indicata con il simbolo sw2,

(9)

. n n s s

g

h h h

w

=

=

1 2

2 1

4.3.8

La seconda quantità alla destra del segno di uguaglianza corrisponde invece alla varianza delle medie dei gruppi dato che la media delle medie parziali dei gruppi è uguale alla media generale di X, e rappresenta quindi una misura della variabilità “fra i gruppi”. Infatti risulta nulla se e solo le medie di ogni gruppo sono uguali fra loro e uguali, quindi, alla media generale della variabile X. Questa quantità viene usualmente chiamata varianza between (o varianza fra i gruppi) e viene indicata con il simbolo sb2 ,

(

x x

)

n . s n

g

h

h h

b

=

=

1

2

2 1

4.3.9

Pertanto la proprietà della scomposizione della varianza può essere anche espressa nella forma equivalente

. s s

sx2 = w2+ b2 4.3.10

Dimostrazione

Gli n valori di X possono essere identificati mediante due indici: il primo indica la posizione occupata dall’osservazione nel gruppo, mentre il secondo indica il numero identificativo del gruppo. La notazione x

ih indica l’i-esima osservazione appartenente all’h-esimo gruppo (con i =1, 2, …, nh e h = 1, 2, …, g).

La varianza s2x può allora essere scritta anche nel modo seguente

(

x x

)

. s n

nh

i g

h ih

x



= =

=

1 1

2 1 2

Sommando e sottraendo la media dell’h-esimo gruppo all’interno della parentesi tonda si ottiene

( )   ( ) ( ) 



= = = =

− +

=

− +

= h h

n

i g

h

h h ih n

i g

h

h h ih

x x x x x

x n x x n x

s

1 1

2

1 1

2

2 1 1

da cui, sviluppando il quadrato del binomio, risulta

(10)

( ) ( ) (

x x

)(

x x

)

. x n

n x x n x

s

h h

h n

i g

h

h h ih n

i g

h h n

i g

h

h ih

x

  

= =

= =

= =

− +

− +

=

1 1

1 1

2

1 1

2

2 1 1 1

4.3.11

Tenendo presente che la varianza dell’h-esimo gruppo è data da

(

x

)

,

1

1

2

2

=

= h

n

i

h ih

h h x

s n

si nota subito che il primo dei tre addendi che compaiono a destra del segno di uguaglianza nella 4.3.11 corrisponde a

( ) ( )

1 .

1 x

1 x 2

1 2

1 1

2

1 1

2

w g

h h h g

h n

i

h ih n

i g

h

h

ih s n s

x n x n

n

h

h = =





 −

=

  



= = = = =

Tenendo presente la 4.3.9, il secondo addendo a destra del segno di uguaglianza nella 4.3.11 corrisponde invece a

( )

1

( )

1

( )

.

1 2

1

2

1 1

2

1 1

2

h b g

h h n

i g

h h n

i g

h

h x x n s

x n n x

x n x

h

h = − =





 −

=

  



= = = = =

L’ultimo termine a destra nella 4.3.11, infine, risulta uguale a zero perché corrisponde al prodotto di una costante per la somma degli scarti dalla media. Resta quindi dimostrata l’uguaglianza 4.3.10.

(11)

4.4 Altri indici di variabilità

Una volta fissata l’unità di misura da utilizzare per rilevare i valori della variabile X, la varianza risulterà espressa nell'unità di misura al quadrato, dato che corrisponde alla media dei quadrati degli scarti della variabile dalla sua media aritmetica.

Per esempio, nel caso si voglia valutare la variabilità delle stature di n individui misurate in centimetri, la varianza risulterà espressa in centimetri quadrati, mentre la varianza del loro peso corporeo, se misurato in chilogrammi, sarà espressa in chilogrammi al quadrato.

Per superare questo inconveniente, che rende più complessa l’interpretazione del risultato ottenuto, spesso si utilizza, al posto della varianza, la sua radice quadrata.

Questo indice, detto deviazione standard (o scarto quadratico medio o scostamento quadratico medio), fornisce le stesse informazioni della varianza, dato che conoscere la varianza di una distribuzione equivale a conoscerne la deviazione standard e viceversa.

La deviazione standard di una variabile quantitativa X viene comunemente indicata mediante il simbolo sx

oppure, se è evidente che si tratta della variabile X, semplicemente dalla lettera s.

A seconda di come sono organizzati i dati, la deviazione standard corrisponde alle espressioni

(

x

)

,

s n

n

i i

x

=

=

1

x 2

1 4.4.1

(

c x

)

n

(

c x

)

f ,

s n

k

j

j j

k

j

j j

x

 

=

=

=

=

1

2 1

1 2

4.4.2

( ) ( )

= =

=

k

j

j j

k

j

j j

x c x n c x f

s n

1

2 1

1 2

4.4.3

Tutte le precedenti formule sono immediatamente ricavabili da quelle della varianza nei tre diversi casi.

Per la sequenza del numero di dipendenti considerata dell’esercizio 3.4.1, per esempio, la media dei quadrati m2 risulta pari a 160.8 mentre il quadrato della media aritmetica è 100, per cui la varianza risulta uguale a 60.8 e la deviazione standard a circa 7.7974.

(12)

Proprietà

Considerata una variabile X avente deviazione standard sx, la deviazione standard di una trasformazione lineare del tipo Y = a + bX corrisponde alla deviazione standard della X moltiplicata per il coefficiente b preso in valore assoluto

x

y bs

s =

ed è quindi invariante rispetto a traslazioni, come la varianza

Dimostrazione

Tenendo conto la seconda proprietà della varianza e ricordando che la deviazione standard corrisponde alla sua radice quadrata, è evidente che deve valere la seguente uguaglianza

x x

y b s bs

s = 2 2 = 4.4.4

dato che la deviazione standard, essendo un indice di variabilità, non può mai assumere un valore minore di zero.

In alcune situazioni reali si può voler confrontare la variabilità di più variabili diverse come, per esempio, i pesi corporei e le stature di un gruppo di individui, oppure la variabilità di variabili espresse in unità di misura diverse come nel caso di redditi espressi in valute differenti (Lire ed Euro, oppure Dollari ed Euro).

In queste situazioni la varianza e la deviazione standard non possono essere utilizzati, perché dipendono dall’unità di misura. Questi indici possono essere quindi utilizzati solo se le distribuzioni risultano omogenee, ossia se si riferiscono a variabili misurate con la stessa unità di misura, sempre se il loro ordine di grandezza non è molto diverso.

Se, per esempio, si volesse confrontare il peso corporeo di un gruppo di individui adulti e di un gruppo di neonati, l’unità di misura potrebbe essere il chilogrammo in entrambi i casi, ma una differenza di un solo chilogrammo assume un significato ben diverso nei due gruppi in esame.

In tutte queste situazioni la variabilità di una variabile viene confrontata ricorrendo a indici relativi, che sono svincolati dall’unità di misura utilizzata nella rilevazione. L’indice più utilizzato è il cosiddetto coefficiente di variazione (CV), dato dal rapporto fra la deviazione standard e la media aritmetica.

(13)

Considerata una variabile quantitativa X di media x e deviazione standard sx, il suo coefficiente di variazione è dato da

x

CVx =sx 4.4.5

che è un numero adimensionale, ossia indipendente dall’unità di misura utilizzata nella rilevazione, per cui può essere utilizzato per effettuare confronti in tutti quei casi analoghi agli esempi citati in precedenza.

Il coefficiente di variazione, così come ogni altro indice di variabilità relativo, può essere però utilizzato solo se i valori rilevati sono tutti non negativi (perché in caso contrario la media posta al denominatore potrebbe essere negativa e il corrispondente indice di variabilità risulterebbe minore di zero).

Un altro caso in cui è sconsigliato l’uso di questo indice è quando la variabile ha una media molto prossima allo zero, dato che in questo caso il coefficiente di variazione assumerebbe valori estremamente elevati.

Dati, per esempio, i valori riportati nella tabella successiva che si riferiscono ai risultati ottenuti dai primi 10 atleti classificati in tre diverse prove di decathlon nelle Olimpiadi del 19881 (i tempi sono misurati in secondi e le distanze in metri). Per determinare la specialità sportiva nella quale si rileva la maggiore variabilità dei risultati si ha la necessità di utilizzare un indice di variabilità relativo.

Tabella 4.4.1

Risultati ottenuti dai primi 10 atleti classificati in tre prove di decathlon (Olimpiadi del 1988)

salto in alto 2.27 1.97 1.97 2.03 1.97 2.12 2.06 2.00 2.03 1.97 400 metri 48.90 47.71 48.29 49.06 47.44 48.34 49.34 48.21 49.15 48.60 Giavellotto 61.32 61.76 64.16 64.04 57.46 52.18 61.60 63.00 66.46 59.48 Indicata con X la variabile “salto in alto”, con Y la variabile “400 metri” e con Z la variabile “lancio del giavellotto” i coefficienti di variazione (approssimati a 4 cifre decimali) risultano pari a

0441 x 0.

sx = ,

1 International Athletic Federation, London. Quoted in Lunn A.D. and McNeil D.R. (1991), Computer-interactive data analysis, Chichester: John Wiley & Sons, 276.

(14)

0122 y 0.

sy

= ,

0626 z 0.

sz

= ,

per cui la maggiore variabilità dei risultati si ha per il lancio del giavellotto, per il quale le osservazioni si discostano dalla media per una quantità di poco superiore al 6% della media stessa.

Proprietà del CV

Considerata una variabile X di media x e varianza sx2, il coefficiente di variazione di una trasformazione lineare del tipo Y = a + bX corrisponde a

x. b a

s b y

CVy sy x

= +

=

Dimostrazione

Questa dimostrazione deriva in realtà dalle proprietà degli indici che compaiono al numeratore e al denominatore del coefficiente di variazione. Tenendo infatti presente la proprietà della deviazione standard descritta in questo paragrafo e la media aritmetica di una trasformazione lineare si ottiene il risultato precedente.

Se si volesse determinare il coefficiente di variazione di una trasformazione del tipo

Y = bX

il parametro b, che rappresenta il fattore di scala, dovrebbe risultare necessariamente positivo (dato che il coefficiente di variazione può essere calcolato solo per variabili che non assumono valori negativi).

Sotto questa condizione si ottiene

0

>

per b x CV

s x b bs y

CVy=sy = x = x = x ,

per cui il coefficiente di variazione della variabile Y coincide con quello della variabile originale X.

(15)

4.5 Asimmetria e curtosi

Oltre agli indici di posizione e di variabilità in statistica vengono utilizzati anche indici diversi che descrivono altri aspetti dell'assetto distributivo di una variabile quantitativa, precisandone la forma. Per questo motivo vengono spesso chiamati indici di forma.

Una sequenza ordinata di valori di una variabile X si dice simmetrica se gli scarti negativi rispetto al centro del campo di variazione della variabile risultano tutti ordinatamente uguali, in valore assoluto, ai corrispondenti scarti positivi.

Un esempio di sequenza simmetrica è rappresentata nella tabella 4.5.1 in cui il campo di variazione è dato da x = [-4, 10] per cui il suo centro, pari alla semisomma degli estremi, risulta uguale a 3.

Tabella 4.5.1

Esempio di sequenza caratterizzata da simmetria

-4 -3 0 3 6 9 10

Lo stesso concetto può essere esteso ai casi in cui i valori della variabile sono organizzati sotto forma di distribuzione di frequenza, ma in queste situazioni il modo più semplice per controllare se la distribuzione è simmetrica è mediante l’analisi del grafico corrispondente, che in questo caso risulta formato da due parti specularmente identiche rispetto al centro di x.

Due esempi di distribuzioni simmetriche relative a una variabile discreta e a una variabile continua sono riportati nelle tabelle 4.5.2 e 4.5.3, come si vede chiaramente dai grafici corrispondenti.

Tabella 4.5.2

Esempio di distribuzione simmetrica per una variabile discreta X x Frequenza assoluta

-3 100

-1 250

0 150

1 150

2 250

4 100

1000

(16)

Figura 4.5.1

Rappresentazione grafica della distribuzione indicata nella tabella 4.5.2

Tabella 4.5.3

Esempio di distribuzione simmetrica per una variabile continua X Classi Frequenza relativa Densità

0 – 2 0.1 0.05

2 – 4 0.2 0.10

4 – 7 0.4 0.13̅

7 – 9 0.2 0.10

9 – 11 0.1 0.05

1.0

Figura 4.5.2

Rappresentazione grafica della distribuzione indicata nella tabella 4.5.3

0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,090,1 0,11 0,12 0,13 0,14

0 1 2 3 4 5 6 7 8 9 10 11

densità

0 50 100 150 200 250 300

-4 -3 -2 -1 0 1 2 3 4 5

frequenza assoluta

x

(17)

Nel primo caso il centro del campo di variazione è pari a 0.5, mentre nel secondo è 5.5. Si vede subito che entrambe le distribuzioni risultano specularmente identiche rispetto a questi due valori centrali.

Una sequenza di valori o una distribuzione di frequenza che non risulta simmetrica viene detta asimmetrica.

Più precisamente, si parla di asimmetria positiva quando le frequenze più elevate si rilevano in corrispondenza della prima metà del campo di variazione e di asimmetria negativa in caso contrario.

Per esempio, le distribuzioni rappresentate graficamente nelle figure 2.3.5 e 2.3.6 presentano entrambe un’asimmetria positiva. Un altro caso di distribuzione con asimmetria positiva è riportato nell’esempio 2.4.1, mentre nella tabella successiva è riportato un esempio di distribuzione in classi con asimmetria negativa, rappresentata graficamente mediante l’istogramma della figura 4.5.3.

Tabella 4.5.4

Esempio di distribuzione con asimmetria negativa Classi Frequenza relativa

1 – 4 0.1

4 – 6 0.1

6 – 8 0.3

8 – 10 0.5

1.0 Figura 4.5.3

Istogramma della distribuzione riportata nella tabella 4.5.4

0 0,05 0,1 0,15 0,2 0,25 0,3

0 1 2 3 4 5 6 7 8 9 10 11

densità

(18)

L’indice più usato per misurare il grado di asimmetria di una variabile è l’indice di Fisher, dato dal rapporto fra il terzo momento centrale e la deviazione standard al cubo

3 3 3

sx

=m

a 4.5.1

Il risultato fornito dalla 4.5.1 è un numero adimensionale, dato che gli indici posti al numeratore e al denominatore sono entrambi espressi nell’unità di misura elevata al cubo, e risulta quindi svincolato dall’unità di misura utilizzata nella rilevazione del variabile.

In caso di distribuzioni simmetriche l’indice risulta pari a zero, mentre assume valori positivi se l’asimmetria è positiva, perché la somma dei cubi degli scarti positivi è maggiore di quella dei cubi degli scarti negativi. L’asimmetria è invece negativa quando a3 è minore di zero.

È importante sottolineare, però, che la somma degli scarti negativi al cubo può risultare uguale alla somma degli scarti positivi al cubo anche se la distribuzione è asimmetrica; pertanto un valore di a3 uguale a zero è una condizione necessaria ma non sufficiente per la simmetria.

Esempio 4.5.1

Considerate le due seguenti sequenze di valori che si riferiscono alla lunghezza (in millimetri) delle mandibole di 20 sciacalli, 10 di sesso maschile e 10 di sesso femminile, contenute nel British Museum2

Maschi: 120, 107, 110, 116, 114, 111, 113, 117, 114, 112 Femmine: 110, 111, 107, 108, 110, 105, 107, 106, 111, 111 se ne calcoli l'indice di asimmetria 4.5.1.

Il risultato, approssimato a quattro cifre decimali, è pari a 0.0777 per le mandibole degli sciacalli di sesso maschile e a –0.2569 per le mandibole degli sciacalli di sesso femminile.

In questo caso, quindi, la prima sequenza presenta una lievissima asimmetria positiva, mentre la seconda è caratterizzata da una leggera asimmetria negativa.

Proprietà dell’indice di Fisher

Considerata una variabile X di deviazione standard s e terzo momento centrale x m3x, il valore dell’indice di asimmetria di Fisher di una trasformazione lineare corrisponde a quello calcolato per la variabile originale X, tranne eventualmente per il segno.

2 Manly B.F.J. (1991), Randomization and Monte Carlo methods in biology, London: Chapman and Hall, 4.

(19)

Dimostrazione

La soluzione si ottiene in base alle proprietà del momento centrale r-esimo e della deviazione standard di una trasformazione lineare.

Considerata infatti la trasformazione Y = a + bX, l’indice di Fisher della Y corrisponde a

( )

b a . segno

a b b s b

m

=b s

=m

a x x

x x y

y

y 3 3 3

3 3 3

3 3 3 3

3 = =

Per quanto riguarda le situazioni reali, va osservato che spesso i valori assunti dalla variabile di interesse si addensano in corrispondenza del centro del campo di variazione e che la loro frequenza tende a diminuire al crescere della distanza da tale valore centrale in entrambe le direzioni. Una distribuzione che presenta questa forma è detta campanulare e si rileva piuttosto spesso per variabili di tipo biometrico, come per esempio il peso corporeo, la statura, il perimetro toracico, l’apertura alare.

Distribuzioni che presentano una certa asimmetria positiva si rilevano invece abbastanza frequentemente in campo socio-economico, come nel caso del reddito, dei livelli di consumo e di risparmio, del numero di abitanti per comune.

Un'altra caratteristica rilevante dell’assetto distributivo di una variabile è la cosiddetta curtosi, che misura lo “spessore” delle code della distribuzione, ossia l’addensamento delle frequenze in corrispondenza degli estremi del campo di variazione della variabile.

L’indice più utilizzato, indicato con il simbolo a4, è dato dal rapporto fra il quarto momento centrale e il quadrato della varianza

4 4 4

sx

=m

a 4.5.2

per cui questo indice può assumere solo valori maggiori o uguali a zero.

Per motivi che saranno chiariti in seguito, un risultato pari a 3 è preso come valore di riferimento nel calcolo dell’indice 4.5.2: una distribuzione per la quale a4 risulta uguale a 3 è detta mesocurtica, una distribuzione con a4 < 3 è detta platicurtica, mentre una distribuzione con a4 > 3 è detta leptocurtica.

Una distribuzione con a4 < 3 ha code più sottili sia di una mesocurtica sia di una leptocurtica, mentre

(20)

quest’ultima presenta le code più spesse di tutte. In via generale si può affermare che una distribuzione platicurtica presenta meno valori anomali rispetto alle altre due distribuzioni (nel caso dello studio dei rendimenti di un titolo, per esempio, questo implicherebbe un livello di rischio minore).

Va tuttavia sottolineato come il comportamento delle code di una distribuzione non può essere facilmente stabilito analizzandone la rappresentazione grafica.

Proprietà

È invariante per trasformazioni lineari.

Dimostrazione

Anche in questo caso la soluzione cercata si ottiene immediatamente dalle proprietà del momento r-esimo e della deviazione standard di una trasformazione lineare.

Considerata una variabile X di deviazione standard s e quarto momento centrale x m4x, l’indice di curtosi della la trasformazione lineare Y = a + bX corrisponde a

. a a b b s b

m

=b s

=m

a x x

x x y

y

y 4 4 4

4 4 4

4 4 4 4

4 = =

(21)

4.6 Box plot

Il box plot (o grafico a scatola), è una rappresentazione grafica che è spesso utilizzata per descrivere in modo sintetico le principali caratteristiche distributive di una variabile quantitativa. Viene ottenuto utilizzando indici sintetici di posizione e di variabilità ed assume configurazioni diverse a seconda della scelta di tali indici.

Gli indici di posizione più utilizzati sono il primo e il terzo quartile a cui si aggiunge la mediana oppure la media aritmetica. Gli indici di variabilità più frequentemente usati sono la deviazione standard oppure la differenza interquartile.

Oltre agli indici di posizione e di variabilità, il box plot riporta anche i cosiddetti valori adiacenti (inferiore e superiore) che sono utilizzati per individuare eventuali valori anomali, ossia quei valori che sono significativamente diversi (molto più bassi o molto più elevati) di quelli rilevati sulle altre unità statistiche appartenenti al medesimo gruppo.

Considerata la differenza interquartile Wx data dalla 4.2.2, il valore adiacente inferiore (VAI) è la più piccola fra le osservazioni che risulta maggiore o uguale a x0.25 −  Wx, mentre il valore adiacente superiore (talvolta indicato con l’acronimo VAS) è la più grande fra le osservazioni che risulta minore o uguale a x0.75 +  Wx.

Un esempio di box plot è riportato nella figura 4.6.1 nella quale come indice di posizione si è utilizzata la mediana e come indice di variabilità la differenza interquartile.

Il box plot è costruito su un’asse verticale3 in cui sono indicati i valori del primo e del terzo quartile che delimitano rispettivamente l’estremo inferiore e l’estremo superiore del rettangolo che compone la parte centrale del grafico. Questo rettangolo, per definizione, contiene al suo interno il 50% circa delle n osservazioni complessive.

Se la differenza interquartile è piccola, le osservazioni poste al suo interno risulteranno fortemente concentrate intorno alla mediana, mentre all'aumentare del suo valore, e quindi all’aumentare della variabilità della variabile, le osservazioni risulteranno più disperse.

La mediana (che occuperà sempre una posizione intermedia fra x0.25 e x0.75) divide il rettangolo in due parti e le distanze x0.5−x0.25 e x0.75−x0.5 forniscono informazioni sulla forma della distribuzione: se infatti una distanza è diversa dall'altra allora la distribuzione è sicuramente asimmetrica. In particolare, quando la porzione inferiore del rettangolo (delimitata da x0.25 e x0.5) è minore della porzione superiore (delimitata

3 In alcuni casi i valori della variabile possono essere riportati sull’asse delle ascisse, invece che sulle ordinate, per cui il grafico risulterebbe ruotato di 90 gradi.

(22)

da x0.5 e x0.75) la distribuzione presenta un’asimmetria positiva (come nel caso della figura 4.6.1), mentre presenta un’asimmetria negativa nel caso opposto.

Figura 4.6.1 Esempio di Box plot

I due segmenti che partono dal rettangolo e che si allungano l’uno verso il basso e l’altro verso l’alto, sono comunemente denominati baffi e si ottengono congiungendo x0.25 al VAI e x0.75 al VAS.

Anche le lunghezze di questi baffi forniscono informazioni sull’eventuale asimmetria della distribuzione, ma il loro compito è essenzialmente quello di evidenziare l’eventuale presenza di valori anomali (outliers). Sono infatti considerate anomale tutte quelle osservazioni più piccole del VAI o più grandi del VAS e, nelle situazioni reali, tali osservazioni vengono di solito esaminate con una certa attenzione per indagare su cosa le ha causate.

(23)

Considerate, per esempio, le seguenti distribuzioni delle età dei dipendenti di una cooperativa classificati per sesso

Maschi Femmine

Età ni Ni Età ni Ni

19 2 2 18 1 1

20 6 8 25 2 3

21 3 11 26 2 5

22 1 12 28 2 7

23 1 13 29 1 8

25 1 14 30 2 10

28 1 15 31 3 13

30 1 16 32 1 14

35 1 17 33 2 16

37 1 18 16

18

i due box plot corrispondenti basati, sui valori dei tre quartili, si ottengono dai risultati seguenti.

Per i maschi i tre quartili occupano i posti

180.25

  

= 4.5 =5,

180.5

  

= 9 =9 e

180.75

 

= 13.5

=14 per cui i tre quartili sono

x0.25= 20, x0.5= 21, x0.75= 25.

Risulta

x0.25 −  Wx = 20 – 1.5×(25-20) = 12.5, x0.75 +  Wx = 25 + 1.5×(25-20) = 32.5,

quindi i due valori adiacenti sono:

VAI = 19, che corrisponde alla più piccola osservazione maggiore o uguale a 12.5 VAS = 30, che corrisponde alla più grande osservazione minore o uguale a 32.5

Per le femmine occupano i posti

160.25

  

= 4 =4,

160.5

  

= 8 =8 e

160.75

  

= 12 =12 per

cui i tre quartili sono

x0.25= 26, x0.5= 29, x0.75= 31.

Risulta

x0.25 −  Wx = 26 – 1.5×(31-26) = 18.5, x0.75 +  Wx = 31 + 1.5×(31-26) = 38.5,

(24)

quindi i due valori adiacenti sono:

VAI = 25, che è la più piccola osservazione maggiore o uguale a 18.5 VAS = 33, che è la più grande osservazione minore o uguale a 38.5

I due box plot assumono quindi la forma indicata nel grafico successivo, in cui sono stati evidenziati anche i valori anomali (corrispondenti ai cerchietti al di fuori dei baffi) e le due medie aritmetiche (corrispondenti al piccolo rombo all’interno dei rettangoli).

Nota

Esistono altre possibili configurazioni del box plot che differiscono fra loro per l’orientamento (scambiando le ascisse con le ordinate) o per gli indici di posizione e di variabilità considerati. Un altro caso abbastanza comune è quello in cui si calcola la media aritmetica anziché la mediana; in questo caso gli estremi (inferiore e superiore) del rettangolo corrispondono alle quantità x sx.

Riferimenti

Documenti correlati

[r]

I presidi medico-chirurgici, per poter essere immessi in commercio sul mercato italiano, devono essere autorizzati dal Ministero della salute ai sensi del D.P.R. 392 del 6

Nelle pagine seguenti, troverai un’immagine in un riquadro rosso e sotto tante immagini diverse.. Il tuo compito è quello di barrare tutte le immagini UGUALI a

Per ogni emozione segna una situazione che ti fa

DUE AUTO SONO UGUALI, QUALI?.

Ci sono due regali grandi uguali e dello stesso colore, quali?. BABBO NATALE

Possiamo perciò dire che i diritti dei bambini sono le regole che gli adulti devono rispettare verso i bambini ed anche l’atteggiamento che devono avere nei loro confronti. Tutti

In ogni caso l’analisi viene condotta scomponendo la varianza complessiva della variabile dipendente (o delle variabili dipendenti) nella varianza spiegata, imputabile ai fattori (o