• Non ci sono risultati.

LEZIONE 7 ALTRI INDICI DI VARIABILITÀ Nella lezione precedente si è anticipato che un indice di variabilità espresso nell

N/A
N/A
Protected

Academic year: 2021

Condividi "LEZIONE 7 ALTRI INDICI DI VARIABILITÀ Nella lezione precedente si è anticipato che un indice di variabilità espresso nell"

Copied!
22
0
0

Testo completo

(1)

LEZIONE 7

ALTRI INDICI DI VARIABILITÀ

Nella lezione precedente si è anticipato che un indice di variabilità espresso nell’unità di misura utilizzata nella rilevazione si può ottenere dalla varianza calcolandone la radice quadrata. L’indice ottenuto in questo modo, per l’importanza che assume e per il suo uso frequente, ha un suo nome proprio.

La DEVIAZIONE STANDARD (detta anche scarto quadratico medio o scostamento quadratico medio) corrisponde alla radice quadrata della varianza, per cui viene usualmente indicata con la notazione s oppure sx

𝑠 = 𝑠𝑥 = √𝑠𝑥2

Le sue formule di calcolo, che variano a seconda di come sono organizzati i dati raccolti, si ottengono immediatamente dalle corrispondenti formule della varianza semplicemente effettuandone la radice quadrata

𝑠𝑥 = 𝑠 = √1

𝑛∑(𝑥𝑖 − 𝑥̅)2

𝑛

𝑖=1

𝑠𝑥 = 𝑠 = √1

𝑛∑(𝑐𝑗 − 𝑥̅)2× 𝑛𝑗

𝑘

𝑗=1

= √∑(𝑐𝑗 − 𝑥̅)2× 𝑓𝑗

𝑘

𝑗=1

𝑠𝑥 = 𝑠 = √1

𝑛∑(𝑐̅𝑗 − 𝑥̅)2× 𝑛𝑗

𝑘

𝑗=1

= √∑(𝑐̅𝑗 − 𝑥̅)2× 𝑓𝑗

𝑘

𝑗=1

(2)

Esercizio

Considerata la seguente distribuzione in classi, si calcoli la deviazione standard della X

X densità

-5 – -3 0.2 -3 – -1 0.1 -1 – 3 0.1

Per calcolare sx è necessario calcolare i valori centrali delle classi e le frequenze relative, come riportato nella tabella successiva

Valore centrale Frequenza relativa

-4 0.4

-2 0.2

+1 0.4

1.0

Sulla base di questa tabella si ottengono i seguenti risultati 𝑥̅ = −1.6

𝑚2𝑥 = 7.6 𝑠𝑥2 = 7.6 − 1.62 = 5.04 𝑠𝑥 = √5.04 ≈ 2.2450

PROPRIETÀ DELLA DEVIAZIONE STANDARD Considerata la sequenza delle n osservazioni

𝑥1 , 𝑥2 , … , 𝑥𝑛

relativa a una variabile quantitativa X ed indicato con 𝑠𝑥 la sua deviazione standard, si dimostra che la deviazione standard di una trasformazione lineare del tipo Y = a + bX risulta

𝑠𝑦 = |𝑏|𝑠𝑥

(3)

Questa dimostrazione si ottiene immediatamente da quella relativa alla varianza di una trasformazione lineare

DIMOSTRAZIONE

Indicate rispettivamente con 𝑠𝑥2 e con 𝑠𝑦2 le varianze della X e della Y è noto che 𝑠𝑦2 = 𝑏2𝑠𝑥2

Calcolando la radice quadrata di entrambi i termini dell’uguaglianza risulta 𝑠𝑦 = |𝑏|𝑠𝑥

Si nota come, quale che sia il segno assunto dal parametro 𝑏, la deviazione standard della variabile trasformata non possa mai assumere un risultato minore di zero, in accordo con le proprietà che devono essere rispettate da un qualsiasi indice che misuri la variabilità di una variabile.

Anche la deviazione standard risulta quindi invariante rispetto a traslazioni dell’origine, ma non rispetto a variazioni dell’unità di misura utilizzata, esattamente come accadeva per la varianza.

Esercizi

1) Considerata una variabile X per la quale la deviazione standard è risultata pari a 4.6, determinare la deviazione standard della variabile trasformata

𝑌 = 4 −1 2𝑋 Risulta

𝑠𝑦 = |−1

2| 𝑠𝑥 =1

2× 4.6 = 2.3

(4)

2) Data a una variabile quantitativa X di media 𝑥̅ e varianza 𝑠𝑥2 si determini la media e la varianza della seguente trasformazione lineare

Z = X − 𝑥̅

𝑠𝑥

Il risultato si ottiene come caso particolare delle proprietà relative alla media e alla varianza di una trasformazione lineare.

Sapendo infatti che, data la variabile Y= 𝑎+bX, la sua media è 𝑦̅ = 𝑎 + 𝑏𝑥̅

mentre la sua varianza è 𝑠𝑦2 = 𝑏2𝑠𝑥2, è sufficiente considerare che la variabile Z si ottiene come combinazione lineare della X ponendo

𝑎 = − 𝑥̅

𝑠𝑥 𝑏 = 1

𝑠𝑥 per cui si ottiene

𝑧̅ = − 𝑥̅

𝑠𝑥 + 1

𝑠𝑥𝑥̅ = 0 𝑠𝑧2 = (1

𝑠𝑥)

2

𝑠𝑥2 = 1

La variabile Z ha quindi una media sempre pari a 0 e una varianza sempre pari a 1.

Questa variabile trasformata, che verrà ripresa molto spesso in seguito, è detta variabile scarto standardizzato

(5)

COEFFICIENTE DI VARIAZIONE

In molte situazioni reali si ha interesse a confrontare la variabilità di variabili differenti, spesso rilevate con unità di misura diverse o aventi ordini di grandezza diversi.

Esempi di questo genere si hanno quando si analizza la distribuzione di un gruppo di unità statistiche sulle quali si è rilevato congiuntamente il peso e la statura, oppure quando si vogliono confrontare le distribuzioni di una stessa variabile (ad esempio il peso) rilevata su un gruppo di individui adulti e su un gruppo di neonati. Nel primo caso le unità di misura potrebbero essere il chilogrammo e il centimetro, mentre nel secondo caso una deviazione standard pari, per esempio, a un chilogrammo, assumerebbe un’importanza diversa a seconda che ci si riferisse a individui adulti o a neonati.

Allo stesso modo, gli indici di variabilità finora esaminati non permetterebbero un confronto della variabilità di distribuzioni di redditi espressi in valute differenti.

La varianza e la deviazione standard possono quindi essere utilizzati per confrontare le distribuzioni di variabili misurate con la stessa unità di misura e con un ordine di grandezza non molto diverso. Nei restanti casi si deve utilizzare un indice di variabilità che non dipenda dall’unità di misura e che elimini le differenze imputabili all’ordine di grandezza delle due variabili esaminate.

(6)

Fra gli indici che si utilizzano nelle situazioni descritte in precedenza, il coefficiente di variazione (CV) è sicuramente quello più usato.

Data una variabile quantitativa X, il suo coefficiente di variazione corrisponde al rapporto fra la deviazione standard e la media, ossia a

𝐶𝑉𝑥 = 𝑠𝑥 𝑥̅

Questo indice, però, non può essere utilizzato in ogni situazione. Trattandosi di un indice che misura la variabilità, dovrà necessariamente assumere valori maggiori o uguali a zero: pertanto non si può utilizzare quando la variabile X assume valori negativi, in quanto la media della variabile, che compare al denominatore del CV, potrebbe risultare negativa.

Il suo utilizzo, inoltre, è fortemente sconsigliato se la variabile X ha una media prossima allo zero, in quanto il CV assumerebbe un valore tendente a infinito.

PROPRIETÀ

Considerata una variabile quantitativa X di media 𝑥̅ e varianza 𝑠𝑥2 si determini il coefficiente di variazione della trasformazione lineare Y= 𝑎+bX

Quella che segue non è una dimostrazione vera e propria, ma semplicemente un’applicazione dei risultati che sono stati ottenuti in precedenza per la media e la varianza di una trasformazione lineare

(7)

DIMOSTRAZIONE

Considerata l’espressione del coefficiente di variazione della variabile Y, il risultato richiesto si ottiene sostituendo al posto del numeratore e del denominatore le espressioni della media e della deviazione standard di una trasformazione lineare. Risulta quindi

𝐶𝑉𝑦 = 𝑠𝑦

𝑦̅ = |𝑏|𝑠𝑥 𝑎 + 𝑏𝑥̅

Si vede quindi che questo indice varia al variare dei valori assunti da 𝑎 e b

ESEMPIO

Considerata la seguente distribuzione

X Frequenza relativa

0 0.35

3 0.35

5 0.30

1.00

si calcoli il coefficiente di variazione della variabile X e della variabile trasformata Y = 3X+2.

Per la variabile X risulta

𝑥̅ = 2.55 𝑚2𝑥 = 10.65 𝑠𝑥2 = 4.1475 𝐶𝑉𝑥 =√4.1475

2.55 ≈ 0.7986 mentre per la Y si ha

𝑦̅ = 3 × 2.55 + 2 = 9.65 𝑠𝑦2 = 9 × 4.1475 = 37.3275 𝐶𝑉𝑦 = √37.3275

9.65 ≈ 0.6331

(8)

INDICI DI FORMA

Gli ultimi indici che verranno descritti per una singola variabile (ossia per le cosiddette distribuzioni univariate), prima di passare all’analisi delle cosiddette distribuzioni bivariate (relative, cioè, a due variabili), sono i cosiddetti indici di forma.

Questi indici sono utilizzati per evidenziare altri aspetti dell'assetto distributivo di una variabile quantitativa precisandone, appunto, la forma e si basano sul calcolo dei momenti centrali di vario ordine.

SIMMETRIA O ASIMMETRIA

Il concetto di simmetria o asimmetria di una distribuzione risulta di facile comprensione se si esamina la sua rappresentazione grafica, ma è molto più complesso da esprimersi a parole.

I due grafici seguenti, per esempio,

0 2 4 6 8 10 12 14

0 1 2 3 4 5

frequenza assoluta

Centro di simmetria

(9)

si riferiscono a distribuzioni simmetriche e in ciascun grafico è stata tracciata una retta verticale in corrispondenza del centro dell’intervallo di variazione della variabile, che rappresenta il suo centro di simmetria.

Se la distribuzione di una variabile quantitativa X è simmetrica, infatti, il suo grafico è formato da due parti distinte (che qui sono state colorate in azzurro e in arancione) che sono specularmente identiche rispetto al centro di simmetria, corrispondente al valore centrale di x.

Per distribuzioni simmetriche questo centro di simmetria corrisponde sempre anche al valore mediano e alla media aritmetica.

Se il grafico non è formato da due parti specularmente identiche, la distribuzione è asimmetrica.

I grafici successivi si riferiscono a distribuzioni asimmetriche: in questi casi si nota un maggiore addensamento delle frequenze in una metà del campo di variazione della variabile rispetto all’altra metà.

Il primo grafico mostra un’asimmetria positiva: si ha un maggiore addensamento delle frequenze in corrispondenza di valori bassi della variabile

(10)

o, in altri termini, le frequenze più elevate si trovano nella prima metà del campo di variazione

Il grafico seguente mostra invece un’asimmetria negativa, con un addensamento delle frequenze in corrispondenza di valori alti della variabile.

Le frequenze più elevate si trovano nella seconda metà del campo di variazione.

0 2 4 6 8 10 12 14

0 2 4 6 8

frequenza assoluta

(11)

Nel caso di una sequenza ordinata di valori di una variabile X si parla di simmetria se gli scarti negativi rispetto al centro del campo di variazione risultano tutti ordinatamente uguali, in valore assoluto, ai corrispondenti scarti positivi.

Esempio di sequenza simmetrica

-1 0 3 6 9 12 13

Considerato che x = [-1, 13] il suo centro risulta uguale a 6 e gli scarti assumono i valori riportati nella sequenza successiva

Scarti

-7 -6 -3 0 3 6 7

Esistono numerosi indici statistici che permettono di avere una valutazione dell’eventuale grado di asimmetria di una variabile, e molti di essi indicano anche se si tratta di asimmetria positiva o negativa. Il più utilizzato è il cosiddetto indice di Fisher, che corrisponde al rapporto fra il terzo momento centrale e la deviazione standard elevata alla terza.

Considerata una variabile quantitativa X, l’indice di asimmetria di Fisher, spesso indicato con il simbolo 𝑎3 o con 𝑎3𝑥, assume la forma

𝑎3 = 𝑎3𝑥 =𝑚̅3𝑥 𝑠𝑥3

Esaminando la formula si nota che questo indice corrisponde anche al terzo momento ordinario della variabile scarto standardizzato

(12)

𝑍 = 𝑋 − 𝑥̅

𝑠𝑥

Le caratteristiche di questo indice risultano le seguenti:

- È un indice adimensionale, ossia un numero puro

- Risulta maggiore di zero se la distribuzione presenta un’asimmetria positiva, e minore di zero in caso di asimmetria negativa

- È pari a zero se la distribuzione è simmetrica, ma presenta l’inconveniente di poter risultare uguale a zero anche se la distribuzione è asimmetrica, semplicemente perché gli scarti con segno negativo compensano quelli con segno positivo. Un risultato pari a zero è quindi una condizione necessaria, ma non sufficiente, per poter concludere che la distribuzione è simmetrica

PROPRIETÀ

Considerata una variabile quantitativa X ed indicata con 𝑠𝑥 la sua deviazione standard, con 𝑚̅3𝑥 il terzo momento centrale e con 𝑎3𝑥 l’indice di asimmetria di Fisher, l’indice di asimmetria di Fisher di una trasformazione lineare del tipo

Y = a + bX risulta

𝑎3𝑦 = 𝑠𝑒𝑔𝑛𝑜(𝑏)𝑎3𝑥

dove “𝑠𝑒𝑔𝑛𝑜(𝑏)” sta ad indicare che il segno positivo o negativo da attribuire al risultato dipende dal segno del parametro 𝑏.

(13)

Per dimostrare questa proprietà è sufficiente fare riferimento alle proprietà delle trasformazioni lineari che sono state considerate per i momenti centrali di ordine r e per la deviazione standard

DIMOSTRAZIONE

Per definizione, data la variabile Y, l’indice di asimmetria di Fisher è dato da 𝑎3𝑦 = 𝑚̅3𝑦

𝑠𝑦3

Tenendo presente che Y è una trasformazione lineare di X, per le proprietà dei momenti centrali di ordine r il numeratore dell’indice risulta pari a

𝑚̅3𝑦 = 𝑏3𝑚̅3𝑥

mentre, per la proprietà della deviazione standard, il suo denominatore è uguale a

𝑠𝑦3 = |𝑏3|𝑠𝑥3

Si ottiene quindi il risultato

𝑎3𝑦 = 𝑚̅3𝑦

𝑠𝑦3 = 𝑏3𝑚̅3𝑥

|𝑏3|𝑠𝑥3 = 𝑏3

|𝑏3| 𝑚̅3𝑥

𝑠𝑥3 = 𝑠𝑒𝑔𝑛𝑜(𝑏)𝑎3𝑥

dato che il rapporto

𝑏3

|𝑏3| = {−1 per 𝑏 < 0 +1 per 𝑏 > 0

(14)

ESEMPIO

Considerata una variabile X per la quale l’indice di asimmetria di Fisher è risultato pari a -1.5, si determini il valore dell’indice di asimmetria di Fisher perla variabile trasformata Y=-2X+0.5.

Risulta

𝑎3𝑦 = (−2)3

|(−2)3|𝑎3𝑥 = −𝑎3𝑥 = 1.5

(15)

CURTOSI

La distribuzione di una variabile può presentare “code” più o meno “spesse”, nel senso che le frequenze possono risultare più o meno addensate in corrispondenza dei valori estremi assunti dalla variabile.

I cosiddetti indici di curtosi sono utilizzati proprio per misurare lo spessore delle code della distribuzione, ossia il grado di concentrazione delle frequenze in corrispondenza degli estremi del campo di variazione della variabile.

Per avere un’idea di cosa si intenda misurare con gli indici di curtosi è utile confrontare i due grafici seguenti: nel primo (colorato in arancione) le frequenze in corrispondenza degli estremi del campo di variazione sono più addensate rispetto a quanto si nota nel secondo grafico (colorato in viola). Il grafico in arancione ha code più spesse del grafico in viola.

(16)

L’indice statistico che viene generalmente utilizzato per misurare la curtosi corrisponde al rapporto fra il quarto momento centrale e la varianza al quadrato.

Considerata una variabile quantitativa X, l’indice di curtosi, spesso indicato con il simbolo 𝑎4 o con 𝑎4𝑥, assume quindi la forma

𝑎4 = 𝑎4𝑥 =𝑚̅4𝑥 𝑠𝑥4

Esaminando la formula, si nota che questo indice corrisponde anche al quarto momento ordinario della variabile scarto standardizzato

𝑍 = 𝑋 − 𝑥̅

𝑠𝑥

Le caratteristiche di questo indice risultano le seguenti:

- È un indice adimensionale, ossia un numero puro

- Non può assumere un valore negativo e il valore di riferimento è 3

L’ultima affermazione sta a significare che le distribuzioni osservate vengono suddivise in tre classi differenti a seconda che l’indice di curtosi risulti esattamente uguale a 3, minore di 3 oppure maggiore di 3.

(17)

In particolare:

- Per 𝑎4 < 3 la distribuzione si dice platicurtica: le frequenze sono poco concentrate intorno alla media, per cui le code sono piuttosto spesse

- Per 𝑎4 = 3 la distribuzione si dice mesocurtica o normocurtica

- Per 𝑎4 > 3 la distribuzione si dice leptocurtica: le frequenze sono molto concentrate intorno alla media, per cui le code sono poco spesse

L’interesse circa lo spessore delle code di una distribuzione risiede essenzialmente nel fatto che numerose variabili quantitative tendono a distribuirsi secondo un particolare modello che viene chiamato modello normale. A titolo di esempio, nel grafico successivo è riportato il grafico di un istogramma (in colore giallo) e di una linea rossa continua che segue il profilo dell’istogramma.

La linea rossa corrisponde al modello normale che, nel caso in esame, approssima con sufficiente accuratezza il profilo dell’istogramma. Di questo particolare modello distributivo si avrà modo di parlare molto a lungo nella

(18)

seconda parte del corso, ma per il momento vale la pena anticipare che una distribuzione normale è sempre simmetrica (per cui l’indice di Fisher sarà pari a zero), mentre ha un valore dell’indice di curtosi che è esattamente pari a 3 (da qui la definizione di distribuzione normocurtica).

Dato che, come si vedrà nell’ultima parte di questo corso di Statistica, i procedimenti inferenziali sono molto più semplici quando la distribuzione reale di una variabile può essere approssimata in modo soddisfacente da una normale, si procede a calcolare l’indice di asimmetria di Fisher e l’indice di curtosi sulla distribuzione osservata, per verificare se tale distribuzione può essere approssimata da questo modello. Tanto più l’indice di asimmetria sarà prossimo a zero e l’indice di curtosi sarà prossimo a 3, tanto più il modello normale potrebbe risultare adeguato per approssimare la distribuzione osservata.

PROPRIETÀ

Considerata una variabile quantitativa X ed indicata con 𝑠𝑥2 la sua varianza, con 𝑚̅4𝑥 il quarto momento centrale e con 𝑎4𝑥 l’indice di curtosi, l’indice di curtosi di una trasformazione lineare del tipo

Y = a + bX risulta

𝑎4𝑦 = 𝑎4𝑥

per cui l’indice di curtosi è invariante per trasformazioni lineari.

(19)

Anche in questo caso la dimostrazione si effettua tenendo presenti le proprietà delle trasformazioni lineari considerate per i momenti centrali di ordine r e per la varianza

DIMOSTRAZIONE

Per definizione, data la variabile Y, l’indice di curtosi è dato da 𝑎4𝑦 = 𝑚̅4𝑦

𝑠𝑦4

Tenendo presente che Y è una trasformazione lineare di X, per le proprietà dei momenti centrali di ordine r il numeratore dell’indice risulta pari a

𝑚̅4𝑦 = 𝑏4𝑚̅4𝑥

mentre, per la proprietà della varianza, il suo denominatore è uguale a 𝑠𝑦4 = 𝑏4𝑠𝑥4

Si ottiene quindi il risultato

𝑎4𝑦 =𝑚̅4𝑦

𝑠𝑦4 = 𝑏4𝑚̅4𝑥

𝑏4𝑠𝑥4 =𝑚̅4𝑥

𝑠𝑥4 = 𝑎4𝑥

(20)

BOX PLOT o GRAFICO A SCATOLA

Il boxplot è un particolare grafico che consente di evidenziare le principali caratteristiche di una variabile quantitativa.

La sua costruzione si basa su indici di posizione e su indici di variabilità ed esistono diversi tipi di boxplot, a seconda degli indici che vengono scelti.

In questa lezione si esamina solo il grafico più utilizzato nelle situazioni reali, ossia quello che considera i tre quartili come indici di posizione e la differenza interquartile come indice di variabilità.

Tutti questi indici sono stati descritti nelle lezioni precedenti, ma per la costruzione del boxplot è necessario anche il calcolo di altre due quantità, dette valore adiacente inferiore (usualmente abbreviato in VAI) e valore adiacente superiore (usualmente abbreviato in VAS), che risultano particolarmente utili per individuare eventuali valori anomali.

Indicata con Wx la differenza interquartile(corrispondente a x0.75-x0.25):

il VAI corrisponde alla più piccola osservazione ≥ x0.25 − Wx il VAS corrisponde alla più grande osservazione ≤ x0.75 + Wx.

Una volta calcolati anche questi due valori, si può procedere alla costruzione del boxplot, di cui si riporta di seguito un esempio

(21)

Come si nota dalla figura, il primo e il terzo quartile delimitano il rettangolo che compone la parte centrale del grafico (per costruzione questo rettangolo contiene al suo interno il 50% circa delle n osservazioni complessive, essendo delimitato dai quantili di ordine 0.25 e 0.75).

Se la differenza interquartile è piccola le osservazioni risultano concentrate intorno alla mediana, mentre all'aumentare del suo valore le osservazioni risulteranno più disperse.

La mediana divide il rettangolo in due parti e le distanze x0.5−x0.25 e x0.75−x0.5 forniscono informazioni sulla forma della distribuzione.

(22)

Se le due distanze risultano diverse fra loro la distribuzione è sicuramente asimmetrica. Nella figura è riportata una situazione corrispondente a un’asimmetria positiva

Dal rettangolo si tracciano quindi due segmenti: quello al di sotto del rettangolo parte dalla metà della base inferiore e si ferma in corrispondenza del VAI, mentre quello al di sopra del rettangolo parte dalla metà della base superiore e si ferma in corrispondenza del VAS.

I due segmenti così ottenuti vengono chiamati baffi e, come si è detto, si ottengono congiungendo x0.25 al VAI e x0.75 al VAS.

Questi baffi servono per evidenziare l’eventuale presenza di outliers, dato che si considerano anomale quelle osservazioni che risultano più piccole del VAI o più grandi del VAS.

Nella maggior parte delle situazioni reali i boxplot vengono utilizzati per confrontare gli assetti distributivi di una stessa variabile rilevata su gruppi di unità statistiche differenti, per cui vengono disegnati uno di fianco all’altro.

Riferimenti

Documenti correlati

Dalla formula 4.3.2 risulta che la varianza è uguale a zero se e solo se tutte le osservazioni sono uguali fra di loro (e uguali quindi alla loro media), mentre il suo valore tende

Sono stati quindi formulati degli indici di dispersione che si basano sul calcolo della media degli scarti presi in valore assoluto oppure elevati ad una potenza pari, in modo

Dal grafico precedente vediamo che la previsione futura, ed il trend nella parte finale, sono migliorati, mentre all’inizio la previsione è completamente errata. La causa

• Due distribuzioni possono avere stessa posizione e variabilità ma differire per il peso, l’importanza, dei valori più grandi o più piccoli, rispetto al valore. centrale, a causa

Gli enormi progressi com- piuti nel miglioramento della qualità analitica hanno consentito di circoscrivere le dimensioni del proble- ma, al punto che la massima parte (fino

Se ci limitassimo a confrontare la variabilità delle due produzioni semplicemente facendo riferimento allo scarto quadratico medio, dovremmo concludere che la seconda azienda ha

Presentazione dei concetti di base di popolazione e campione Sintesi e presentazione in tabelle dei dati categorici. Presentazione grafica dei

Presentazione dei concetti di base di popolazione e campione Sintesi e presentazione in tabelle dei dati categorici. Presentazione grafica dei