• Non ci sono risultati.

7a - Indici di eterogeneit&agrave e intervalli di variazione

N/A
N/A
Protected

Academic year: 2021

Condividi "7a - Indici di eterogeneit&agrave e intervalli di variazione"

Copied!
38
0
0

Testo completo

(1)

5

Indici di variabilità

(2)

La variabilità

Abbiamo già detto che, per un dato insieme di osservazioni, ci sono diverse caratteristiche che potremmo voler sintetizzare e abbiamo visto che una di queste, la più intuitiva, è la loro media, intesa in senso lato come un valore che sia in qualche modo il rappresentante dell’intera serie di osservazioni.

(3)

La variabilità

E’ ovvio, però, che sintetizzare con una media una serie di osservazioni descrive il fenomeno solo in parte.

Ricordando il concetto di «baricentro» di una distribuzione di frequenze, capiamo che l’informazione contenuta in una media si riferisce solamente a «dove la distribuzione è localizzata».

(4)

La variabilità

BARICENTRO

Le due distribuzioni sono «centrate» su valori differenti

(5)

La variabilità

A parità di media, le distribuzioni possono essere molto differenti tra loro.

Ricordiamo un altro grafico che avevamo esaminato parlando di distribuzioni di frequenze.

(6)

La variabilità

VARIABILITÀ

Una delle due distribuzioni

assume una gamma di valori più ampia

(7)

La variabilità

La variabilità (per i caratteri qualitativi si parla più propriamente di eterogeneità) è l’attitudine di un carattere ad assumere valori differenti tra loro (modalità differenti, se il carattere è qualitativo).

(8)

La variabilità

Si considerino ad esempio le distribuzioni secondo le certificazioni (IGT, DOC, DOCG) dei vini venduti da parte di due enoteche

Enoteca 1 fi %

IGT 15%

DOC 74%

DOCG 11%

Enoteca 2 fi %

IGT 27%

DOC 38%

DOCG 35%

(9)

La variabilità

Se sintetizziamo le due distribuzioni attraverso una media (in questo caso l’unica possibile è la moda) troviamo che esse hanno la stessa moda.

Enoteca 1 fi %

IGT 15%

DOC 74%

DOCG 11%

Enoteca 2 fi %

IGT 27%

DOC 38%

DOCG 35%

(10)

La variabilità

Se rappresentiamo i grafici a barre delle due distribuzioni ci rendiamo conto che, a parità di moda, la prima è più concentrata sulla moda, quindi è meno eterogenea.

(11)

La variabilità

Quando abbiamo parlato della moda avevamo detto che è opportuno calcolare anche la sua rappresentatività.

(12)

La variabilità

Il concetto di rappresentatività della moda è collegato con l’eterogeneità della distribuzione di frequenze.

(13)

La variabilità

Tuttavia, per descrivere adeguatamente la diversità di eterogeneità delle due distribuzioni abbiamo bisogno di un indice statistico (indice di eterogeneità).

(14)

La variabilità

Un altro esempio riguarda due aziende proprietarie di terreni coltivati a vite. Le tabelle riportano le estensioni (in ha) dei terreni posseduti.

Azienda 1

terreno 1 4

terreno 2 3

terreno 3 4.2

terreno 4 2.8

Azienda 2

terreno 1 7

terreno 2 6.5

terreno 3 0.3

terreno 4 0.2

(15)

La variabilità

Se calcoliamo l’estensione media dei terreni posseduti dalle due aziende scopriamo che le medie aritmetiche sono uguali (M=3.5).

Azienda 2

terreno 1 7

terreno 2 6.5

terreno 3 0.3

terreno 4 0.2

Azienda 1

terreno 1 4

terreno 2 3

terreno 3 4.2

terreno 4 2.8

(16)

La variabilità

Anche in questo caso un semplice grafico ci mostra la diversità delle due situazioni.

media

(17)

La variabilità

Anche in questo caso un semplice grafico ci mostra la diversità delle due situazioni.

media

(18)

La variabilità

Le due situazioni descritte hanno la stessa media, e questo ci informa sull’ordine di grandezza dei fenomeni, ma la variabilità dei valori attorno alla media è molto diversa.

Abbiamo bisogno di un indice di variabilità che descriva la differenza tra queste due situazioni.

(19)

La variabilità

Abbiamo vari tipi di indici di variabilità:

indici di eterogeneità: si calcolano sulla base delle frequenze e si utilizzano prevalentemente per i caratteri qualitativi

intervalli di variazione: sono basati sulla differenza tra valori che occupano una certa posizione nella distribuzione (caratteri quantitativi)

scostamenti medi: sono basati sulla differenza tra i valori e una media (caratteri quantitativi)

(20)

Indici di eterogenità

L’eterogenità è un concetto che fa riferimento alla distribuzione di frequenze e quindi è particolarmente adatto per i caratteri qualitativi.

Per comprendere meglio questo concetto esaminiamo i casi limite di minima eterogeneità (massima omogeneità) e massima eterogenità.

(21)

Indici di eterogenità

Modalità ni

IGT 300

DOC 300

DOCG 300

Modalità ni

IGT 900

DOC 0

DOCG 0

massima omogeneità massima eterogeneità

Torniamo all’esempio delle due enoteche.

La distribuzione reale si colloca in un punto intermedio tra questi due casi limite.

(22)

Indice di eterogenità di Gini

L’indice di eterogenità di Gini si calcola sulla base delle frequenze relative.

E’ compreso tra 0 (minima eterogeneità) e 1 (massima eterogeneità).

=

= k

1 i

2

fi

1 1 k

G k

k = numero di modalità

(23)

Indice di entropia di Shannon

Anche l’indice di entropia di Shannon si calcola sulla base delle frequenze relative.

E’ compreso tra 0 (minima eterogeneità) e 1 (massima eterogeneità).

k = numero di modalità

( ) ( )k

ln

f ln f

E

i k

1 i

i

=

=

(24)

Indici di eterogenità

Calcoliamo gli indici di eterogeneità per l’esempio delle due enoteche.

Enoteca 1 fi %

IGT 15%

DOC 74%

DOCG 11%

Enoteca 2 fi %

IGT 27%

DOC 38%

DOCG 35%

(25)

Indici di eterogenità

Enoteca 1

fi % fi fi2 ln(fi) fi∙ln(fi) IGT 15% 0.15 0.0225 -1.8971 -0.2846 DOC 74% 0.74 0.5476 -0.3011 -0.2228 DOCG 11% 0.11 0.0121 -2.2073 -0.2428 Totale 100% 1 0.5822 -4.4055-0.7502

[1 0.5822] 0.63 2

f 3 1 1

k G k

k

1 i

2

i = =

=

=

(26)

Indici di eterogenità

Enoteca 1

fi % fi fi2 ln(fi) fi∙ln(fi) IGT 15% 0.15 0.0225 -1.8971 -0.2846 DOC 74% 0.74 0.5476 -0.3011 -0.2228 DOCG 11% 0.11 0.0121 -2.2073 -0.2428 Totale 100% 1 0.5822 -4.4055-0.7502

( )

( ) ln(3) 0.68

7502 .

0 k

ln

f ln f E

i k

1 i

i

=

=

=

=

(27)

Indici di eterogenità

Enoteca 2

fi % fi fi2 ln(fi) fi∙ln(fi) IGT 27% 0.27 0.0729 -1.3093 -0.3535 DOC 38% 0.38 0.1444 -0.9676 -0.3677 DOCG 35% 0.35 0.1225 -1.0498 -0.3674 Totale 100% 1 0.3398 -3.3267-1.0886

[1 0.3398] 0.99 2

f 3 1 1

k G k

k

1 i

2

i = =

=

=

(28)

Indici di eterogenità

Enoteca 2

fi % fi fi2 ln(fi) fi∙ln(fi) IGT 27% 0.27 0.0729 -1.3093 -0.3535 DOC 38% 0.38 0.1444 -0.9676 -0.3677 DOCG 35% 0.35 0.1225 -1.0498 -0.3674 Totale 100% 1 0.3398 -3.3267-1.0886

( )

( ) ln(3) 0.99

0886 .

1 k

ln

f ln f E

i k

1 i

i

=

=

=

=

(29)

Indici di eterogenità

Calcoliamo gli indici di eterogeneità per l’esempio delle due enoteche.

Enoteca 1 fi %

IGT 15%

DOC 74%

DOCG 11%

G 0.63 E 0.68

Enoteca 2 fi %

IGT 27%

DOC 38%

DOCG 35%

G 0.99 E 0.99

(30)

Intervalli di variazione

Gli intervalli di variazione sono indici basati sulla differenza tra valori che occupano una certa posizione nella distribuzione.

Si possono calcolare solo se il carattere è quantitativo.

(31)

Campo di variazione

Campo di variazione (detto anche range): differenza tra il valore massimo e il valore minimo

Azienda 1

terreno 1 4

terreno 2 3

terreno 3 4.2

terreno 4 2.8

Range 1.4

Azienda 2

terreno 1 7

terreno 2 6.5

terreno 3 0.3

terreno 4 0.2

Range 6.8

(32)

Campo di variazione

Attenzione al caso in cui i dati siano forniti sotto forma di distribuzione di frequenze!!

Numero di trattori

posseduti dall'azienda ni

1 - 5 10

6 - 9 35

10 - 15 13

16 - 19 4

Totale aziende 62

(33)

Differenza interquartile

Ricordiamo che i quartili sono una generalizzazione del concetto di mediana.

In particolare, sono i 3 valori Q1, Q2, Q3 che dividono la successione ordinata dei valori in 4 gruppi di uguale numerosità.

(34)

Differenza interquartile

Differenza interquartile: differenza tra il terzo e il primo quartile della distribuzione

indica l’ampiezza dell’intervallo centrale che contiene il 50% dei valori della distribuzione.

1 3

Q ,

Q Q Q

D 3 1 =

(35)

Differenza interdecile

Ricordiamo che i decili sono una generalizzazione del concetto di mediana.

In particolare, sono i 9 valori D1, ..., D9 che dividono la successione ordinata dei valori in 10 gruppi di uguale numerosità.

(36)

Differenza interdecile

Differenza interdecile: differenza tra il nono e il primo decile della distribuzione

indica l’ampiezza dell’intervallo centrale che contiene l’80% dei valori della distribuzione.

1 9

D ,

D D D

D 9 1 =

(37)

Differenza interdecile

Differenza interdecile: si possono calcolare anche differenze tra decili diversi, (purchè simmetrici)

indica l’ampiezza dell’intervallo centrale che contiene il 60% dei valori della distribuzione.

2 8

D ,

D D D

D 8 2 =

(38)

Differenza interdecile

Vediamo alcuni esempi alla lavagna

Prezzo ni

1 |− 3 € 37

3 |− 5 € 100

5 |− 7 € 62

7 |− 9 € 39

9 |− 11 € 15

11 |− 13 € 14

13 |− 15 € 12

15 |− 17 € 3

17 |− 19 € 1

Totale 283

Riferimenti

Documenti correlati

Nell'ambito di un’indagine sui consumi delle famiglie italiane è stato osservato un campione di n = 320 unità. È risultato che le famiglie intervistate spendono mediamente 62 euro

si definisce popolazione oggetto l’insieme di tutti quegli elementi che hanno in comune almeno una caratteristica (o

si definisce popolazione oggetto l’insieme di tutti quegli elementi che hanno in comune almeno una caratteristica (o

La rigidezza di alcune molle prodotte da una azienda, da indagini fatte nel tempo, segue una distribuzione normale con deviazione standard pari a 3.1 N/mm. Determinare un

La rigidezza di alcune molle prodotte da una azienda, da indagini fatte nel tempo, segue una distribuzione normale con deviazione standard pari a 3.1 N/mm.

L'operazione di calcolo della variazione di energia si compone essenzialmente di tre fasi: la prima fase consiste nella creazione della sequenza FASTA mutata, la seconda fase

In estrema sintesi 18 , la metodologia presenta la definizione di un individuo di riferimento, che deve essere compreso in una po- polazione di riferimento, dalla quale è selezionato

Intervalli limitati.