• Non ci sono risultati.

L a v a ri a b ili tà

N/A
N/A
Protected

Academic year: 2021

Condividi "L a v a ri a b ili tà"

Copied!
6
0
0

Testo completo

(1)

L a v a ri a b ili tà

•L’utilizzo di una mediapermette di sintetizzare efficacemente l’informazione contenuta in una distribuzione statistica dal punto di vista dell’intensitàdel carattere. Tuttavia la sintesi può essere eccessiva, nel senso si possono perdere informazioni su altre caratteristiche fondamentali come la variabilità. •Lavariabilitàèdefinibile come la tendenza delle unitàdi un collettivo ad assumere modalitàdiverse tra loro.

E s e m p io

•Consideriamo le distribuzioni secondo il numero di figli in due collettivi diversi di 25 famiglie ciascuno. 25Totale

24

33

152

41

10

Frequenze(nj)N. Figli(xj)

Popolazione1 25Totale

34

53

92

61

20

Frequenze(nj)N. Figli(xj)

Popolazione2 04,251 2511 1

1===

=

k jjjnx nx04,251 2511 12===

=

k jjjnx nx •Entrambe le distribuzioni hanno media 2,04 ma, come è possibile dedurre dai grafici, sono molto diverse: la prima assume delle modalitàmolto piùconcentrate attorno alla media e quindi ha minore variabilità.

In d ic i d i v a ri a b ili tà

•Per avere una descrizione piùcompleta della distribuzione è quindi opportuno utilizzare, oltre a una media, un indiceche misuri la variabilitàdella distribuzione. •Un indice di variabilitàdeve: –assumere il valore minimo (tipicamente 0) se e solo se tutte le unitàdella distribuzione presentano la stessa modalità; –aumentare all’aumentare della diversitàtra le modalitàdel carattere assunte dalle varie unità.

(2)

•Gli indici di variabilitàpossono essere basati: –sullo scostamento da una media; –sulla differenze tra statistiche d’ordine. Scostamentosemplicemedio dallamediana

Coefficientedi variazione

Deviazionestandard

DifferenzainterquartilicaVarianza

Campo di variazioneDevianza

Differenzetrastatistiched’ordineScostamentidaunamedia

D e v ia n z a e v a ri a n z a

•Per una distribuzione unitariadi un carattere quantitativo, la devianzaèdefinita come •Per una distribuzione di frequenzanon in classi •Se il carattere èin classisi utilizzano i valori centrali al posto delle modalità. •Lavarianzaènormalmente preferita alla devianzae si ottiene come:

( ) ∑

=−=

n iixxD 1

2

( ) ∑

=−=

k jjjnxxD 1

2 21

jj jcc x+ =

( ) ( ) ∑ ∑

==−=−==

k jjj

k jjjfxxnxx nnD 1

2 1

221 σ

E s e m p i

•Per la distribuzione unitaria dei voti si ha: 305 150Totale

206

264

223

272

251

Voto(xi)Unità(i) 25150 611 1===

=n iix nx

255 640

25-5

11

9-3

42

00

xxi

( )

2 xxi

( )

667,1064 611 1

22 ==−==

=

n iixx nnD σ

•Per la prima distribuzione del numero di figli per un collettivo di 25 famiglie, che ha media 2,04, si ha: 25Totale

24

33

152

41

10

Frequenze(nj)N. Figli(xj)

Popolazione1 04,251 2511 1

1===

=

k jjjnx nx

18,960----

7,6833,8421,96

2,7650,9220,96

0,0240,002-0,04

4,3261,082-1,04

4,1624,162-2,04

xxj

( )

2 xxj

( )

jjnxx2

( )

758,0960,18 2511 1

2 12 1==−==

=

k jjjnxx nnD σ

(3)

•Per la seconda distribuzione, che ha sempre media 2,04, si ha: 25Totale

34

53

92

61

20

Frequenze(nj)N. Figli(xj)

Popolazione2 04,251 2511 12===

=k jjjnx nx

30,960----

11,5253,8421,96

4,6080,9220,96

0,0140,002-0,04

6,4901,082-1,04

8,3234,162-2,04

xxj

( )

2 xxj

( )

jjnxx2

( )

238,1960,30 2511 1

2 22 2==−==

=

k jjjnxx nnD σ

•Per la distribuzione dell’altezza per un collettivo di 50 soggetti si ha: --

16,2

1,2

-8,8

-18,8 --

262,44

1,44

77,44

353,44 8690

760

6125

1650

155

xjnj 2228--50Totale

1049,761904180-200

50,417535170-180

774,416510160-170

353,441551150-160

Valori centrali (xj)

Freq. (nj)

Altezza (cj-1--cj)xxj

( )

2 xxj

( )

jjnxx2 − 8,1738690 5011 1===

=k jjjnx nx

( )

56,442228 5011 1

22 ==−=

=

k jjjnxx nσ

D e v ia z io n e s ta n d a rd e c o e ff ic ie n te d i v a ri a z io n e

•Ladeviazione standard(oscostamento quadratico medio) èl’indice di variabilitàpiùutilizzato in quanto èespresso nella stessa unitàdi misura del carattere. Si ottiene come: •Nel caso in cui la distribuzione abbia media aritmetica positiva, il coefficiente di variazionesi calcola come (normalmente in percentuale):

( ) ∑

=−==

k jjjnxx n1

221 σσ 100 xCVσ =

E s e m p i

•Per la distribuzione dei voti •Per le distribuzioni del numero di figli: Popolazione 1 Popolazione 2 •Per la distribuzione dell’altezza:871,0758,0==σ%69,42100 04,2871,0 ==CV

27,3667,10==σ%1,13100 2527,3 ==CV 113,1238,1==σ%55,54100 04,2113,1 ==CV 675,656,44==σ%84,3100 8,173675,6 ==CV

(4)

P ro p ri e tà

•Proprietà1: gli indici D, σ2e σsono sempre non negativi e assumono il valore minimo (0) se e solo se tutte le modalità della distribuzione sono uguali tra loro. •Proprietà2: la devianza può essere calcolata come (formula semplificata) (distribuzione unitaria) (distribuzione di frequenze) che ha vantaggi nel calcolo anche della varianza e della deviazione standard

2 1

2 xnxD

n ii−=

= 2 1

2 xnnxD

k jjj−=

=

•Proprietà3: se a ogni termine della distribuzione viene applicata la trasformazione aX+ b, allora gli indici di variabilità cambieranno nel modo seguente: Devianza--->a2D Varianza--->a2σ2 Deviazione standard--->aσ

E s e m p i

•Per la distribuzione unitaria dei voti si ha: 305 150Totale

206

264

223

272

251

Voto(xi)Unità(i) 25150 61 ==x

255 640

25-5

11

9-3

42

00

xxi

( )

2 xxi

( )

667,1064 611 1

22 ==−==

=

n iixx nnD σ

3814

400

900

676

484

729

625

2 ix 667,10253814 61122 1

22 =−=−==

=xx nn

Dn iiσ

•Per la prima distribuzione del numero di figli per un collettivo di 25 famiglie, che ha media 2,04, si ha: 25Totale

24

33

152

41

10

Frequenze(nj)N. Figli(xj)

Popolazione1 04,251 251 1==x

18,960----

7,6833,8421,96

2,7650,9220,96

0,0240,002-0,04

4,3261,082-1,04

4,1624,162-2,04

xxj

( )

2 xxj

( )

jjnxx2

( )

758,0960,18 2511 1

2 12 1==−==

=

k jjjnxx nnD σ

--16

9

4

1

0

2 jx 758,004,2123 251122 1 1

22 1=−=−==

=xnx nn

Dk jjjσ

123

32

27

60

4

0

jjnx2

(5)

S c o s ta m e n ti s e m p lic i m e d i

•Per una distribuzione unitaria di un carattere quantitativo, lo scostamento semplice medio dalla media aritmetica è definito come •Per una distribuzione di frequenzanon in classi •Se il carattere èin classisi utilizzano i valori centrali al posto delle modalità.

=−=

n iixxx nS 1

1 j

k jjxnxx nS

=−= 1

1 21

jj jcc x+ =

•Lo scostamento semplice medio dalla mediana si ottiene sostituendo la mediana alla media aritmetica: (distribuzione unitaria) (distribuzione di frequenza)

=−=

n iiMeMex nS 1

1 j

k jjMenMex nS

=−= 1

1

E s e m p i

•Per la distribuzione unitaria dei voti si ha: 305 150Totale

206

264

223

272

251

Voto(xi)Unità(i) 25150 61 ==x

4,55 1616

5,55

0,51

3,53

1,52

0,50

xxi−Mexi− 667,26/161 1==−=

=n iixxx nS 5,25=Me667,26161 1==−=

=n iiMeMex nS

•Per la prima distribuzione del numero di figli per un collettivo di 25 famiglie, che ha media 2,04, si ha: 25Totale

24

33

152

41

10

Frequenze(nj)N. Figli(xj)

Popolazione1 04,251 251 1==x

--13,6--

23,921,96

12,880,96

00,60,04

14,161,04

22,042,04

xxj−Mexjjjnxx− 1343042

jjnMex− 2=Me

544,0 2560,131 1==−=

=j

k jjxnxx nS 52,0 25131 1==−=

=j

k jjMenMex nS

(6)

A lt ri in d ic i d i v a ri a b ili tà

•Per una distribuzione con modalitàordinate, x1,…,xk, il campo di variazioneèdefinito come •E’l’indice di variabilitàpiùsemplice da calcolare, ma non è molto efficace nel misurare la variabilitàdella distribuzione. •La differenza interquartilicasi basa sul primo quartile (Q1) e il terzo quartile (Q3) ed èdefinita come

1xxRn−= 13QQW−=

E s e m p i

•Per la distribuzione unitaria dei voti si ha: 1020301=−=−=xxRn 5222713=−=−=QQW •Per entrambe le distribuzioni del numero di figli si ha: 4041=−=−=xxRn •Per la distribuzione delle altezze si ha: 14,743,17057,177=−=W

Riferimenti

Documenti correlati

(ossia hanno hanno tutte la stessa funzione di probabilità e risultano indipendenti fra di loro) e la variabile casuale X “numero totale di volte in cui si verifica

“numero di palline bianche estratte” se ne determini la distribuzione di probabilità, il valore atteso, il coefficiente di variazione e

— quindi per la prima coppia di aggettivi dovrai sommare il numero barrato nella scheda A con quelli delle schede B e C, riferiti sempre alla stessa coppia di

Cercare di usare ragionamenti il più possibile strutturali e non solo calcoli

L'analisi riguarda gli aggregati "personale stabile" (personale con rapporto di lavoro a tempo indeterminato comprensivo dei dirigenti a tempo determinato che

Sapendo che i valori dell’HDL (high density lipoprotein) si distribuiscono normalmente, si vuole stimare la probabilità che un soggetto appartenente alla P abbia valori

Se la condizione è true, viene eseguita l’istruzione di stampa e il programma prosegue con la prossima istruzione. Se la condizione è false, l’istruzione di stampa è ignorata e

•1 l’indice di penetrazione nel mercato, cioè il rapporto percentuale tra le vendite della marca e le vendite totali della classe o della linea di prodotti, da cui poi si può