• Non ci sono risultati.

• Servono per “localizzare” la distribuzione, per individuare il valore intorno al quale la

N/A
N/A
Protected

Academic year: 2021

Condividi "• Servono per “localizzare” la distribuzione, per individuare il valore intorno al quale la "

Copied!
51
0
0

Testo completo

(1)

∆ ∆

Unità 4

Gli indici di posizione

(2)

Indici statistici di posizione

• Servono per “localizzare” la distribuzione, per individuare il valore intorno al quale la

distribuzione si “accentra”.

Questi indici, cercano di individuare un valore che possa essere assunto come rappresentativo dell’intera

distribuzione e quindi la sintetizza.

STATISTICA - Università di Salerno 2

(3)

Media aritmetica: serie di dati

N.B.: il carattere X deve essere quantitativo

STATISTICA - Università di Salerno

( )

=

=

+ +

=

N

i

i

N

N x

x x

N x x

1

2 1

1

1 K

3

(4)

Esempio

Produzione energia elettrica regioni del Sud

(Fonte Annuario Statistico Italiano 2000 – ISTAT)

STATISTICA - Università di Salerno

Regioni Energia

Abruzzo 3.599

Molise 1.201

Campania 4.924

Puglia 22.874

Basilicata 1.440

Calabria 6.938

Sicilia 24.040

Sardegna 11.396

Totale 76.412

5 , 8 9551

412 .

76 1

1

=

=

=

= N

i

xi

x N

4

(5)

Media aritmetica: distribuzione semplice

STATISTICA - Università di Salerno

1 k

i i i

x n

=

1 2 k

N = + +n n L +n

X ni

x1 n1 x2 n2

… …

xk nk N

xi · ni x1 · n1 x2 · n2

xk · nk

=

=

k

i

i i

n N x

x

1

1

5

(6)

Esempio: Lombardia

STATISTICA - Università di Salerno

Componenti Lombardia

1 591.927

2 743.032

3 747.740

4 665.163

5 233.871

6 o più 100.054

Totale 3.081.787

x i · n i

591.927 1.486.064 2.243.220 2.660.652 1.169.355 800.432 8.951.650

1 k

i i i

x n

=

N.B.:

Valore centrale ultima classe 8

905 ,

787 2 .

081 .

3

650 .

951 .

8 1

1

=

=

= ∑

= k

i

i i

L

x n

x N

6

(7)

Esempio: Calabria

STATISTICA - Università di Salerno

Componenti Calabria

1 105.823

2 132.552

3 111.192

4 129.278

5 79.952

6 o più 63.516

Totale 622.313

1 k

i i i

x n

=

x i · n i

105.823 265.104 333.576 517.112 399.760 508.128 2.129.503

Valore centrale ultima classe 8

422 ,

313 3 .

622

503 .

129 .

2 1

1

=

=

= ∑

= k

i

i i

C

x n

x N

7

(8)

Confronto mediante diagramma a Barre

STATISTICA - Università di Salerno

x

C

x

L

8

(9)

Media aritmetica: formula alternativa

STATISTICA - Università di Salerno

1 k

i i i

x f

= i

i

f n

= N i =1, 2, L k

X fi

x1 f1 x2 f2

… …

xk fk 1

xi · fi x1 · f1 x2 · f2

xk · fk

=

=

k

i

i i

f x x

1

9

(10)

Media aritmetica: distribuzioni per classi

STATISTICA - Università di Salerno

(

1

)

/ 2

i i i

c = x + x

1 k

i i i

c n

=

X ni

x0 -| x1 n1 x1 -| x2 n2

… …

xk-1 -| xk nk N

ci · ni c1 · n1 c2 · n2

ck · nk ci

c1 c2

ck

=

k

i

i i

n N c

x

1

1

10

(11)

Esempio

STATISTICA - Università di Salerno

Altezza Frequenze

140-|150 12

150-|160 513

160-|170 1.198

170-|180 789

180-|190 232

190-|200 15

Totale 2.759

ci 145 155 165 175 185 195

ci*ni

1.740 79.515 197.670 138.075 42.920 2.925 462.845

76 , 759 167

. 2

845 .

462 1

1

=

=

≅ ∑

= k

i

i i

n N c

x

11

(12)

Proprietà media aritmetica (1)

• La media aritmetica è sempre compresa tra il valore più piccolo e il valore più grande delle modalità del carattere.

STATISTICA - Università di Salerno

( ) X x max ( ) X

min ≤ ≤

12

(13)

Proprietà media aritmetica (2)

• La media aritmetica è quel valore che, sostituito alle osservazioni, lascia invariato l’ammontare totale del carattere.

STATISTICA - Università di Salerno

∑ ∑

= =

N

=

i

N

i

i

x

x

1 1

13

(14)

Esempio

STATISTICA - Università di Salerno

Regioni Energia

Abruzzo 3.599

Molise 1.201

Campania 4.924

Puglia 22.874

Basilicata 1.440

Calabria 6.938

Sicilia 24.040

Sardegna 11.396

Totale 76.412

9.552 9.552 9.552 9.552 9.552 9.552 9.552 9.552 76.412

∑ ∑

= =

N

=

i

N

i

i

x

x

1 1

14

(15)

Scarti dalla media

• Gli scarti dalla media sono definiti come

STATISTICA - Università di Salerno

La somma degli scarti dalla media è sempre nulla

N i

x

x

i

− , = 1 , 2 , K

( ) ∑ ( )

=

=

=

=

k

i

i i

N

i

i

x x x n

x

1 1

0 ,

0

15

(16)

Esempio: Scarti dalla media

STATISTICA - Università di Salerno

Regioni Energia Scarti

Abruzzo 3.599 9.552 -5.953

Molise 1.201 9.552 -8.351

Campania 4.924 9.552 -4.628

Puglia 22.874 9.552 13.323

Basilicata 1.440 9.552 -8.112

Calabria 6.938 9.552 -2.614

Sicilia 24.040 9.552 14.489

Sardegna 11.396 9.552 1.845

Totale 76.412 76.412 0

N i

x x

i

, K 2 , 1

,

=

( ) 0

1

− =

iN=

x

i

x

16

(17)

Esempio: Scarti dalla media

STATISTICA - Università di Salerno 17

(18)

Esempio: Scarti dalla media

STATISTICA - Università di Salerno 18

(19)

Proprietà associativa

La media di una variabile osservata in più gruppi è ottenuta come media delle medie dei singoli gruppi (tenendo conto delle numerosità di gruppo).

STATISTICA - Università di Salerno

( ) ( ) ( )

h

h h

x x

x

N N

N

P P

P P

, ,

,

, ,

,

, ,

,

2 1

2 1

2 1

K

K

K ( ) ( ) ( )

( ) ( ) ( )h

h h

N N

N

N x N

x N

x x

+ +

+

+ +

= +

L L

2 1

2 2

1 1

19

(20)

Esempio: componenti nucleo fam.

STATISTICA - Università di Salerno

( ) ( )

( ) ( )

992 ,

313 2 .

622 787

. 081 .

3

313 .

622 422

, 3 787

. 081 .

3 905 ,

2 =

+

⋅ +

= ⋅

+

= C CC + L L L

CL N N

N x

N x x

422 ,

= 3 x

C

905 ,

= 2 x

L

= ? x

CL

( )L

= 3 . 081 . 787 N

( )C

= 622 . 313 N

20

(21)

La media aritmetica ponderata

In generale, se X è un carattere quantitativo e si intende attribuire diversa importanza (diverso peso) alle diverse modalità del carattere:

Si noti, dalle formule precedenti, che le frequenze non sono altro che pesi. Tuttavia, non sempre i pesi sono da ricondursi a

frequenze

STATISTICA - Università di Salerno

=

=

=k

i

i k

i

i i

p p x x

1 1

21

(22)

Esempio: voto medio

• Uno studente deve sostenere durante la sua

carriera un certo numero di esami, ciascuno dei quali ha peso relativo diverso, misurato dai CFU

• Es:

Statistica (10 CFU)

Istituzioni di Diritto Pubblico (10 CFU) Lingua e linguistica Inglese I (5 CFU) ….

• Per un totale di 180 CFU per la laurea triennale

STATISTICA - Università di Salerno 22

(23)

Esempio: voto medio

(2)

• Alla fine della sua carriera, il voto medio sarà dato da

STATISTICA - Università di Salerno

180

1

1 1

=

=

=

=

=

esami num

i

i i

esami num

i

i esami

num

i

i

i

Voto CFU

CFU

CFU Voto

medio voto

23

(24)

Il problema degli outliers

• In alcuni set di dati possono essere presenti valori eccezionali (eccezionalmente grandi o

eccezionalmente piccoli).

• Ciò è dovuto a diverse ragioni:

errori di battitura o di misura

alcune unità statistiche sono molto eterogenee popolazioni diverse vengono mischiate

• La percentuale di outliers presenti in data-set reali può raggiungere percentuali tra il 5-20% dei dati

STATISTICA - Università di Salerno 24

(25)

Esempio

STATISTICA - Università di Salerno

Paese GNI ($ correnti)

Nicaragua 420

Honduras 850

Guatemala 1690

El Salvador 1990

Panama 3260

Costa Rica 3960

x = 2028 , 33

25

GNI=Gross

National Income

(26)

Esempio

STATISTICA - Università di Salerno

Paese GNI ($ correnti)

Nicaragua 420

Honduras 850

Guatemala 1690

El Salvador 1990

Panama 32600

Costa Rica 3960

x = 6918 , 33

26

(27)

Esempio

STATISTICA - Università di Salerno

Paese GNI ($ correnti)

Nicaragua 420

Honduras 850

Guatemala 1690

El Salvador 1990

Panama 3260

Costa Rica 3960

Mexico 5080

Canada 21050

United States 34260

x = 8062 , 22

27

(28)

Media ed outliers

• In presenza di outliers la media non è più

rappresentativa della distribuzione statistica.

STATISTICA - Università di Salerno

x x

28

(29)

Indici robusti: Mediana

• E’ quel valore che suddivide la distribuzione in due parti di uguale numerosità.

• Cioè la mediana è tale che la metà delle

osservazioni ha un valore inferiore alla mediana e la restante metà un valore superiore.

STATISTICA - Università di Salerno

Me

50% 50%

29

(30)

Mediana: serie di dati

STATISTICA - Università di Salerno

xN

x x

X1, 2,K,

( )

( ) ( )

( )

1 / 2

/ 2 / 2 1

se è dispari / 2 se è pari

N

N N

x N

Me x x N

+

+

= 

 +

( ) ( )x x( )N x

ordinata

X1 , 2 ,K,

30

(31)

Esempio: N dispari

STATISTICA - Università di Salerno

(N+1)/2=(7+1)/2=4 N=7

Regioni Energia

Molise 1.201

Campania 4.924

Puglia 22.874

Basilicata 1.440

Calabria 6.938

Sicilia 24.040

Sardegna 11.396

Rango 1 2 3 4 5 6 7 Regioni Energia

Molise 1.201

Basilicata 1.440

Campania 4.924

Calabria 6.938

Sardegna 11.396

Puglia 22.874

Sicilia 24.040

( )4

= 6 . 938

= x Me

31

(32)

Esempio: N pari

STATISTICA - Università di Salerno

N/2=4 N=8

Regioni Energia Rango

Abruzzo 3.599 1

Molise 1.201 2

Campania 4.924 3

Puglia 22.874 4

Basilicata 1.440 5

Calabria 6.938 6

Sicilia 24.040 7

Sardegna 11.396 8

Regioni Energia

Molise 1.201

Basilicata 1.440

Abruzzo 3.599

Campania 4.924

Calabria 6.938

Sardegna 11.396

Puglia 22.874

Sicilia 24.040

( ) ( )

(

4

+

5

) / 2 = 5 . 931

= x x Me

32

(33)

Esempio

STATISTICA - Università di Salerno

Paese GNI ($ correnti)

Nicaragua 420

Honduras 850

Guatemala 1690

El Salvador 1990

Panama 3260

Costa Rica 3960

1840 Me =

33 ,

= 2028 x

33

(34)

Esempio

STATISTICA - Università di Salerno

Paese GNI ($ correnti)

Nicaragua 420

Honduras 850

Guatemala 1690

El Salvador 1990

Costa Rica 3960

Panama 32600 Me =1840

33 ,

= 6918 x

34

(35)

Esempio

STATISTICA - Università di Salerno

Paese GNI ($ correnti)

Nicaragua 420

Honduras 850

Guatemala 1690

El Salvador 1990

Panama 3260

Costa Rica 3960

Mexico 5080

Canada 21050

United States 34260 Me = 3260

22 ,

= 8062 x

35

(36)

Mediana: distribuzione di frequenza

STATISTICA - Università di Salerno

La mediana corrisponde alla modalità associata

alla prima frequenza relativa cumulata maggiore o uguale di 0.5

X Fi

x1 F1 x2 F2

… …

xk Fk

36

(37)

Esempio

STATISTICA - Università di Salerno

La mediana corrisponde alla modalità associata alla prima frequenza relativa cumulata maggiore di 0.5

Mediana

Lombardia Componenti FA

1 591.927

2 743.032

3 747.740

4 665.163

5 233.871

6 o più 100.054 Totale 3.081.787

FRC 0,19 0,43 0,67 0,89 0,97 1,00

37

(38)

Mediana: distribuzioni in classi

• Si individua la classe mediana: è la classe cui

corrisponde la prima frequenza relativa cumulata maggiore o uguale di 0.5.

• Ipotizzando che le osservazioni siano distribuite uniformemente all’interno della classe mediana, la mediana si approssima come

STATISTICA - Università di Salerno

( )

1

1 1

1

0.5 i

i i i

i i

Me x x x F

F F

≅ + − −

38

(39)

Distribuzione età del Piemonte 1991

STATISTICA - Università di Salerno

Classe mediana

Età FR FRC

0-|1 0,008 0,008

1-|4 0,030 0,038

4-|9 0,041 0,079

9-|14 0,051 0,130

14-|24 0,142 0,272

24-|44 0,287 0,558

44-|64 0,270 0,829

64- 0,171 1,000

( ) ( )

39,94

272 ,

0 558 ,

0

272 ,

0 5

, 24 0

44 5 24

, 0

1 1 1

1 =

+

=

+

i i

i i

i

i F F

x F x

x Me

39

(40)

Mediana: proprietà

La mediana è un indice statistico resistente o robusto, nel senso che è rappresentativo della

posizione della distribuzione anche in presenza di valori eccezionali.

• Ciò è dovuto al fatto che la mediana tiene solo conto dell’ordinamento delle osservazioni.

STATISTICA - Università di Salerno 40

(41)

Quartili

• Con la mediana il gruppo dei dati viene suddiviso in 2 parti uguali: tra il minimo e la Mediana si trova il 50% delle osservazioni e tra la Mediana ed il

massimo si trova il rimanente 50%.

• Con i quartili il gruppo dei dati viene suddiviso in 4 parti di uguale numerosità.

STATISTICA - Università di Salerno

Q2=Me

25% 25%

Q1 Q3

25% 25%

41

(42)

Quartili: calcolo

• I dati vengono ordinati in senso crescente

In generale Q

1

=x

[0.25(N+1)]

mentre Q

3

=x

[0.75(N+1)]

, dove la posizione 0.25(N+1) va arrotondata

all’intero più vicino

In casi particolari, quando la posizione si trova

esattamente a metà tra altre due, i quartili derivano dalla media dei valori nella due posizioni (come accade per la mediana quando N è pari)

STATISTICA - Università di Salerno 42

(43)

Quartili: distribuzione per classi

• Si individua la classe contenente i quartili.

• Si utilizza lo stesso approccio della mediana

avendo però come riferimento 0.25 (0.75) per il primo (terzo) quartile.

STATISTICA - Università di Salerno

( )

1 1 1

1 1

25 . 0

− − +

i i

i i i

i F F

x F x

x Q

( )

1 1 1

1 3

75 . 0

− − +

i i

i i i

i F F

x F x

x Q

43

(44)

Mediana: un commento

Problema: dove collocare un deposito (di merci, carburante, ecc.) lungo un’autostrada con punti vendita ai chilometri x

1

, x

2

, x

3

, … , x

N

con costo unitario di trasporto c, in modo da minimizzare i costi di rifornimento dei fornitori.

• La quantità da minimizzare è

STATISTICA - Università di Salerno

1 = min!

iN= c xix

Si può dimostrare che il minimo si ha per

x=Me.

44

(45)

Altri indici di posizione robusti

• Si considera la media aritmetica del 50% dei valori centrali.

STATISTICA - Università di Salerno

( )

3/ 4

/ 4

MidMean 2

N

i i N

N = x

=

Un altro indice è basato su una media ponderata dei quartili

1 2 2 3

4

Q + Q + Q

45

(46)

Moda

• La moda è quella modalità cui corrisponde la frequenza (assoluta o relativa) massima.

STATISTICA - Università di Salerno

La moda può essere calcolata sia per variabili che per mutabili.

46

(47)

Esempio 1: variabile quantitativa

STATISTICA - Università di Salerno

Lombardia Componenti FA

1 591.927

2 743.032

3 747.740

4 665.163

5 233.871

6 o più 100.054 Totale 3.081.787

Moda

47

(48)

Esempio 2: mutabile

Provenienza Frequenze

Classico 821

Scientifico 637

Tecnico 1090

Altri 211

Totale 2759

STATISTICA - Università di Salerno

Moda

48

(49)

Un commento sulla moda

• Una distribuzione può possedere più valori modali distinti.

• Ciò di solito indica la presenza di più sotto- popolazioni che presentano posizioni

differenziate per ragioni strutturali e che, per errore o necessità, si stanno analizzando

congiuntamente.

STATISTICA - Università di Salerno 49

(50)

Moda: distribuzioni per classi

• Per classi di modalità non di uguale ampiezza la classe modale è quella cui corrisponde la massima densità di frequenza.

STATISTICA - Università di Salerno

1 i i

i i

h n

x x

= −

Per distribuzioni in classi di modalità si individua la classe modale, come quella classe cui

corrisponde la massima frequenza.

50

(51)

Un commento finale

La moda è un indice per governare: minimizza gli scontenti perché tiene conto della maggioranza.

La mediana è un indice per decisioni che

implicano un costo da minimizzare: minimizza i costi complessivi e va utilizzato quando si vuole

risparmiare globalmente rispetto ad un obiettivo.

La media è un indice di equilibrio generale:

minimizza i rischi complessivi attribuendo particolare peso agli estremi.

STATISTICA - Università di Salerno 51

Riferimenti

Documenti correlati

Se l'elemento popolare tanto caro al musicista riemerge in La vera storia grazie alla figura del cantastorie e al timbro di una fisarmonica (ch'è anche al- lusione non

Notiamo inoltre che (2, 2) coincide con il punto di sella trovato precedentemente... Notiamo inoltre che (2, 2) coincide con il punto di sella

Poich´ e st > χ 2 0.05,6 = 12.592, l’ipotesi H 0 di adattamento alla distribuzione di Poisson viene rifiutata: i dati non sono compatibili con l’ipotesi che il numero di

Quella viola è la cromatina cromatina , cioè i , cioè i cromosomi non avvolti su se cromosomi non avvolti su se. stessi (non spiralizzati) stessi

1,6 punti: risposta corretta, soluzione migliore ma senza una buona proprietà di linguaggio o senza una buona esposizione.. 1,4 punti: risposta corretta ma non la

[r]

Ciò che è più dispendioso in termini strettamente computazionali è legato al numero di confronti e di scambi eseguiti nella procedura Triplet_Adjust volti alla determinazione

06) Alcuni luoghi geometrici.. Sul segmento CE considero il segmento CD AB =. La retta del fascio passante per il punto D incontra la trasversale s nel punto D′.. La