∆ ∆
Unità 4
Gli indici di posizione
∆
Indici statistici di posizione
• Servono per “localizzare” la distribuzione, per individuare il valore intorno al quale la
distribuzione si “accentra”.
• Questi indici, cercano di individuare un valore che possa essere assunto come rappresentativo dell’intera
distribuzione e quindi la sintetizza.
STATISTICA - Università di Salerno 2
∆
Media aritmetica: serie di dati
N.B.: il carattere X deve essere quantitativo
STATISTICA - Università di Salerno
( )
∑
=
=
+ +
=
N
i
i
N
N x
x x
N x x
1
2 1
1
1 K
3
∆
Esempio
Produzione energia elettrica regioni del Sud
(Fonte Annuario Statistico Italiano 2000 – ISTAT)
STATISTICA - Università di Salerno
Regioni Energia
Abruzzo 3.599
Molise 1.201
Campania 4.924
Puglia 22.874
Basilicata 1.440
Calabria 6.938
Sicilia 24.040
Sardegna 11.396
Totale 76.412
5 , 8 9551
412 .
76 1
1
=
=
=
∑
= N
i
xi
x N
4
∆
Media aritmetica: distribuzione semplice
STATISTICA - Università di Salerno
1 k
i i i
x n
∑
=1 2 k
N = + +n n L +n
X ni
x1 n1 x2 n2
… …
xk nk N
xi · ni x1 · n1 x2 · n2
… xk · nk
∑
=
=
ki
i i
n N x
x
1
1
5
∆
Esempio: Lombardia
STATISTICA - Università di Salerno
Componenti Lombardia
1 591.927
2 743.032
3 747.740
4 665.163
5 233.871
6 o più 100.054
Totale 3.081.787
x i · n i
591.927 1.486.064 2.243.220 2.660.652 1.169.355 800.432 8.951.650
1 k
i i i
x n
∑
=N.B.:
Valore centrale ultima classe 8
905 ,
787 2 .
081 .
3
650 .
951 .
8 1
1
=
=
= ∑
= k
i
i i
L
x n
x N
6
∆
Esempio: Calabria
STATISTICA - Università di Salerno
Componenti Calabria
1 105.823
2 132.552
3 111.192
4 129.278
5 79.952
6 o più 63.516
Totale 622.313
1 k
i i i
x n
∑
=x i · n i
105.823 265.104 333.576 517.112 399.760 508.128 2.129.503
Valore centrale ultima classe 8
422 ,
313 3 .
622
503 .
129 .
2 1
1
=
=
= ∑
= k
i
i i
C
x n
x N
7
∆
Confronto mediante diagramma a Barre
STATISTICA - Università di Salerno
x
Cx
L8
∆
Media aritmetica: formula alternativa
STATISTICA - Università di Salerno
1 k
i i i
x f
∑
= ii
f n
= N i =1, 2, L k
X fi
x1 f1 x2 f2
… …
xk fk 1
xi · fi x1 · f1 x2 · f2
… xk · fk
∑
=
=
ki
i i
f x x
1
9
∆
Media aritmetica: distribuzioni per classi
STATISTICA - Università di Salerno
(
1)
/ 2i i i
c = x + x −
1 k
i i i
c n
∑
=X ni
x0 -| x1 n1 x1 -| x2 n2
… …
xk-1 -| xk nk N
ci · ni c1 · n1 c2 · n2
… ck · nk ci
c1 c2
… ck
∑
=
≅
ki
i i
n N c
x
1
1
10
∆
Esempio
STATISTICA - Università di Salerno
Altezza Frequenze
140-|150 12
150-|160 513
160-|170 1.198
170-|180 789
180-|190 232
190-|200 15
Totale 2.759
ci 145 155 165 175 185 195
ci*ni
1.740 79.515 197.670 138.075 42.920 2.925 462.845
76 , 759 167
. 2
845 .
462 1
1
=
=
≅ ∑
= k
i
i i
n N c
x
11
∆
Proprietà media aritmetica (1)
• La media aritmetica è sempre compresa tra il valore più piccolo e il valore più grande delle modalità del carattere.
STATISTICA - Università di Salerno
( ) X x max ( ) X
min ≤ ≤
12
∆
Proprietà media aritmetica (2)
• La media aritmetica è quel valore che, sostituito alle osservazioni, lascia invariato l’ammontare totale del carattere.
STATISTICA - Università di Salerno
∑ ∑
= =
N
=
i
N
i
i
x
x
1 1
13
∆
Esempio
STATISTICA - Università di Salerno
Regioni Energia
Abruzzo 3.599
Molise 1.201
Campania 4.924
Puglia 22.874
Basilicata 1.440
Calabria 6.938
Sicilia 24.040
Sardegna 11.396
Totale 76.412
9.552 9.552 9.552 9.552 9.552 9.552 9.552 9.552 76.412
∑ ∑
= =
N
=
i
N
i
i
x
x
1 1
14
∆
Scarti dalla media
• Gli scarti dalla media sono definiti come
STATISTICA - Università di Salerno
•
La somma degli scarti dalla media è sempre nulla
N i
x
x
i− , = 1 , 2 , K
( ) ∑ ( )
∑
=
=
=
−
=
−
ki
i i
N
i
i
x x x n
x
1 1
0 ,
0
15
∆
Esempio: Scarti dalla media
STATISTICA - Università di Salerno
Regioni Energia Scarti
Abruzzo 3.599 9.552 -5.953
Molise 1.201 9.552 -8.351
Campania 4.924 9.552 -4.628
Puglia 22.874 9.552 13.323
Basilicata 1.440 9.552 -8.112
Calabria 6.938 9.552 -2.614
Sicilia 24.040 9.552 14.489
Sardegna 11.396 9.552 1.845
Totale 76.412 76.412 0
N i
x x
i, K 2 , 1
,
=
−
( ) 0
1
− =
∑
iN=x
ix
16
∆
Esempio: Scarti dalla media
STATISTICA - Università di Salerno 17
∆
Esempio: Scarti dalla media
STATISTICA - Università di Salerno 18
∆
Proprietà associativa
La media di una variabile osservata in più gruppi è ottenuta come media delle medie dei singoli gruppi (tenendo conto delle numerosità di gruppo).
STATISTICA - Università di Salerno
( ) ( ) ( )
h
h h
x x
x
N N
N
P P
P P
, ,
,
, ,
,
, ,
,
2 1
2 1
2 1
K
K
→ K ( ) ( ) ( )
( ) ( ) ( )h
h h
N N
N
N x N
x N
x x
+ +
+
+ +
= +
L L
2 1
2 2
1 1
19
∆
Esempio: componenti nucleo fam.
STATISTICA - Università di Salerno
( ) ( )
( ) ( )
992 ,
313 2 .
622 787
. 081 .
3
313 .
622 422
, 3 787
. 081 .
3 905 ,
2 =
+
⋅ +
= ⋅
+
= C CC + L L L
CL N N
N x
N x x
422 ,
= 3 x
C905 ,
= 2 x
L= ? x
CL( )L
= 3 . 081 . 787 N
( )C
= 622 . 313 N
20
∆
La media aritmetica ponderata
• In generale, se X è un carattere quantitativo e si intende attribuire diversa importanza (diverso peso) alle diverse modalità del carattere:
• Si noti, dalle formule precedenti, che le frequenze non sono altro che pesi. Tuttavia, non sempre i pesi sono da ricondursi a
frequenze
STATISTICA - Università di Salerno
∑
∑
=
=
=ki
i k
i
i i
p p x x
1 1
21
∆
Esempio: voto medio
• Uno studente deve sostenere durante la sua
carriera un certo numero di esami, ciascuno dei quali ha peso relativo diverso, misurato dai CFU
• Es:
– Statistica (10 CFU)
– Istituzioni di Diritto Pubblico (10 CFU) – Lingua e linguistica Inglese I (5 CFU) – ….
• Per un totale di 180 CFU per la laurea triennale
STATISTICA - Università di Salerno 22
∆
Esempio: voto medio
(2)• Alla fine della sua carriera, il voto medio sarà dato da
STATISTICA - Università di Salerno
180
1
1 1
∑
∑
∑
=
=
=
⋅
=
⋅
=
esami num
i
i i
esami num
i
i esami
num
i
i
i
Voto CFU
CFU
CFU Voto
medio voto
23
∆
Il problema degli outliers
• In alcuni set di dati possono essere presenti valori eccezionali (eccezionalmente grandi o
eccezionalmente piccoli).
• Ciò è dovuto a diverse ragioni:
– errori di battitura o di misura
– alcune unità statistiche sono molto eterogenee – popolazioni diverse vengono mischiate
• La percentuale di outliers presenti in data-set reali può raggiungere percentuali tra il 5-20% dei dati
STATISTICA - Università di Salerno 24
∆
Esempio
STATISTICA - Università di Salerno
Paese GNI ($ correnti)
Nicaragua 420
Honduras 850
Guatemala 1690
El Salvador 1990
Panama 3260
Costa Rica 3960
x = 2028 , 33
25
GNI=Gross
National Income
∆
Esempio
STATISTICA - Università di Salerno
Paese GNI ($ correnti)
Nicaragua 420
Honduras 850
Guatemala 1690
El Salvador 1990
Panama 32600
Costa Rica 3960
x = 6918 , 33
26
∆
Esempio
STATISTICA - Università di Salerno
Paese GNI ($ correnti)
Nicaragua 420
Honduras 850
Guatemala 1690
El Salvador 1990
Panama 3260
Costa Rica 3960
Mexico 5080
Canada 21050
United States 34260
x = 8062 , 22
27
∆
Media ed outliers
• In presenza di outliers la media non è più
rappresentativa della distribuzione statistica.
STATISTICA - Università di Salerno
x x
28
∆
Indici robusti: Mediana
• E’ quel valore che suddivide la distribuzione in due parti di uguale numerosità.
• Cioè la mediana è tale che la metà delle
osservazioni ha un valore inferiore alla mediana e la restante metà un valore superiore.
STATISTICA - Università di Salerno
Me
50% 50%
29
∆
Mediana: serie di dati
STATISTICA - Università di Salerno
xN
x x
X → 1, 2,K,
( )
( ) ( )
( )
1 / 2
/ 2 / 2 1
se è dispari / 2 se è pari
N
N N
x N
Me x x N
+
+
=
+
( ) ( )x x( )N x
ordinata
X → 1 , 2 ,K,
30
∆
Esempio: N dispari
STATISTICA - Università di Salerno
(N+1)/2=(7+1)/2=4 N=7
Regioni Energia
Molise 1.201
Campania 4.924
Puglia 22.874
Basilicata 1.440
Calabria 6.938
Sicilia 24.040
Sardegna 11.396
Rango 1 2 3 4 5 6 7 Regioni Energia
Molise 1.201
Basilicata 1.440
Campania 4.924
Calabria 6.938
Sardegna 11.396
Puglia 22.874
Sicilia 24.040
( )4
= 6 . 938
= x Me
31
∆
Esempio: N pari
STATISTICA - Università di Salerno
N/2=4 N=8
Regioni Energia Rango
Abruzzo 3.599 1
Molise 1.201 2
Campania 4.924 3
Puglia 22.874 4
Basilicata 1.440 5
Calabria 6.938 6
Sicilia 24.040 7
Sardegna 11.396 8
Regioni Energia
Molise 1.201
Basilicata 1.440
Abruzzo 3.599
Campania 4.924
Calabria 6.938
Sardegna 11.396
Puglia 22.874
Sicilia 24.040
( ) ( )
(
4+
5) / 2 = 5 . 931
= x x Me
32
∆
Esempio
STATISTICA - Università di Salerno
Paese GNI ($ correnti)
Nicaragua 420
Honduras 850
Guatemala 1690
El Salvador 1990
Panama 3260
Costa Rica 3960
1840 Me =
33 ,
= 2028 x
33
∆
Esempio
STATISTICA - Università di Salerno
Paese GNI ($ correnti)
Nicaragua 420
Honduras 850
Guatemala 1690
El Salvador 1990
Costa Rica 3960
Panama 32600 Me =1840
33 ,
= 6918 x
34
∆
Esempio
STATISTICA - Università di Salerno
Paese GNI ($ correnti)
Nicaragua 420
Honduras 850
Guatemala 1690
El Salvador 1990
Panama 3260
Costa Rica 3960
Mexico 5080
Canada 21050
United States 34260 Me = 3260
22 ,
= 8062 x
35
∆
Mediana: distribuzione di frequenza
STATISTICA - Università di Salerno
La mediana corrisponde alla modalità associata
alla prima frequenza relativa cumulata maggiore o uguale di 0.5
X Fi
x1 F1 x2 F2
… …
xk Fk
36
∆
Esempio
STATISTICA - Università di Salerno
La mediana corrisponde alla modalità associata alla prima frequenza relativa cumulata maggiore di 0.5
Mediana
Lombardia Componenti FA
1 591.927
2 743.032
3 747.740
4 665.163
5 233.871
6 o più 100.054 Totale 3.081.787
FRC 0,19 0,43 0,67 0,89 0,97 1,00
37
∆
Mediana: distribuzioni in classi
• Si individua la classe mediana: è la classe cui
corrisponde la prima frequenza relativa cumulata maggiore o uguale di 0.5.
• Ipotizzando che le osservazioni siano distribuite uniformemente all’interno della classe mediana, la mediana si approssima come
STATISTICA - Università di Salerno
( )
11 1
1
0.5 i
i i i
i i
Me x x x F
F F
− − −
−
≅ + − −
−
38
∆
Distribuzione età del Piemonte 1991
STATISTICA - Università di Salerno
Classe mediana
Età FR FRC
0-|1 0,008 0,008
1-|4 0,030 0,038
4-|9 0,041 0,079
9-|14 0,051 0,130
14-|24 0,142 0,272
24-|44 0,287 0,558
44-|64 0,270 0,829
64- 0,171 1,000
( ) ( )
39,94272 ,
0 558 ,
0
272 ,
0 5
, 24 0
44 5 24
, 0
1 1 1
1 =
−
− − +
− =
− − +
≅
−
− −
−
i i
i i
i
i F F
x F x
x Me
39
∆
Mediana: proprietà
• La mediana è un indice statistico resistente o robusto, nel senso che è rappresentativo della
posizione della distribuzione anche in presenza di valori eccezionali.
• Ciò è dovuto al fatto che la mediana tiene solo conto dell’ordinamento delle osservazioni.
STATISTICA - Università di Salerno 40
∆
Quartili
• Con la mediana il gruppo dei dati viene suddiviso in 2 parti uguali: tra il minimo e la Mediana si trova il 50% delle osservazioni e tra la Mediana ed il
massimo si trova il rimanente 50%.
• Con i quartili il gruppo dei dati viene suddiviso in 4 parti di uguale numerosità.
STATISTICA - Università di Salerno
Q2=Me
25% 25%
Q1 Q3
25% 25%
41
∆
Quartili: calcolo
• I dati vengono ordinati in senso crescente
• In generale Q
1=x
[0.25(N+1)]mentre Q
3=x
[0.75(N+1)], dove la posizione 0.25(N+1) va arrotondata
all’intero più vicino
• In casi particolari, quando la posizione si trova
esattamente a metà tra altre due, i quartili derivano dalla media dei valori nella due posizioni (come accade per la mediana quando N è pari)
STATISTICA - Università di Salerno 42
∆
Quartili: distribuzione per classi
• Si individua la classe contenente i quartili.
• Si utilizza lo stesso approccio della mediana
avendo però come riferimento 0.25 (0.75) per il primo (terzo) quartile.
STATISTICA - Università di Salerno
( )
1 1 1
1 1
25 . 0
−
− −
− −
− − +
≅
i i
i i i
i F F
x F x
x Q
( )
1 1 1
1 3
75 . 0
−
− −
− −
− − +
≅
i i
i i i
i F F
x F x
x Q
43
∆
Mediana: un commento
• Problema: dove collocare un deposito (di merci, carburante, ecc.) lungo un’autostrada con punti vendita ai chilometri x
1, x
2, x
3, … , x
Ncon costo unitario di trasporto c, in modo da minimizzare i costi di rifornimento dei fornitori.
• La quantità da minimizzare è
STATISTICA - Università di Salerno
1 = min!
∑iN= c xi − x
•
Si può dimostrare che il minimo si ha per
x=Me.
44
∆
Altri indici di posizione robusti
• Si considera la media aritmetica del 50% dei valori centrali.
STATISTICA - Università di Salerno
( )
3/ 4
/ 4
MidMean 2
N
i i N
N = x
=
∑
•
Un altro indice è basato su una media ponderata dei quartili
1 2 2 3
4
Q + Q + Q
45
∆
Moda
• La moda è quella modalità cui corrisponde la frequenza (assoluta o relativa) massima.
STATISTICA - Università di Salerno
•
La moda può essere calcolata sia per variabili che per mutabili.
46
∆
Esempio 1: variabile quantitativa
STATISTICA - Università di Salerno
Lombardia Componenti FA
1 591.927
2 743.032
3 747.740
4 665.163
5 233.871
6 o più 100.054 Totale 3.081.787
Moda
47
∆
Esempio 2: mutabile
Provenienza Frequenze
Classico 821
Scientifico 637
Tecnico 1090
Altri 211
Totale 2759
STATISTICA - Università di Salerno
Moda
48
∆
Un commento sulla moda
• Una distribuzione può possedere più valori modali distinti.
• Ciò di solito indica la presenza di più sotto- popolazioni che presentano posizioni
differenziate per ragioni strutturali e che, per errore o necessità, si stanno analizzando
congiuntamente.
STATISTICA - Università di Salerno 49
∆
Moda: distribuzioni per classi
• Per classi di modalità non di uguale ampiezza la classe modale è quella cui corrisponde la massima densità di frequenza.
STATISTICA - Università di Salerno
1 i i
i i
h n
x x −
= −
•
Per distribuzioni in classi di modalità si individua la classe modale, come quella classe cui
corrisponde la massima frequenza.
50
∆
Un commento finale
• La moda è un indice per governare: minimizza gli scontenti perché tiene conto della maggioranza.
• La mediana è un indice per decisioni che
implicano un costo da minimizzare: minimizza i costi complessivi e va utilizzato quando si vuole
risparmiare globalmente rispetto ad un obiettivo.
• La media è un indice di equilibrio generale:
minimizza i rischi complessivi attribuendo particolare peso agli estremi.
STATISTICA - Università di Salerno 51