∆ ∆
Unità 6
Trasformazione dei dati. Z-
scores.
∆
Trasformazioni di posizione
STATISTICA - Università di Salerno
Y = + a X
X x
x a
y = +
2
∆
Esempio
STATISTICA - Università di Salerno
Anno Spese
1993 133.823
1994 129.751
1995 126.694
1996 132.433
1997 143.637
Totale 666.338
Spese impegnate delle amministrazioni regionali, provinciali e comunali - Anni 1993-97
Fonte: Annuario Statistico Italiano 2000
6 , 267 .
5 133 338 .
666 5 1
51
=
=
= ∑
= i
x
ix
3
∆
Problema
• La spesa media negli anni 1993-1997 è stata pari a 133,267.6 miliardi
• Una riduzione di 1500 miliardi in ogni anno di quanto avrebbe ridotto la spesa media?
• La spesa media si riduce a 1317,67.6 miliardi, ottenuto come 133,267.6 - 1500
STATISTICA - Università di Salerno 4
∆
Trasformazioni di posizione
STATISTICA - Università di Salerno
Anno Spese
1993 133.823
1994 129.751
1995 126.694
1996 132.433
1997 143.637
Totale 666.338
Y
132.323 128.251 125.194 130.933 142.137 658.838
1 1 1500
y = −x
2 2 1500
y = −x
3 3 1500
y = −x
4 4 1500
y = −x
5 5 1500
y = −x
6 , 767 .
131 500
. 1
6 , 767 .
5 131 838 .
658 5
1
51
=
−
=
=
=
= ∑
=
x y
y y
i
i
5
∆
Trasformazioni di scala
STATISTICA - Università di Salerno
Y = ⋅ b X
X x
x b y = ⋅
6
∆
Trasformazioni di scala
• La spesa media negli anni 1993-1997 è stata pari a 133.267,6 miliardi
• Una riduzione di 10% in ogni anno di quanto avrebbe ridotto la spesa media?
• La spesa media si riduce a 119.940,84 miliardi, ottenuto come
STATISTICA - Università di Salerno
84 , 940 .
119 6
, 267 .
133 90
, 0 6
, 267 .
133 )
10 , 0 1
(
6 , 267 .
133 10
, 0 6
, 267 .
133
=
⋅
=
⋅
−
=
⋅
−
7
∆
Esempio
STATISTICA - Università di Salerno
Anno Spese
1993 133.823
1994 129.751
1995 126.694
1996 132.433
1997 143.637
Totale 666.338
Y
120.441 116.776 114.025 119.190 129.273 599.704
1 0.90 1
y = ⋅ x
2 0.90 2
y = ⋅ x
3 0.90 3
y = ⋅ x
4 0.90 4
y = ⋅ x
5 0.90 5
y = ⋅ x
8 , 940 .
119 6
, 267 .
133 90
, 0 90
, 0
8 , 940 .
5 119 704 .
599 5
1
51
=
⋅
=
⋅
=
=
=
= ∑
=
x y
y y
i
i
8
∆
Trasformazioni di scala e posizione
STATISTICA - Università di Salerno
Y = + ⋅ a b X X
x b a
y = + ⋅ x
9
∆
Variabili standardizzate
• Un qualsiasi indice di forma dovrebbe
prescindere dalla posizione e dalla variabilità della distribuzione, per consentire confronti tra
fenomeni di natura diversa.
STATISTICA - Università di Salerno
Standardizzazione di X
σ
x Z = X −
10
∆
Proprietà variabili standardizzate
• Due distribuzioni standardizzate possiedono stessa media e stessa varianza per cui sono sovrapponibili graficamente per una loro valutazione comparata.
STATISTICA - Università di Salerno
= 0 z
2
= 1
σ
Z11
∆ ∆
Unità 7
Il box-plot
∆
Box-plot
• Il box-plot è un grafico che fornisce
informazioni immediate, anche di tipo robusto, su aspetti diversi di una distribuzione. In
particolare riguardo a:
– Posizione – Variabilità – Forma
– Presenza di outliers
– Confronto tra distribuzioni diverse (mediante i
box-plot paralleli
)STATISTICA - Università di Salerno 13
∆
Box-plot: costruzione (1)
• Il box-plot è basato sui quartili e sui valori di minimo e di massimo di una variabile.
STATISTICA - Università di Salerno 14
Min Q1 Me Q3 Max
∆
Box-plot: costruzione (2)
STATISTICA - Università di Salerno
Usando i 5 valori di
sintesi, il box-plot viene costruito come
riportato a fianco.
Il box-plot viene anche chiamato grafico a scatola e baffi (box & whiskers plot)
Scatola
Baffi
15
∆
Identificazione outliers
• Osservazioni all’interno dell’intervallo [H1, H2] NON sono anomale
• Valori superiori ad H
2si ritengono valori eccezionalmente alti
• Valori inferiori ad H
1si ritengono eccezionalmente bassi
STATISTICA - Università di Salerno
(
3 1)
1
1
Q 1 . 5 Q Q
H = − −
Valori cardine(
3 1)
3
2
Q 1 . 5 Q Q
H = + −
16
∆
Box-plot: costruzione (3)
• Quindi, ai cinque valori precedente generalmente si aggiungono i due valori cardini utili per
l’individuazione degli outliers.
H1 Min Q1 Me Q3 Max H2
STATISTICA - Università di Salerno 17
∆
Box-plot: costruzione (4)
STATISTICA - Università di Salerno
Se nella serie sono
presenti valori anomali, allora il box-plot viene costruito come riportato a fianco.
N.B.:
• i valori anomali vengono evidenziati mediante punti o asterischi
• gli estremi dei “baffi”
vengono riportati in
corrispondenza degli estremi dei dati non anomali
18
∆
Box-plot: asimmetria positiva e outliers
STATISTICA - Università di Salerno
0.0 0.1 0.2 0.3 0.4
Posizione:
Mediana ≅0.08
Variabilità:
DQ = Q3-Q1
≅ 0.16-0.03 = 0.13
Asimmetria positiva:
Le prima metà della scatola è più piccola della seconda
Outliers:
Gli asterischi indicano la presenza di due valori eccezionalmente grandi
19
∆
Box-plot: asimmetria negativa e outliers
STATISTICA - Università di Salerno
0.5 0.6 0.7 0.8 0.9 1.0
Asimmetria negativa:
Le prima metà della scatola è più grande della seconda metà
Outliers:
Gli asterischi indicano la presenza di due valori eccezionalmente piccoli
Variabilità:
DQ = Q3-Q1
≅ 0.96-0.82 = 0.14
Posizione:
Mediana ≅0.915
20
∆
Box-plot: simmetria e valori anomali
STATISTICA - Università di Salerno
-3 -2 -1 0 1 2 3
21