COEFFICIENTE DI CORRELAZIONE
Date n osservazioni congiunte di due variabili x ed y , che
indichiamo con (x
1, y
1), (x
2, y
2), . . . , (x
n, y
n), il seguente numero si chiama coefficiente di correlazione
r = s
xys
x· s
ydove s
xy` e la covarianza campionaria
s
xy= 1 n − 1
n
X
i=1
(x
i− ¯ x)(y
i− ¯ y).
mentre s
xed s
ysono le deviazioni standard di x e di y :
s
x= v u u t
1 n − 1
n
X
i=1
(x
i− ¯ x)(x
i− ¯ x)
ed
s
y= v u u t
1 n − 1
n
X
i=1
(y
i− ¯ y)(y
i− ¯ y)
Si noti che la correlazione ` e positiva se dati sono ordinati in modo approssimativamente crescente nello scatterplot, negativa se sono ordinati in modo approssimativamente decrescente e
approssimativamete nulla quando sono disordinati.
Si noti inoltre che il coefficiente di correlazione ` e sempre compreso
tra -1 e 1. Il valore -1 corrisponde a dati disposti su una retta
decrescente mentre il valore 1 a dati disposti su una retta
crescente.
UNA PROPRIET ` A DEL COEFFICIENTE DI CORRELAZIONE
• Se r `e il coefficiente di correlazione delle coppie di dati (x
i, y
i), i = 1, · · · , n allora il coefficiente di correlazione delle coppie di dati
(ax
i+ c, by
i+ d), a 6= 0, b 6= 0
` e
sign(ab) · r
dove sign(ab) indica il segno del prodotto ab. In altre parole, la correlazione rimane la stessa in modulo e non cambia di segno se il prodotto ab ` e positivo mentre cambia di segno se il prodotto ab ` e negativo.
Questa propriet` a implica che r non dipende dalla scelta
dell’unit` a di misura. Per esempio il coefficiente di correlazione tra
l’altezza ed il peso di una persona non cambia se l’altezza ` e
misurata in pollici o in centimetri, n´ e se il peso ` e misurato in
chilogrammi o libbre.
Dimostrare questa propriet` a ` e semplice, abbiamo infatti gi` a visto che per le variabili
(ax
i+ c, by
i+ d), a 6= 0, b 6= 0 varianze e covarianza si trasformano nel modo seguente
s
x→ |a| · s
x, s
y→ |b| · s
y, s
xy→ ab · s
xye dato che r = s
xy/(s
x· s
y) si avr` a:
r → ab · s
xy|a| · s
x· |b| · s
y= ab
|a| · |b| r = sign(ab) · r
UNA SECONDA PROPRIET ` A DEL COEFFICIENTE DI CORRELAZIONE
• Il coefficiente di correlazione r=1 se esistono un numero b> 0 ed un numero a qualsiasi tali che
y
i=bx
i+ a, i = 1, 2, . . . , n
Questa propriet` a ci dice che c’` e una correlazione lineare positiva tra le coppie di dati (i dati sono su una retta con coefficiente positivo).
• Il coefficiente di correlazione r=-1 se esistono un numero b< 0 ed un numero a qualsiasi tali che
y
i=bx
i+ a, i = 1, 2, . . . , n
Cio` e la correlazione ` e lineare ma negativa (i dati sono su una
retta con coefficiente negativo).
Anche in questo caso la dimostrazione di questa propriet` a ` e semplice. Notiamo preliminarmente che la correlazione tra coppie di variabili identiche (x
i= y
iper ogni i ) ` e 1. Infatti in tal caso avremo s
x= s
ye s
xy= s
2xpertanto
r = s
2xs
x· s
x= 1 Se consideriamo le coppie di variabili
(x
i, bx
i+ a), b 6= 0
per la proprit` a precedentemente dimostrata si avr` a che il coefficiente di correlazione ` e
r = b · s
2x|b|s
x· s
x= sign(b)
che ` e appunto quello che volevamo dimostrare.
UNA TERZA PROPRIET ` A DEL COEFFICIENTE DI CORRELAZIONE
• Il coefficiente di correlazione r ∈ [−1, 1].
Dobbiamo quindi dimostrare che r
2≤ 1, facciamolo nel caso pi` u semplice possibile: n = 2, ¯ x = ¯ y = 0. In questo caso
r = x
1y
1+ x
2y
2q
(x
21+ x
22)(y
21+ y
22) per cui
r
2≤ 1 ↔ (x
1y
1+ x
2y
2)
2≤ (x
21+ x
22)(y
21+ y
22) ↔
↔ 2x
1y
1x
2y
2≤ x
21y
22+ x
22y
21) ↔ 0 ≤ (x
1y
2− x
2y
1)
2L’ultima disuguaglianza ` e ovviamente verificata. Si lascia come esercizio la dimostrazione nel caso pi` u generale.
In definitiva, per correlazioni lineari |r| = 1 altrimenti |r| < 1.
ANCORA UNA PROPRIET ` A Abbiamo gi` a visto che
s
xy= 1 n − 1
n
X
i =1
(x
i− ¯ x )(y
i− ¯ y ) = 1 n − 1
n
X
i=1
x
iy
i− n¯ x¯ y Da cui si deduce che (si ricordi la definizione r = s
xy/(s
x· s
y))
r=
n
X
i=1
x
iy
i− n¯ x¯ y v
u u t
X
ni=1
x
2i− n¯ x
2X
ni=1
y
2i− n¯ y
2Esempio. Acquisto di un’automobile usata.
Anni (x) 9 12 8 15 6 Costo (y) 18 8 17 7 20
Quale ` e il coefficiente di correlazione? (abbiamo gi` a visto che la covarianza ` e negativa e per definizione la correlazione ha lo stesso segno della varianza)
Possiamo sottrarre a tutti i dati x
iuna costante e altrettanto fare con i dati y
i, abbiamo infatti visto che questo non modifica il coefficiente di correlazione.
Sottraiamo 9 ai dati di x e sottraiamo 18 ai dati di y , otteniamo:
Anni (x) 0 3 -1 6 -3
Costo (y) 0 -10 -1 -11 2
Per comodit´ a chiamiamo le nuove variabili ancoira x
ie y
i.
¯ x = 3 − 1 + 6 − 3
5 = 1, ¯ y = −10 − 1 − 11 + 2
5 = = −4
5
X
i=1
x
iy
i= −30 + 1 − 66 − 6= −101
5
X
i=1
x
2i= 9 + 1 + 36 + 9= 55,
5
X
i=1
y
2i= 100 + 1 + 121 + 4= 226
r=
n
X
i=1
x
iy
i− n¯ x¯ y r
P
ni=1
x
2i− n¯ x
2P
ni=1
y
2i− n¯ y
2=
= −101 − 5 · 1 · (−4)
p(55 − 5 · 1
2)(226 − 5 · (−4)
2) = − 81
√
50 · 146 = si ha quindi:
r = − 81
84, 58 = = −0, 948
4 6 8 10 12 14 16 18 20 22
4 6 8 10 12 14 16