COEFFICIENTE DI CORRELAZIONE

(1)

COEFFICIENTE DI CORRELAZIONE

Date n osservazioni congiunte di due variabili x ed y , che

indichiamo con (x

1

, y

1

), (x

2

, y

2

), . . . , (x

n

, y

n

), il seguente numero si chiama coefficiente di correlazione

r = s

xy

s

x

· s

_y

dove s

_xy

` e la covarianza campionaria

s

xy

= 1 n − 1

n

X

i=1

(x

i

− ¯ x)(y

i

− ¯ y).

(2)

mentre s

x

ed s

y

sono le deviazioni standard di x e di y :

s

_x

= v u u t

1 n − 1

n

X

i=1

(x

_i

− ¯ x)(x

_i

− ¯ x)

ed

s

_y

= v u u t

1 n − 1

n

X

i=1

(y

_i

− ¯ y)(y

_i

− ¯ y)

(3)

(4)

Si noti che la correlazione ` e positiva se dati sono ordinati in modo approssimativamente crescente nello scatterplot, negativa se sono ordinati in modo approssimativamente decrescente e

approssimativamete nulla quando sono disordinati.

Si noti inoltre che il coefficiente di correlazione ` e sempre compreso

tra -1 e 1. Il valore -1 corrisponde a dati disposti su una retta

decrescente mentre il valore 1 a dati disposti su una retta

crescente.

(5)

UNA PROPRIET ` A DEL COEFFICIENTE DI CORRELAZIONE

• Se r `e il coefficiente di correlazione delle coppie di dati (x

_i

, y

_i

), i = 1, · · · , n allora il coefficiente di correlazione delle coppie di dati

(ax

i

+ c, by

i

+ d), a 6= 0, b 6= 0

` e

sign(ab) · r

dove sign(ab) indica il segno del prodotto ab. In altre parole, la correlazione rimane la stessa in modulo e non cambia di segno se il prodotto ab ` e positivo mentre cambia di segno se il prodotto ab ` e negativo.

Questa propriet` a implica che r non dipende dalla scelta

dell’unit` a di misura. Per esempio il coefficiente di correlazione tra

l’altezza ed il peso di una persona non cambia se l’altezza ` e

misurata in pollici o in centimetri, n´ e se il peso ` e misurato in

chilogrammi o libbre.

(6)

Dimostrare questa propriet` a ` e semplice, abbiamo infatti gi` a visto che per le variabili

(ax

_i

+ c, by

_i

+ d), a 6= 0, b 6= 0 varianze e covarianza si trasformano nel modo seguente

s

x

→ |a| · s

_x

, s

y

→ |b| · s

_y

, s

xy

→ ab · s

_xy

e dato che r = s

xy

/(s

x

· s

_y

) si avr` a:

r → ab · s

_xy

|a| · s

_x

· |b| · s

_y

= ab

|a| · |b| r = sign(ab) · r

(7)

UNA SECONDA PROPRIET ` A DEL COEFFICIENTE DI CORRELAZIONE

• Il coefficiente di correlazione r=1 se esistono un numero b> 0 ed un numero a qualsiasi tali che

y

i

=bx

i

+ a, i = 1, 2, . . . , n

Questa propriet` a ci dice che c’` e una correlazione lineare positiva tra le coppie di dati (i dati sono su una retta con coefficiente positivo).

• Il coefficiente di correlazione r=-1 se esistono un numero b< 0 ed un numero a qualsiasi tali che

y

_i

=bx

_i

+ a, i = 1, 2, . . . , n

Cio` e la correlazione ` e lineare ma negativa (i dati sono su una

retta con coefficiente negativo).

(8)

Anche in questo caso la dimostrazione di questa propriet` a ` e semplice. Notiamo preliminarmente che la correlazione tra coppie di variabili identiche (x

i

= y

i

per ogni i ) ` e 1. Infatti in tal caso avremo s

_x

= s

_y

e s

_xy

= s

²_x

pertanto

r = s

²_x

s

_x

· s

_x

= 1 Se consideriamo le coppie di variabili

(x

_i

, bx

_i

+ a), b 6= 0

per la proprit` a precedentemente dimostrata si avr` a che il coefficiente di correlazione ` e

r = b · s

²_x

|b|s

_x

· s

_x

= sign(b)

che ` e appunto quello che volevamo dimostrare.

(9)

UNA TERZA PROPRIET ` A DEL COEFFICIENTE DI CORRELAZIONE

• Il coefficiente di correlazione r ∈ [−1, 1].

Dobbiamo quindi dimostrare che r

²

≤ 1, facciamolo nel caso pi` u semplice possibile: n = 2, ¯ x = ¯ y = 0. In questo caso

r = x

1

y

1

+ x

2

y

2

q

(x

²₁

+ x

²₂

)(y

²₁

+ y

₂²

) per cui

r

²

≤ 1 ↔ (x

₁

y

₁

+ x

₂

y

₂

)

²

≤ (x

²₁

+ x

²₂

)(y

²₁

+ y

²₂

) ↔

↔ 2x

1

y

1

x

2

y

2

≤ x

²₁

y

²₂

+ x

²₂

y

²₁

) ↔ 0 ≤ (x

1

y

2

− x

₂

y

1

)

²

L’ultima disuguaglianza ` e ovviamente verificata. Si lascia come esercizio la dimostrazione nel caso pi` u generale.

In definitiva, per correlazioni lineari |r| = 1 altrimenti |r| < 1.

(10)

ANCORA UNA PROPRIET ` A Abbiamo gi` a visto che

s

_xy

= 1 n − 1

n

X

i =1

(x

_i

− ¯ x )(y

_i

− ¯ y ) = 1 n − 1

n

X

i=1

x

_i

y

_i

− n¯ x¯ y Da cui si deduce che (si ricordi la definizione r = s

_xy

/(s

_x

· s

_y

))

r=

n

X

i=1

x

i

y

i

− n¯ x¯ y v

u u t

X

ⁿ

i=1

x

²_i

− n¯ x

²

X

ⁿ

i=1

y

²_i

− n¯ y

²

(11)

Esempio. Acquisto di un’automobile usata.

Anni (x) 9 12 8 15 6 Costo (y) 18 8 17 7 20

Quale ` e il coefficiente di correlazione? (abbiamo gi` a visto che la covarianza ` e negativa e per definizione la correlazione ha lo stesso segno della varianza)

Possiamo sottrarre a tutti i dati x

_i

una costante e altrettanto fare con i dati y

i

, abbiamo infatti visto che questo non modifica il coefficiente di correlazione.

Sottraiamo 9 ai dati di x e sottraiamo 18 ai dati di y , otteniamo:

Anni (x) 0 3 -1 6 -3

Costo (y) 0 -10 -1 -11 2

Per comodit´ a chiamiamo le nuove variabili ancoira x

_i

e y

_i

.

(12)

¯ x = 3 − 1 + 6 − 3

5 = 1, ¯ y = −10 − 1 − 11 + 2

5 = = −4

5

X

i=1

x

_i

y

_i

= −30 + 1 − 66 − 6= −101

5

X

i=1

x

²_i

= 9 + 1 + 36 + 9= 55,

5

X

i=1

y

²_i

= 100 + 1 + 121 + 4= 226

(13)

r=

n

X

i=1

x

_i

y

_i

− n¯ x¯ y r

P

n

i=1

x

²_i

− n¯ x

²

P

n

i=1

y

²_i

− n¯ y

²

=

= −101 − 5 · 1 · (−4)

p(55 − 5 · 1

²

)(226 − 5 · (−4)

²

) = − 81

√

50 · 146 = si ha quindi:

r = − 81

84, 58 = = −0, 948

(14)

4 6 8 10 12 14 16 18 20 22

4 6 8 10 12 14 16

Al crescere degli anni il prezzo diminuisce. Il coefficiente di correlazione ` e r=-0.948 molto vicino a -1 quindi forte