• Non ci sono risultati.

COEFFICIENTE DI CORRELAZIONE

N/A
N/A
Protected

Academic year: 2021

Condividi "COEFFICIENTE DI CORRELAZIONE"

Copied!
14
0
0

Testo completo

(1)

COEFFICIENTE DI CORRELAZIONE

Date n osservazioni congiunte di due variabili x ed y , che

indichiamo con (x

1

, y

1

), (x

2

, y

2

), . . . , (x

n

, y

n

), il seguente numero si chiama coefficiente di correlazione

r = s

xy

s

x

· s

y

dove s

xy

` e la covarianza campionaria

s

xy

= 1 n − 1

n

X

i=1

(x

i

− ¯ x)(y

i

− ¯ y).

(2)

mentre s

x

ed s

y

sono le deviazioni standard di x e di y :

s

x

= v u u t

1 n − 1

n

X

i=1

(x

i

− ¯ x)(x

i

− ¯ x)

ed

s

y

= v u u t

1 n − 1

n

X

i=1

(y

i

− ¯ y)(y

i

− ¯ y)

(3)
(4)

Si noti che la correlazione ` e positiva se dati sono ordinati in modo approssimativamente crescente nello scatterplot, negativa se sono ordinati in modo approssimativamente decrescente e

approssimativamete nulla quando sono disordinati.

Si noti inoltre che il coefficiente di correlazione ` e sempre compreso

tra -1 e 1. Il valore -1 corrisponde a dati disposti su una retta

decrescente mentre il valore 1 a dati disposti su una retta

crescente.

(5)

UNA PROPRIET ` A DEL COEFFICIENTE DI CORRELAZIONE

• Se r `e il coefficiente di correlazione delle coppie di dati (x

i

, y

i

), i = 1, · · · , n allora il coefficiente di correlazione delle coppie di dati

(ax

i

+ c, by

i

+ d), a 6= 0, b 6= 0

` e

sign(ab) · r

dove sign(ab) indica il segno del prodotto ab. In altre parole, la correlazione rimane la stessa in modulo e non cambia di segno se il prodotto ab ` e positivo mentre cambia di segno se il prodotto ab ` e negativo.

Questa propriet` a implica che r non dipende dalla scelta

dell’unit` a di misura. Per esempio il coefficiente di correlazione tra

l’altezza ed il peso di una persona non cambia se l’altezza ` e

misurata in pollici o in centimetri, n´ e se il peso ` e misurato in

chilogrammi o libbre.

(6)

Dimostrare questa propriet` a ` e semplice, abbiamo infatti gi` a visto che per le variabili

(ax

i

+ c, by

i

+ d), a 6= 0, b 6= 0 varianze e covarianza si trasformano nel modo seguente

s

x

→ |a| · s

x

, s

y

→ |b| · s

y

, s

xy

→ ab · s

xy

e dato che r = s

xy

/(s

x

· s

y

) si avr` a:

r → ab · s

xy

|a| · s

x

· |b| · s

y

= ab

|a| · |b| r = sign(ab) · r

(7)

UNA SECONDA PROPRIET ` A DEL COEFFICIENTE DI CORRELAZIONE

• Il coefficiente di correlazione r=1 se esistono un numero b> 0 ed un numero a qualsiasi tali che

y

i

=bx

i

+ a, i = 1, 2, . . . , n

Questa propriet` a ci dice che c’` e una correlazione lineare positiva tra le coppie di dati (i dati sono su una retta con coefficiente positivo).

• Il coefficiente di correlazione r=-1 se esistono un numero b< 0 ed un numero a qualsiasi tali che

y

i

=bx

i

+ a, i = 1, 2, . . . , n

Cio` e la correlazione ` e lineare ma negativa (i dati sono su una

retta con coefficiente negativo).

(8)

Anche in questo caso la dimostrazione di questa propriet` a ` e semplice. Notiamo preliminarmente che la correlazione tra coppie di variabili identiche (x

i

= y

i

per ogni i ) ` e 1. Infatti in tal caso avremo s

x

= s

y

e s

xy

= s

2x

pertanto

r = s

2x

s

x

· s

x

= 1 Se consideriamo le coppie di variabili

(x

i

, bx

i

+ a), b 6= 0

per la proprit` a precedentemente dimostrata si avr` a che il coefficiente di correlazione ` e

r = b · s

2x

|b|s

x

· s

x

= sign(b)

che ` e appunto quello che volevamo dimostrare.

(9)

UNA TERZA PROPRIET ` A DEL COEFFICIENTE DI CORRELAZIONE

• Il coefficiente di correlazione r ∈ [−1, 1].

Dobbiamo quindi dimostrare che r

2

≤ 1, facciamolo nel caso pi` u semplice possibile: n = 2, ¯ x = ¯ y = 0. In questo caso

r = x

1

y

1

+ x

2

y

2

q

(x

21

+ x

22

)(y

21

+ y

22

) per cui

r

2

≤ 1 ↔ (x

1

y

1

+ x

2

y

2

)

2

≤ (x

21

+ x

22

)(y

21

+ y

22

) ↔

↔ 2x

1

y

1

x

2

y

2

≤ x

21

y

22

+ x

22

y

21

) ↔ 0 ≤ (x

1

y

2

− x

2

y

1

)

2

L’ultima disuguaglianza ` e ovviamente verificata. Si lascia come esercizio la dimostrazione nel caso pi` u generale.

In definitiva, per correlazioni lineari |r| = 1 altrimenti |r| < 1.

(10)

ANCORA UNA PROPRIET ` A Abbiamo gi` a visto che

s

xy

= 1 n − 1

n

X

i =1

(x

i

− ¯ x )(y

i

− ¯ y ) = 1 n − 1

n

X

i=1

x

i

y

i

− n¯ x¯ y Da cui si deduce che (si ricordi la definizione r = s

xy

/(s

x

· s

y

))

r=

n

X

i=1

x

i

y

i

− n¯ x¯ y v

u u t

 X

n

i=1

x

2i

− n¯ x

2

 X

n

i=1

y

2i

− n¯ y

2



(11)

Esempio. Acquisto di un’automobile usata.

Anni (x) 9 12 8 15 6 Costo (y) 18 8 17 7 20

Quale ` e il coefficiente di correlazione? (abbiamo gi` a visto che la covarianza ` e negativa e per definizione la correlazione ha lo stesso segno della varianza)

Possiamo sottrarre a tutti i dati x

i

una costante e altrettanto fare con i dati y

i

, abbiamo infatti visto che questo non modifica il coefficiente di correlazione.

Sottraiamo 9 ai dati di x e sottraiamo 18 ai dati di y , otteniamo:

Anni (x) 0 3 -1 6 -3

Costo (y) 0 -10 -1 -11 2

Per comodit´ a chiamiamo le nuove variabili ancoira x

i

e y

i

.

(12)

¯ x = 3 − 1 + 6 − 3

5 = 1, ¯ y = −10 − 1 − 11 + 2

5 = = −4

5

X

i=1

x

i

y

i

= −30 + 1 − 66 − 6= −101

5

X

i=1

x

2i

= 9 + 1 + 36 + 9= 55,

5

X

i=1

y

2i

= 100 + 1 + 121 + 4= 226

(13)

r=

n

X

i=1

x

i

y

i

− n¯ x¯ y r 

P

n

i=1

x

2i

− n¯ x

2



P

n

i=1

y

2i

− n¯ y

2



=

= −101 − 5 · 1 · (−4)

p(55 − 5 · 1

2

)(226 − 5 · (−4)

2

) = − 81

50 · 146 = si ha quindi:

r = − 81

84, 58 = = −0, 948

(14)

4 6 8 10 12 14 16 18 20 22

4 6 8 10 12 14 16

Al crescere degli anni il prezzo diminuisce. Il coefficiente di correlazione ` e r=-0.948 molto vicino a -1 quindi forte

correlazione negativa. I dati sono quasi disposti su una retta (si

ricordi che se r = −1 allora y

i

= bx

i

+ a con b < 0).

Riferimenti

Documenti correlati

per esaminare l’eventuale relazione di dipendenza che esiste tra due variabili casuali e’ utile rappresentare in un grafico ciascuna delle coppie (x i y i )... Dimostrazione

l professor Maurizio Mo- ri, ordinario di filosofia morale e bioetica all'U- niversità di Torino, non è minimamente scandaliz- zato dalla notizia di una bimba nata da un

Il fatto che, sempre nei Reparti Specialistici anche SA aumenti la PCT maggiormente di Scn, si può spiegare ammettendo l’assunzione di Giamarellou che sostiene

Ad esempio, un caso tipico è quello di variabili dicotomiche (che possono assumere solo due valori, ovvero variabili di Bernoulli) relative all’esposizione a un determinato fattore

(10 punti) Sia data una matrice n × n di interi in cui gli elementi di ogni riga sono ordinati in modo crescente; anche gli elementi in ogni colonna sono ordinati in modo crescente..

Possiamo decidere di minimizzare la “vera distanza” dalla retta (e non la sua proiezione lungo l’asse y)... Catalogo RC3 (Third Reference Catalogue of bright galaxies) de

• assume al massimo il valore 1 in caso di massima correlazione lineare positiva, che si ha quando i punti dello scatterplot sono tutti esattamente disposti su una retta

• L’obiettivo della verifica è di valutare se uno studente possiede i concetti di indipendenza statistica di due variabili, di verifica delle ipo- tesi (inferenza statistica),