7c
Correlazione lineare
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Se i due caratteri sono entrambi quantitativi, X e Y, possiamo studiare la loro correlazione lineare.
Prima di tutto cerchiamo di capire di cosa si tratta.
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Se elenchiamo le N osservazioni secondo la rilevazione congiunta dei due caratteri, otteniamo la cosiddetta serie doppia.
Unità X Y
1 x1 y1
2 x2 y2
... ... ...
i xi yi
... ... ...
N xN yN
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Quindi ad ogni unità statistica viene associata una coppia di valori, grazie alla quale ogni unità può venire rappresentata come un punto in un piano cartesiano con gli assi dedicati ai due caratteri, di coordinate pari ai valori osservati.
Il grafico che si ottiene quando tutti i punti sono stati rappresentati in questo modo è detto nube di punti o scatterplot.
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Pensiamo ad esempio al nostro dataset Altroconsumo e riportiamo la serie doppia dei 283 vini osservati secondo i due caratteri quantitativi Grado (gradazione alcolica misurata, X) e Prezzo (Y).
Grado Prezzo
12.76 2.50
12.34 4.00
12.22 2.00
11.81 3.60
12.17 2.90
13.89 6.80
13.39 8.45
14.53 8.15
12.52 8.55
12.93 6.25
12.81 3.80
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Grado Prezzo
12.76 2.50
12.34 4.00
12.22 2.00
11.81 3.60
12.17 2.90
13.89 6.80
13.39 8.45
14.53 8.15
12.52 8.55
12.93 6.25
12.81 3.80
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Grado Prezzo
12.76 2.50
12.34 4.00
12.22 2.00
11.81 3.60
12.17 2.90
13.89 6.80
13.39 8.45
14.53 8.15
12.52 8.55
12.93 6.25
12.81 3.80
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Correlazione lineare
L’osservazione dello scatteplot è in grado di dirci molto riguardo la relazione che intercorre tra i due caratteri.
Correlazione lineare
Poveramente parlando, possiamo dire che tra i due caratteri sussiste correlazione lineare se il loro scatterplot ha approssimativamente la forma di una retta, crescente (correlazione lineare positiva) o descrescente (correlazione lineare negativa).
Correlazione lineare
Per definire questo aspetto in termini più precisi, introduciamo il concetto di concordanza tra due caratteri quantitativi.
Abbiamo:
• concordanza negativa se i valori più grandi di un carattere tendono ad associarsi con quelli più piccoli dell’altro
• concordanza positiva se i valori più grandi di un carattere tendono ad associarsi con quelli più grandi dell’altro
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Valutiamo la concordanza utilizzando lo scatterplot
Concordanza positiva Concordanza negativa
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
La presenza di concordanza positiva fa sì che i punti siano maggiormente concentrati nel 1° e nel 3° quadrante
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Valutiamo gli scarti tra i valori e la loro media, nel 1° e nel 3° quadrante.
0 )
Y ( M y
0 )
X ( M x
i i
0 )
Y ( M y
0 )
X ( M x
i i
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Poichè gli scarti hanno segno concorde, il loro prodotto avrà sempre segno positivo.
0 )
Y ( M y
0 )
X ( M x
i i
0 )
Y ( M y
0 )
X ( M x
i i
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Poichè gli scarti hanno segno concorde, il loro prodotto avrà sempre segno positivo.
xi M(X) yi M(Y) 0
xi M(X) yi M(Y) 0
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
La presenza di concordanza negativa, invece fa sì che i punti siano maggiormente concentrati nel 2° e nel 4° quadrante
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Qui gli scarti hanno segno discorde...
0 )
Y ( M y
0 )
X ( M x
i i
0 )
Y ( M y
0 )
X ( M x
i i
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
... quindi il loro prodotto avrà sempre segno negativo.
xi M(X) yi M(Y) 0
xi M(X) yi M(Y) 0
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Calcoliamo un indice dato dalla media, per tutte le unità statistiche, del prodotto degli scarti dalla media. Questo indice si chiama covarianza tra X e Y.
N
) Y ( M y
) X ( M x
) Y , X cov(
N 1
i i i
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
• In caso di concordanza positiva la covarianza avrà segno positivo perchè i punti nel 1° e nel 3° quadrante sono la maggioranza.
N
1 i
i
i M(X) y M(Y)
N x ) 1
Y , X cov(
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
• In caso di concordanza negativa la covarianza avrà segno negativo perchè i punti nel 2° e nel 4° quadrante sono la maggioranza.
N
1 i
i
i M(X) y M(Y)
N x ) 1
Y , X cov(
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Vediamo il nostro esempio
Grado Prezzo
12.76 2.50
12.34 4.00
12.22 2.00
11.81 3.60
12.17 2.90
13.89 6.80
13.39 8.45
14.53 8.15
12.52 8.55
12.93 6.25
12.81 3.80
1818 .
5 )
Y ( M
8518 .
12 )
X ( M
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Vediamo il nostro esempio
Grado Prezzo Grado - media Prezzo - media Prodotto degli scarti
12.76 2.50 -0.0918 -2.6818 0.2462
12.34 4.00 -0.5118 -1.1818 0.6048
12.22 2.00 -0.6318 -3.1818 2.0103
11.81 3.60 -1.0418 -1.5818 1.6479
12.17 2.90 -0.6818 -2.2818 1.5557
13.89 6.80 1.0382 1.6182 1.6800
13.39 8.45 0.5382 3.2682 1.7589
14.53 8.15 1.6782 2.9682 4.9812
12.52 8.55 -0.3318 3.3682 -1.1176
12.93 6.25 0.0782 1.0682 0.0835
12.81 3.80 -0.0418 -1.3818 0.0578
N
1 i
1.228
11 5087 .
) 13 Y ( M y
) X ( M N x
) 1 Y , X
cov( N
1
i i i
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Per la covarianza esiste anche una formula di calcolo alternativa, meno laboriosa:
) Y ( M )
X ( N M
y x
) Y , X ( Cov
N 1
i i i
media
aritmetica dei prodotti
prodotto
delle medie aritmetiche
Grado Prezzo Grado∙Prezzo
12.76 2.50 31.9000
12.34 4.00 49.3600
12.22 2.00 24.4400
11.81 3.60 42.5160
12.17 2.90 35.2930
13.89 6.80 94.4520
13.39 8.45 113.1455 14.53 8.15 118.4195 12.52 8.55 107.0460
12.93 6.25 80.8125
12.81 3.80 48.6780
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Vediamo il nostro esempio
228 .
1 1818
. 5 8518 .
11 12
0625 .
) 746 Y
, X (
Cov
0625 .
746 y
N x
1
i i i
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Poichè la covarianza ha segno positivo, allora sappiamo che vi è una concordanza positiva.
... Ma abbiamo il solito problema: non sappiamo valutare se si tratti di un valore elevato... abbiamo bisogno di rapportarlo a un massimo per ottenere un indicatore standardizzato, facile da interpretare.
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Disuguaglianza di Cauchy-Schwartz Si può dimostrare che
quindi abbiamo un massimo per i valori positivi (caso di concordanza positiva) e un minimo per i valori negativi (caso di concordanza negativa)
Y X
Y
X Cov(X, Y)
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Possiamo quindi ottenere un indice standardizzato detto coefficiente di correlazione lineare
Y X
) Y , X ( Y Cov
X,
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Il coefficiente di correlazione lineare:
• assume valori negativi in caso di correlazione lineare negativa
• assume valori positivi in caso di correlazione lineare positiva
• è pari a 0 in caso di assenza di correlazione lineare
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Un coefficiente di correlazione positivo:
• assume valori crescenti al crescere dell’intensità della correlazione lineare
• assume al massimo il valore 1 in caso di massima correlazione lineare positiva, che si ha quando i punti dello scatterplot sono tutti esattamente disposti su una retta crescente
Correlazione lineare
=0.5 =0.8
=0.95 =1
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Un coefficiente di correlazione negativo:
• assume valori decrescenti al crescere dell’intensità della correlazione lineare
• assume al minimo il valore -1 in caso di massima correlazione lineare negativa, che si ha quando i punti dello scatterplot sono tutti esattamente disposti su una retta decrescente
Correlazione lineare
=-0.5 =-0.8
=-0.95 =-1
Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione
Correlazione lineare
Vediamo il nostro esempio:
tra Prezzo e Grado vi è una correlazione lineare positiva pari al 66.68% del massimo teorico.
0.6668
3918 .
2 77 . 0
228 .
Y 1 , X
3918 .
2
7700 .
0
228 .
1 )
Y , X ( Cov
Y X
Grado Prezzo
12.76 2.50 12.34 4.00 12.22 2.00 11.81 3.60 12.17 2.90 13.89 6.80 13.39 8.45 14.53 8.15 12.52 8.55 12.93 6.25 12.81 3.80