• Non ci sono risultati.

12 - Correlazione lineare

N/A
N/A
Protected

Academic year: 2021

Condividi "12 - Correlazione lineare"

Copied!
36
0
0

Testo completo

(1)

7c

Correlazione lineare

(2)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Se i due caratteri sono entrambi quantitativi, X e Y, possiamo studiare la loro correlazione lineare.

Prima di tutto cerchiamo di capire di cosa si tratta.

(3)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Se elenchiamo le N osservazioni secondo la rilevazione congiunta dei due caratteri, otteniamo la cosiddetta serie doppia.

Unità X Y

1 x1 y1

2 x2 y2

... ... ...

i xi yi

... ... ...

N xN yN

(4)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Quindi ad ogni unità statistica viene associata una coppia di valori, grazie alla quale ogni unità può venire rappresentata come un punto in un piano cartesiano con gli assi dedicati ai due caratteri, di coordinate pari ai valori osservati.

Il grafico che si ottiene quando tutti i punti sono stati rappresentati in questo modo è detto nube di punti o scatterplot.

(5)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Pensiamo ad esempio al nostro dataset Altroconsumo e riportiamo la serie doppia dei 283 vini osservati secondo i due caratteri quantitativi Grado (gradazione alcolica misurata, X) e Prezzo (Y).

(6)

Grado Prezzo

12.76 2.50

12.34 4.00

12.22 2.00

11.81 3.60

12.17 2.90

13.89 6.80

13.39 8.45

14.53 8.15

12.52 8.55

12.93 6.25

12.81 3.80

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

(7)

Grado Prezzo

12.76 2.50

12.34 4.00

12.22 2.00

11.81 3.60

12.17 2.90

13.89 6.80

13.39 8.45

14.53 8.15

12.52 8.55

12.93 6.25

12.81 3.80

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

(8)

Grado Prezzo

12.76 2.50

12.34 4.00

12.22 2.00

11.81 3.60

12.17 2.90

13.89 6.80

13.39 8.45

14.53 8.15

12.52 8.55

12.93 6.25

12.81 3.80

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

(9)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

(10)

Correlazione lineare

L’osservazione dello scatteplot è in grado di dirci molto riguardo la relazione che intercorre tra i due caratteri.

(11)

Correlazione lineare

Poveramente parlando, possiamo dire che tra i due caratteri sussiste correlazione lineare se il loro scatterplot ha approssimativamente la forma di una retta, crescente (correlazione lineare positiva) o descrescente (correlazione lineare negativa).

(12)

Correlazione lineare

Per definire questo aspetto in termini più precisi, introduciamo il concetto di concordanza tra due caratteri quantitativi.

Abbiamo:

concordanza negativa se i valori più grandi di un carattere tendono ad associarsi con quelli più piccoli dell’altro

concordanza positiva se i valori più grandi di un carattere tendono ad associarsi con quelli più grandi dell’altro

(13)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Valutiamo la concordanza utilizzando lo scatterplot

Concordanza positiva Concordanza negativa

(14)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

La presenza di concordanza positiva fa sì che i punti siano maggiormente concentrati nel 1° e nel 3° quadrante

(15)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Valutiamo gli scarti tra i valori e la loro media, nel 1° e nel 3° quadrante.

0 )

Y ( M y

0 )

X ( M x

i i

0 )

Y ( M y

0 )

X ( M x

i i

(16)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Poichè gli scarti hanno segno concorde, il loro prodotto avrà sempre segno positivo.

0 )

Y ( M y

0 )

X ( M x

i i

0 )

Y ( M y

0 )

X ( M x

i i

(17)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Poichè gli scarti hanno segno concorde, il loro prodotto avrà sempre segno positivo.

xi M(X)  yi M(Y) 0

xi M(X)  yi M(Y) 0

(18)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

La presenza di concordanza negativa, invece fa sì che i punti siano maggiormente concentrati nel 2° e nel 4° quadrante

(19)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Qui gli scarti hanno segno discorde...

0 )

Y ( M y

0 )

X ( M x

i i

0 )

Y ( M y

0 )

X ( M x

i i

(20)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

... quindi il loro prodotto avrà sempre segno negativo.

xi M(X)  yi M(Y) 0

xi M(X)  yi M(Y) 0

(21)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Calcoliamo un indice dato dalla media, per tutte le unità statistiche, del prodotto degli scarti dalla media. Questo indice si chiama covarianza tra X e Y.

 

N

) Y ( M y

) X ( M x

) Y , X cov(

N 1

i i i

(22)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

In caso di concordanza positiva la covarianza avrà segno positivo perchè i punti nel 1° e nel 3° quadrante sono la maggioranza.

 

N

1 i

i

i M(X) y M(Y)

N x ) 1

Y , X cov(

(23)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

In caso di concordanza negativa la covarianza avrà segno negativo perchè i punti nel 2° e nel 4° quadrante sono la maggioranza.

 

N

1 i

i

i M(X) y M(Y)

N x ) 1

Y , X cov(

(24)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Vediamo il nostro esempio

Grado Prezzo

12.76 2.50

12.34 4.00

12.22 2.00

11.81 3.60

12.17 2.90

13.89 6.80

13.39 8.45

14.53 8.15

12.52 8.55

12.93 6.25

12.81 3.80

1818 .

5 )

Y ( M

8518 .

12 )

X ( M

(25)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Vediamo il nostro esempio

Grado Prezzo Grado - media Prezzo - media Prodotto degli scarti

12.76 2.50 -0.0918 -2.6818 0.2462

12.34 4.00 -0.5118 -1.1818 0.6048

12.22 2.00 -0.6318 -3.1818 2.0103

11.81 3.60 -1.0418 -1.5818 1.6479

12.17 2.90 -0.6818 -2.2818 1.5557

13.89 6.80 1.0382 1.6182 1.6800

13.39 8.45 0.5382 3.2682 1.7589

14.53 8.15 1.6782 2.9682 4.9812

12.52 8.55 -0.3318 3.3682 -1.1176

12.93 6.25 0.0782 1.0682 0.0835

12.81 3.80 -0.0418 -1.3818 0.0578

N

1 i

  1.228

11 5087 .

) 13 Y ( M y

) X ( M N x

) 1 Y , X

cov( N

1

i i i

(26)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Per la covarianza esiste anche una formula di calcolo alternativa, meno laboriosa:

) Y ( M )

X ( N M

y x

) Y , X ( Cov

N 1

i i i

media

aritmetica dei prodotti

prodotto

delle medie aritmetiche

(27)

Grado Prezzo Grado∙Prezzo

12.76 2.50 31.9000

12.34 4.00 49.3600

12.22 2.00 24.4400

11.81 3.60 42.5160

12.17 2.90 35.2930

13.89 6.80 94.4520

13.39 8.45 113.1455 14.53 8.15 118.4195 12.52 8.55 107.0460

12.93 6.25 80.8125

12.81 3.80 48.6780

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Vediamo il nostro esempio

228 .

1 1818

. 5 8518 .

11 12

0625 .

) 746 Y

, X (

Cov

0625 .

746 y

N x

1

i i i

(28)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Poichè la covarianza ha segno positivo, allora sappiamo che vi è una concordanza positiva.

... Ma abbiamo il solito problema: non sappiamo valutare se si tratti di un valore elevato... abbiamo bisogno di rapportarlo a un massimo per ottenere un indicatore standardizzato, facile da interpretare.

(29)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Disuguaglianza di Cauchy-Schwartz Si può dimostrare che

quindi abbiamo un massimo per i valori positivi (caso di concordanza positiva) e un minimo per i valori negativi (caso di concordanza negativa)

Y X

Y

X Cov(X, Y)

(30)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Possiamo quindi ottenere un indice standardizzato detto coefficiente di correlazione lineare

 

Y X

) Y , X ( Y Cov

X,

(31)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Il coefficiente di correlazione lineare:

assume valori negativi in caso di correlazione lineare negativa

assume valori positivi in caso di correlazione lineare positiva

è pari a 0 in caso di assenza di correlazione lineare

(32)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Un coefficiente di correlazione positivo:

assume valori crescenti al crescere dell’intensità della correlazione lineare

assume al massimo il valore 1 in caso di massima correlazione lineare positiva, che si ha quando i punti dello scatterplot sono tutti esattamente disposti su una retta crescente

(33)

Correlazione lineare

=0.5 =0.8

=0.95 =1

(34)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Un coefficiente di correlazione negativo:

assume valori decrescenti al crescere dell’intensità della correlazione lineare

assume al minimo il valore -1 in caso di massima correlazione lineare negativa, che si ha quando i punti dello scatterplot sono tutti esattamente disposti su una retta decrescente

(35)

Correlazione lineare

=-0.5 =-0.8

=-0.95 =-1

(36)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Correlazione lineare

Vediamo il nostro esempio:

tra Prezzo e Grado vi è una correlazione lineare positiva pari al 66.68% del massimo teorico.

0.6668

3918 .

2 77 . 0

228 .

Y 1 , X

3918 .

2

7700 .

0

228 .

1 )

Y , X ( Cov

Y X

Grado Prezzo

12.76 2.50 12.34 4.00 12.22 2.00 11.81 3.60 12.17 2.90 13.89 6.80 13.39 8.45 14.53 8.15 12.52 8.55 12.93 6.25 12.81 3.80

Riferimenti

Documenti correlati

per esaminare l’eventuale relazione di dipendenza che esiste tra due variabili casuali e’ utile rappresentare in un grafico ciascuna delle coppie (x i y i )... Dimostrazione

La teoria matematica ci richiede delle particolari ipotesi su tali residui, che costituiscono la componente aleatoria del modello lineare: essi devono essere dei numeri

[r]

si disegni lo scatterplot, si calcoli l'indice di correlazione, si determini la retta di regressione lineare e la si tracci sullo scatterplot.... Si estrae un campione casuale

si disegni lo scatterplot, si calcoli l'indice di correlazione, si determini la retta di regressione lineare e la si tracci sullo scatterplot... Tre monete non truccate

si disegni lo scatterplot, si calcoli l'indice di correlazione, si determini la retta di regressione lineare e la si tracci sullo scatterplot... Quattro monete non truccate

Possiamo decidere di minimizzare la “vera distanza” dalla retta (e non la sua proiezione lungo l’asse y)... Catalogo RC3 (Third Reference Catalogue of bright galaxies) de

• L’obiettivo della verifica è di valutare se uno studente possiede i concetti di indipendenza statistica di due variabili, di verifica delle ipo- tesi (inferenza statistica),