13 - Regressione lineare

(1)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Regressione

Una volta accertata la presenza di correlazione lineare di un certo grado, potrebbe essere utile formalizzare la relazione dei due caratteri attraverso una funzione matematica.

Visto che la correlazione lineare implica una nube di punti dalla forma «simile a una retta», la funzione più ovvia è appunto la retta.

(2)

Regressione

In altre parole vogliamo definire l’equazione della retta che meglio sintetizza la nube di punti.

Y=a+bX a=?b=?

(3)

Regressione

Abbiamo bisogno di un criterio per decidere, tra le infinite rette che attraversano il piano, quale sia la retta migliore per descrivere la nostra nube di punti.

(4)

Regressione

Prendiamo lo scatterplot del nostro esempio e tracciamo una retta che passa attraverso la nube di punti.

(5)

Regressione

Per ogni unità statistica, possiamo valutare qual è lo scarto tra il punto ad essa corrispondente e la retta stessa.

(6)

Regressione

Come calcoliamo la lunghezza dei segmenti rossi?

(7)

Regressione

y_i

ŷ_i=a+bx_i

Y=a+bX

x_i

^y_i ^ ^a ^ ^bx_i

(8)

Regressione

Possiamo effettuare il calcolo per tutte le unità statistiche e sommare tutte le lunghezze ottenute (elevate al quadrato, per evitare le compensazioni di segno).

otteniamo una misura di quanto complessivamente la retta «dista» dalla nube di punti.

 







N 

1 i

2 i

i a bx

y

(9)

Regressione

Allora tutto si risolve nel cercare, tra le infinite rette del piano, quella per cui tale

«distanza» è minima. Matematicamente parlando, cerchiamo i valori dei parametri a e b che rendono minima questa funzione

    





 ^N

1 i

2 i

i a bx

y b

, a S

(10)

Regressione

Questo modo di calcolare i parametri della retta interpolante si chiama criterio dei minimi quadrati.

Si dimostra che secondo questo criterio, i valori ottimali dei due parametri a e b sono dati da

) X ( M bˆ )

Y ( M ˆa

) Y , X bˆ cov(

2X



 



(11)

Regressione

Vediamo il nostro esempio:

1818 .

5 )

Y ( M

8518 .

12 )

X ( M

5929 .

0

228 .

1 )

Y , X ( Cov

2 X





Grado Prezzo 

12.76 2.50 12.34 4.00 12.22 2.00 11.81 3.60 12.17 2.90 13.89 6.80 13.39 8.45 14.53 8.15 12.52 8.55 12.93 6.25 12.81 3.80

(12)

Regressione

X 071 .

2 434

. 21 Y

434 .

21 8518

. 12 071

. 2 1818

. 5 ˆa

071 .

5929 2 .

0

228 .

bˆ 1

















Grado Prezzo 12.76 2.50 12.34 4.00 12.22 2.00 11.81 3.60 12.17 2.90 13.89 6.80 13.39 8.45 14.53 8.15 12.52 8.55 12.93 6.25 12.81 3.80

(13)

Regressione

Grado Prezzo 12.76 2.50 12.34 4.00 12.22 2.00 11.81 3.60 12.17 2.90 13.89 6.80 13.39 8.45 14.53 8.15 12.52 8.55 12.93 6.25 12.81 3.80

(14)

Regressione

A questo punto abbiamo bisogno di un indice che ci informi sulla bontà della retta interpolante, cioè che ci dica se la retta che abbiamo individuato rappresenta bene o male la nube di punti.

(15)

Regressione

L’idea più semplice è quella di utilizzare la stessa funzione dei minimi quadrati che abbiamo minimizzato per trovare i valori ottimali dei parametri a e b.

    





 ^N

1 i

2 i

i a bx

y b

, a S

(16)

Regressione

La funzione dei minimi quadrati, calcolata per i parametri a e b della retta ottimale, cioè â e b, viene chiamata devianza residua, DEV_RES.

  _  







 ^N

1 i

2 i i

RES y ˆa bˆx

DEV bˆ

, ˆa S

(17)

Regressione

Il valore di questa funzione ci dice quanto la nostra retta ottimale «dista»

complessivamente dalla nube di punti.

 





N 

1 i

2 i i ˆa bˆx y

rappresenta la somma dei segmenti rossi

tratteggiati.

(18)

Regressione

Se DEV_RES=0 significa che per ogni unità statistica i-esima, abbiamo

quindi per ogni unità statistica il segmento tratteggiato rosso ha lunghezza 0, cioè la retta interpola perfettamente tutti i punti.



^yⁱ ^ ^ˆ^a ^ ^b^ˆ^xⁱ



^ ⁰

(19)

Regressione

Se DEV_RES≠0 abbiamo il solito problema:

non sappiamo valutare quanto è elevato il valore di DEV_RES e come al solito abbiamo bisogno di un massimo per ottenere un indice standardizzato.

Si dimostra che

2Y

RES N

DEV

0   

(20)

Regressione

Quindi possiamo rapportare DEV_RES al suo massimo per ottenere un indice che varia tra 0 e 1. Però

2 Y RES

N DEV



• vale 0 in caso di

perfetto adattamento della retta alla nube

• vale 1 in caso di

pessimo adattamento della retta alla nube

(21)

Regressione

Quindi possiamo rapportare DEV_RES al suo massimo per ottenere un indice che varia tra 0 e 1. Però

2 Y RES

N DEV



E’ controintuitivo!!!

(22)

Regressione

Per questo motivo l’indice di adattamento generalmente utilizzato, detto indice di determinazione R² si calcola come

2 Y 2 RES

N 1 DEV

R   

(23)

Regressione

L’indice di determinazione R²

• vale 0 in caso di pessimo adattamento della retta alla nube

• vale 1 in caso di perfetto adattamento della retta alla nube

(24)

Regressione

Vediamo il nostro esempio.

Grado Prezzo -21.434+2.071∙Grado

xi yi a+bxi (yi - a - bxi)^2

12.76 2.50 4.9920 6.2101

12.34 4.00 4.1221 0.0149

12.22 2.00 3.8736 3.5104

11.81 3.60 3.0245 0.3312

12.17 2.90 3.7701 0.7571

13.89 6.80 7.3322 0.2832

13.39 8.45 6.2967 4.6367

14.53 8.15 8.6576 0.2577

12.52 8.55 4.4949 16.4438

12.93 6.25 5.3440 0.8208

12.81 3.80 5.0955 1.6783

 

9442 .

34

x bˆ ˆa

N y

1 i

2 i i





 



(25)

Regressione

Vediamo il nostro esempio.

La bontà di adattamento della retta alla nube di punti è pari al 44.47% del massimo teorico.

²^.³⁹¹⁸ ⁰^.⁴⁴⁴⁷

11

9442 .

1 34 N

1 DEV

R ₂ ₂

Y

2 RES 

 

 





(26)

Regressione

Altre formule per R²

2Y X 2 bˆ2 ²

R

(1) 



 

2 Y

2 bˆ cov(X, Y) R

) 2

( 

 

2 2 (X, Y) R

) 3

(  

(27)

Regressione

Una volta definito il modello statistico e verificato che ha un buon adattamento, esso può servire fondamentalmente a due scopi:

• interpretazione

• previsione

(28)

Regressione

Dal punto di vista dell’interpretazione, la retta ci dice qual è la dinamica di fondo del fenomeno.

Nel nostro esempio, abbiamo verificato che esiste una relazione positiva di media intensità tra prezzo del vino e gradazione alcolica e che il prezzo tende ad aumentare in media di 2.071€ per ogni grado alcolico in più.

(29)

Regressione

Dal punto di vista della previsione, possiamo spingerci a dare una valutazione di quale può essere il prezzo medio atteso di un vino con una data gradazione alcolica.

Ad esempio, per un vino di 14 gradi stimiamo un prezzo medio atteso pari a

-21.434 + 2.071·14 = 7.56€