• Non ci sono risultati.

13 - Regressione lineare

N/A
N/A
Protected

Academic year: 2021

Condividi "13 - Regressione lineare"

Copied!
29
0
0

Testo completo

(1)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Regressione

Una volta accertata la presenza di correlazione lineare di un certo grado, potrebbe essere utile formalizzare la relazione dei due caratteri attraverso una funzione matematica.

Visto che la correlazione lineare implica una nube di punti dalla forma «simile a una retta», la funzione più ovvia è appunto la retta.

(2)

Regressione

In altre parole vogliamo definire l’equazione della retta che meglio sintetizza la nube di punti.

Y=a+bX a=?b=?

(3)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Regressione

Abbiamo bisogno di un criterio per decidere, tra le infinite rette che attraversano il piano, quale sia la retta migliore per descrivere la nostra nube di punti.

(4)

Regressione

Prendiamo lo scatterplot del nostro esempio e tracciamo una retta che passa attraverso la nube di punti.

(5)

Regressione

Per ogni unità statistica, possiamo valutare qual è lo scarto tra il punto ad essa corrispondente e la retta stessa.

(6)

Regressione

Come calcoliamo la lunghezza dei segmenti rossi?

(7)

Regressione

yi

ŷi=a+bxi

Y=a+bX

xi

yi a bxi

(8)

Regressione

Possiamo effettuare il calcolo per tutte le unità statistiche e sommare tutte le lunghezze ottenute (elevate al quadrato, per evitare le compensazioni di segno).

otteniamo una misura di quanto complessivamente la retta «dista» dalla nube di punti.

 

N

1 i

2 i

i a bx

y

(9)

Regressione

Allora tutto si risolve nel cercare, tra le infinite rette del piano, quella per cui tale

«distanza» è minima. Matematicamente parlando, cerchiamo i valori dei parametri a e b che rendono minima questa funzione

    

N

1 i

2 i

i a bx

y b

, a S

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

(10)

Regressione

Questo modo di calcolare i parametri della retta interpolante si chiama criterio dei minimi quadrati.

Si dimostra che secondo questo criterio, i valori ottimali dei due parametri a e b sono dati da

) X ( M bˆ )

Y ( M ˆa

) Y , X bˆ cov(

2X

(11)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Regressione

Vediamo il nostro esempio:

1818 .

5 )

Y ( M

8518 .

12 )

X ( M

5929 .

0

228 .

1 )

Y , X ( Cov

2 X

Grado Prezzo

12.76 2.50 12.34 4.00 12.22 2.00 11.81 3.60 12.17 2.90 13.89 6.80 13.39 8.45 14.53 8.15 12.52 8.55 12.93 6.25 12.81 3.80

(12)

Regressione

Vediamo il nostro esempio:

X 071 .

2 434

. 21 Y

434 .

21 8518

. 12 071

. 2 1818

. 5 ˆa

071 .

5929 2 .

0

228 .

bˆ 1

Grado Prezzo 12.76 2.50 12.34 4.00 12.22 2.00 11.81 3.60 12.17 2.90 13.89 6.80 13.39 8.45 14.53 8.15 12.52 8.55 12.93 6.25 12.81 3.80

(13)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Regressione

Vediamo il nostro esempio:

Grado Prezzo 12.76 2.50 12.34 4.00 12.22 2.00 11.81 3.60 12.17 2.90 13.89 6.80 13.39 8.45 14.53 8.15 12.52 8.55 12.93 6.25 12.81 3.80

(14)

Regressione

A questo punto abbiamo bisogno di un indice che ci informi sulla bontà della retta interpolante, cioè che ci dica se la retta che abbiamo individuato rappresenta bene o male la nube di punti.

(15)

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Regressione

L’idea più semplice è quella di utilizzare la stessa funzione dei minimi quadrati che abbiamo minimizzato per trovare i valori ottimali dei parametri a e b.

    

N

1 i

2 i

i a bx

y b

, a S

(16)

Regressione

La funzione dei minimi quadrati, calcolata per i parametri a e b della retta ottimale, cioè â e b, viene chiamata devianza residua, DEVRES.

   

N

1 i

2 i i

RES y ˆa bˆx

DEV bˆ

, ˆa S

(17)

Regressione

Il valore di questa funzione ci dice quanto la nostra retta ottimale «dista»

complessivamente dalla nube di punti.

 

N

1 i

2 i i ˆa bˆx y

rappresenta la somma dei segmenti rossi

tratteggiati.

(18)

Regressione

Se DEVRES=0 significa che per ogni unità statistica i-esima, abbiamo

quindi per ogni unità statistica il segmento tratteggiato rosso ha lunghezza 0, cioè la retta interpola perfettamente tutti i punti.

yi ˆa bˆxi

0

(19)

Regressione

Se DEVRES≠0 abbiamo il solito problema:

non sappiamo valutare quanto è elevato il valore di DEVRES e come al solito abbiamo bisogno di un massimo per ottenere un indice standardizzato.

Si dimostra che

2Y

RES N

DEV

0

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

(20)

Regressione

Quindi possiamo rapportare DEVRES al suo massimo per ottenere un indice che varia tra 0 e 1. Però

2 Y RES

N DEV

vale 0 in caso di

perfetto adattamento della retta alla nube

vale 1 in caso di

pessimo adattamento della retta alla nube

(21)

Regressione

Quindi possiamo rapportare DEVRES al suo massimo per ottenere un indice che varia tra 0 e 1. Però

2 Y RES

N DEV

E’ controintuitivo!!!

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

(22)

Regressione

Per questo motivo l’indice di adattamento generalmente utilizzato, detto indice di determinazione R2 si calcola come

2 Y 2 RES

N 1 DEV

R

(23)

Regressione

L’indice di determinazione R2

vale 0 in caso di pessimo adattamento della retta alla nube

vale 1 in caso di perfetto adattamento della retta alla nube

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

(24)

Regressione

Vediamo il nostro esempio.

Grado Prezzo -21.434+2.071∙Grado

xi yi a+bxi (yi - a - bxi)^2

12.76 2.50 4.9920 6.2101

12.34 4.00 4.1221 0.0149

12.22 2.00 3.8736 3.5104

11.81 3.60 3.0245 0.3312

12.17 2.90 3.7701 0.7571

13.89 6.80 7.3322 0.2832

13.39 8.45 6.2967 4.6367

14.53 8.15 8.6576 0.2577

12.52 8.55 4.4949 16.4438

12.93 6.25 5.3440 0.8208

12.81 3.80 5.0955 1.6783

 

9442 .

34

x bˆ ˆa

N y

1 i

2 i i

(25)

Regressione

Vediamo il nostro esempio.

La bontà di adattamento della retta alla nube di punti è pari al 44.47% del massimo teorico.

2.3918 0.4447

11

9442 .

1 34 N

1 DEV

R 2 2

Y

2 RES

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

(26)

Regressione

Altre formule per R2

2Y X 2 bˆ2 2

R

(1)

2 Y

2 bˆ cov(X, Y) R

) 2

(

2 2 (X, Y) R

) 3

(

(27)

Regressione

Una volta definito il modello statistico e verificato che ha un buon adattamento, esso può servire fondamentalmente a due scopi:

interpretazione

previsione

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

(28)

Regressione

Dal punto di vista dell’interpretazione, la retta ci dice qual è la dinamica di fondo del fenomeno.

Nel nostro esempio, abbiamo verificato che esiste una relazione positiva di media intensità tra prezzo del vino e gradazione alcolica e che il prezzo tende ad aumentare in media di 2.071€ per ogni grado alcolico in più.

(29)

Regressione

Dal punto di vista della previsione, possiamo spingerci a dare una valutazione di quale può essere il prezzo medio atteso di un vino con una data gradazione alcolica.

Ad esempio, per un vino di 14 gradi stimiamo un prezzo medio atteso pari a

-21.434 + 2.071·14 = 7.56€

Prof.ssa Paola Zuccolotto - Statistica - Correlazione e regressione

Riferimenti

Documenti correlati

Rappresentare l’andamento congiunto di Y in funzione di X mediante un opportuno grafico: le due variabili sono correlate3. Come

[r]

attorno al modello possono essere individuate due fasce di ampiezza

Il metodo della Regressione Lineare (o metodo di stima ai Minimi Quadrati) si occupa di individuare, all’interno di un certo ambito di funzioni, una relazione fra le

In questo esempio abbiamo 2 variabili dipendenti Y, chiamate anche “risposte”; come vedrete il modello è molto simile a quello fatto a lezione... Ecco

Un esempio di funzione matematica in grado di approssimare in modo soddisfacente i valori osservati è riportato nella figura seguente che riporta lo scatter relativo ai

Supponiamo ora di avere una differente incertezza per ciascuna misura sulle y e che non esista incertezza sulla misura dell’osservabile x. La nuova relazione non è altro che

L’algoritmo di regressione lineare da’ sempre come risultato una retta, indipendemente dal fatto che i punti si collochino o meno sulla una retta stessa.. E’ necessario