Modello classico di regressione lineare

(1)

Modello classico di regressione lineare

• Il modello classico di regressione lineare semplice

• Il modello classico di regressione lineare multiplo

Docente: Prof.ssa Rosanna Verde

(2)

Costruzione di un modello

• Nasce dall’esigenza di rappresentare la realtà in forma semplificata

Il problema reale viene tradotto in un modello statistico che, formalizzato in una struttura

probabilistica, viene sottoposto a inferenza mediante un’indagine campionaria

Fasi:

specificazione – stima – verifica

(3)

Uso del modello

• Descrizione

• Interpretazione

• Previsone

• Controllo

• Simulazione

• …

(4)

Il diagramma di dispersione

• Per studiare la relazione tra due variabili è utile il diagramma di dispersione in cui si riportano i valori della variabile esplicativa X sull'asse delle ascisse e i valori della variabile dipendente Y sull'asse delle ordinate.

• La relazione tra due variabili può essere espressa mediante funzioni matematiche più o meno complesse tramite un modello di regressione.

Superficie Prezzo 174 26,000 220 31,000 231 37,400 248 34,800 262 39,200 275 38,000 294 39,600 307 31,200 322 37,200 337 38,400 349 43,600 353 44,800 360 40,600 388 41,800 433 45,200

Proprietà immobiliari

20 25 30 35 40 45 50

150 200 250 300 350 400 450

Superficie abitabile (metrii quadrati)

Prezzo di vendita (migliaia di euro)

(5)

Interpolazione matematica

• In matematica, e in particolare in analisi numerica, per interpolazione si intende un metodo per individuare nuovi punti del piano cartesiano a partire da un insieme finito di punti osservati, nella ipotesi che tutti i punti si

possano riferire ad una funzione f(x) di una data famiglia di funzioni di una variabile reale.

• Nelle attività scientifiche e tecnologiche e in genere negli studi quantitativi di qualsiasi fenomeno, accade molto spesso di disporre di un certo numero di punti del piano ottenuti con un campionamento o con apparecchiature di misura e di ritenere opportuno individuare una funzione che passi per tutti i punti dati o almeno nelle loro vicinanze

(6)

Modello statistico

-2 0 2 4 6 8 10 12 14

-60 -40 -20 0 20 40 60 80

Causa

Conseguenza

-0,3 -0,25 -0,2 -0,15 -0,1 -0,05 0 0,05 0,1 0,15

-60 -40 -20 0 20 40 60 80

Causa

Conseguenza

-150 -100 -50 0 50 100 150

-60 -40 -20 0 20 40 60 80

Causa

Conseguenza

 In statistica si ammette la presenza di una componente erratica che

sintetizza tutte quelle cause del fenomeno che non possono essere tenute sotto controllo.

 Il prezzo di una casa dipende dai metri quadri, ma anche dall’esposizione, dalle rifiniture, dalla volontà del padrone, etc.

(7)

Tipologie di Modelli

• Semplici

• Multipli

• Lineari

• Non lineari Linearizzabili

Intrinsecamente non lineari Temporali

Spaziali (o territoriali)

(8)

Regressione

• Termine, per la prima volta usato da Galton, per indicare certe

relazioni nella teoria dell’ereditarietà [altezze dei figli regredivano in media rispetto alle altezze dei padri].

• Attualmente, il termine indica il metodo di determinazione della relazione tra una variabile Y, detta dipendente e una o più variabili X, dette indipendenti o predittive o regressori.

• La forma funzionale più frequente è quella polinomiale, e più particolarmente, quella lineare: l’equazione di regressione che esprime la relazione di Y su X è

Y= a + bX + e

o, per più di una variabile predittiva:

Y = b

₀

+ b

₁

X

₁

+ b

₂

X

₂

+… + b

_p

X

_p

+ e

(9)

Regressione lineare semplice

FASI per la determinazione del modello:

 Stima dei parametri

 Interpretazione dei parametri

 Potere esplicativo del modello

 Coefficiente di correlazione

 Utilizzo del modello per scopi previsivi

 Regressione multipla

 Stima dei parametri

 Interpretazione

Significatività statistica del

modello di regressione

(10)

• Metodi di selezione delle variabili esplicative

• Diagnostica degli errori:

- analisi dell'influenza - plot dei residui

• Variabili dummy

Rimozione delle ipotesi del modello classico

• Multicollinearità

• Autocorrelazione

• Non linearità

(11)

REGRESSIONE LINEARE SEMPLICE

Obiettivo: ricerca di un modello lineare per mezzo del quale sia possibile descrivere la relazione tra due variabili quantitative

di cui una e' supposta logicamente antecedente rispetto all'altra Sia X la variabile indipendente o esplicativa

e Y la variabile dipendente

Considerando n osservazioni sulle variabili X e Y il modello di regressione lineare è:

y_i = a + bx_i + e_i (i=1,...,n)

a e b sono i coefficienti o parametri del modello di regressione

la variabile Y dipende dalla variabile X secondo una relazione sistematica e secondo un insieme di altri fattori che rappresentano lo scostamento dal modello teorico e vengono sintetizzati dalla variabile casuale errore e

(12)

• Specificazione del modello (livello teorico)

y = a + bx + e

• Modello riferito alla Popolazione

y

_i

= a + bx

_i

+ e

_i

(i=1,2,…..)

• Modello campionario

y

_i

= a + bx

_i

+ e

_i

(i=1,2,...,n)

• Modello riferito al campione osservato

y

_i

= a + bx

_i

+ e

_i

(i=1,2,...,n)

(13)

Scatter plot



  

 



 







  

X

Y

(x_i,y_i)

(14)

INTERPRETAZIONE DEI PARAMETRI DI REGRESSIONE

• La costante di regressione a rappresenta la componente indipendente della variabile Y.

• Il parametro B é il coefficiente angolare della retta e fornisce una misura della variazione subita dalla variabile Y per effetto di una variazione unitaria della variabile X.

a

X Y

0 x

x i+1 i

Y variazione della Y

X variazione della X b<0 discordanza di regressione

b>0 concordanza di regressione b=0 indipendenza interpolativa della variabile Y dalla variabile X

(15)

IPOTESI DEL MODELLO CLASSICO DI REGRESSIONE LINEARE SEMPLICE

1) La variabile X è deterministica

2) Le e_i sono variabili casuali con valore atteso 0:

E(e_i) = 0

3) Le variabili casuali e_i hanno tutte stessa varianza s²:

omoschedasticita'' E(e_i²)=s²

4) Le variabili casuali e_i sono incorrelate tra loro:

E(e_i, e_j) = 0 per ogni i diverso da j

(16)

Ipotesi di normalità delle e

_i

5) Se le variabili casuali e_i sono distribuite come una variabile casuale normale con media 0 e varianza uguale a s², allora una loro trasformazione lineare segue ancora una distribuzione normale, da cui:

- essendo le y_i variabili casuali, combinazione lineare delle e_i : y_i = a + bx_i+ e_i (i=1,...,n)

la loro distribuzione é normale:

- con media:

E(y_i) = E(a + bx_i)+ E(

e

_i) = a + bx_i - e varianza:

Var(y_i) = Var(a + bx_i) + Var(

e

_i) = s²

(17)

Per ogni valore x_i (i=1,...,n) la retta di regressione interpola i punti corrispondenti ai valori medi delle variabili casuali:

y

₁

y

₂

... y

_n i.i.d.

Un'analisi di regressione permette di studiare come varia in media la variabile dipendente Y per effetto di variazioni unitarie della variabile esplicativa X:

E(y_i|X=x_i) = a + bx_i

y = a + b x

y

x

(18)

STIMA DEI PARAMETRI DEL MODELLO DI REGRESSIONE

METODO DEI MINIMI QUADRATI

• Sia (y₁,x₁), (y₂,x₂),...,(y_n,x_n) un insieme di n osservazioni campionarie sulle variabili X e Y.

• Una stima dei parametri a e b si ottiene calcolando i parametri a e b del modello lineare di miglior adattamento dei valori osservati:

y_i = a + bx_i + e_i

criterio: minimizzazione della somma dei quadrati degli scarti dei valori osservati dai valori teorici sulla retta:

e_i= y_i - (a + bx_i)

min S

_i

^e

_i²

^{= min} S

_i

^(y

_i

^- ^a ^- ^bx

_i

⁾

²

a,b a,b



X Y

y

y e i

i i

^

x_i

=a+bx_i

(19)



X Y

y

y e

i

i i

^

xi

=a+bx

i Calcolando le derivate parziali:

2 (y_i abx_i) 0

i1

n

2 (y_i a bx_i)x_i 0

i1

n



 



 



segue il sistema di equazioni normali:

y_i na+ b x_i ny  na+nbx

i1

n i1

n

x_iy_i a x_i +b x_i²

I1

n i1

n



 



 



dalla soluzione del sistema si ottengono le stime dei parametri di regressione:



























n

i i n

i

i i n

i

i i

x n x

y x n y x x

x

y y x x

x b y

1

2 2

1

2 1

) (

) )(

( b

a

(20)



 







 

















n

i

i i i

n

i

i n i

i

i n

i

i i

n

i

i i

n

i

i n

i

i i

n

i

i i

x x

y x

x

y x x

x x

y y

x x

y y

x x

1

2

1 1

2 1

1 1

) (

b

) (

) )(

(



(21)

(22)

PROPRIETA' DELLA RETTA DEI MINIMI QUADRATI

1) La retta passa per il punto di coordinate ( , )

2) La retta dei minimi quadrati offre tra tutte le rette possibili lo scostamento più piccolo dai dati (minima somma dei residui al quadrato).

3) La somma dei residui é uguale a 0:

4) I residui sono incorrelati con la variabile esplicativa:

5) Il parametro b non varia se i dati sono centrati: e

x  x_i

i  1

n

n y 

y_i

i1

n

n



 n 

1

i ei 0

 



 ⁿ

1

i i

n 1

i yi yˆ _y _ _yˆ

x

_i

 y

_i

 y

(23)

Scatter plot



  

 



 







  

X Y

(x_i,y_i)

Y-m(Y)=b(X-m(X)) Y=m(Y) -b*m(X)+bX



 

i i i

i i

x y x b

a = 0

(24)

Teorema di Gauss Markov

• Se sono verificate le ipotesi del modello classico di regressione lineare -

tra tutti gli stimatori lineari non distorti dei parametri del modello -

quelli dei minimi quadrati sono i più efficienti,

ovvero sono quelli che presentano varianza minima.

In virtù di questo teorema gli stimatori dei minimi quadrati sono detti BLUE

best linear unbiased estimators

(25)

• Y è una v.c.

• E(y

_i

)=b

₀

+b

₁

x

_i

• Var(y

_i

)= Var(e

_i

)=s

²

• Covar(y

_i

,y

_j

)= Covar(e

_i

,e

_j

)=0

• E(b

₁

)=S

_i

E(y

_i

)=S

_i

(b

₀

+b

₁

x

_i

)=b

₀

S

_i

+ b

₁

S

_i

x

_i

=b

₁

• Var(b

₁

)=Var(S

_i

y

_i

)=S

_i²

Var(y

_i

)=s

²

/S(x

_i

-x)

²

• E(b

₀

)=E(y-b

₁

x)=E(y)-E(b

₁

)x= b

₀

+b

₁

x-b

₁

x=b

₀

• Var(b

₀

) = Var(y-b

₁

x) = Var(y) + x

²

Var(b

₁

) - 2xCov(y,b

₁

) = Cov(y,b

₁

)=Cov(y, S

_i

y

_i

)=S

_i

Cov(y,y

_i

)0

• Var(b

₀

) =Var(y-b

₁

x)=Var(y)+ x

²

Var(b

₁

)=s

²

/n+x

²

s

²

/S(x

_i

-x)

²

= s

²

/n [1+nx

²

/S(x

_i

-x)

²

]

Var(y)=Var(1/n Syi)=1/n² Var(Syi)= s²/n

(26)

 

 



 

 

i

y

x y

Cov b 

b

b , ) ( ) ,

Cov(

₀ ₁ ₁

( )

, ( , )

( )

i

i i i i i i i i

i i i

Var y

i i

i i i

i

Cov x y y x Cov y y

n n

x x

n x x

   

s  s  s

         

     

   

 

   



  

2 2 2 2

2 0

1 1

1 Cov(b

₀

,b

₁

)=0 quando le x

_i

sono centrate

(27)

Stima della varianza s ²

( )

i i

s e y y

n n

  

 

²

 

²

2

1 1

2 2

RSE Standard error of regression s

y^_i= a + bx_i

^

y_i-y_i=e_iresiduo e_i realizzazione di e_i s²= Var(e_i) Se_i²/n-2

^

(28)

POTERE ESPLICATIVO DEL MODELLO DI REGRESSIONE LINEARE

Una valutazione della bontà dell'adattamento con una retta di regressione alle n osservazioni campionarie può essere ottenuta da un'analisi della dispersione dei punti intorno alla retta.

La dispersione é misurata dai residui:

Un'elevata dispersione significa una limitazione alla possibilità di previsioni attendibili sulla base del modello lineare.

sottraendo a primo e secondo membro la quantità :

elevando queste quantità al quadrato e sommando rispetto all'indice i, si ha:

i i

i y yˆ

e  

y

_i

 y ˆ

_i

+ e

_i

y

_i

 y  y ˆ

_i

 y + e

_i

i1(

n y_i  y )²  (

i1

n y ˆ _i  y )² + e_i²

i1

n + 2 e_i(

i1

n y_i  y )

0

(29)

Indice di determinazione lineare

i1(

n y_i  y )²  (

i1

n y ˆ _i  y )² + e_i²

i1

n + 2 e_i(

i1

n y_i  y )

0



 y

y y

i

_

^ y - y

y - y i i

^

i

^ _

y - y

i _

X Y

Dev(Tot) Dev(Reg) Dev(Residua)

2 i

n 1 i

2 i 2

i n

1 i

2 i

n 1 2 i

) y y (

e 1

) y y (

) y yˆ ( R













Misura dell’adattamento del modello ai dati

0 ≤ R

²

≤ 1

(30)

TEST D’IPOTESI SUL COEFFICIENTE DI REGRESSIONE

Se le variabili casuali e

_i

~ N(0,s

²

) e sono verificate le ipotesi del modello classico si può sottoporre a test l'ipotesi che il coefficiente b sia conforme a un valore bo (spesso b

₀

=0):

ipotesi nulla: H

_o

: b=b

_o

ipotesi alternativa: H

₁

: b≠b

_o

Scelta la statistica test:

s

b

b t b 

^



Indipendenza di Y da X

(31)

Regola di decisione

fissato il livello di significatività pari a, sulla base di n osservazioni campionarie si rifiuta l'ipotesi nulla se:

2 /

; 2 n b

s t b b

a

  



0

Ri f i u t ar e H

0

Ri f i u t ar e H

0

Ac cet t ar e H

0

t

Area di

accettazione Area di rifiuto Area di rifiuto

(32)

IL MODELLO DI REGRESSIONE PER SCOPI PREVISIVI

Il modello di regressione trova una sua importante applicazione nel campo della previsione

- Supposto che la variabile indipendente X assuma un valore pari a x_i (i può essere un valore anche esterno a 1...n, es: x_n+1)

se l'ipotesi di una relazione lineare é verificata, la variabile dipendente assumerà valore:

in media il valore di yi sarà pari a:

E[y

i

|X=x

_i

]= a + bx

_i

y_i= a + bx_i + e_i

(33)

Il problema della previsione si riassume in tre punti:

1) Stima puntuale di y_i

2) Stima dell'intervallo di confidenza per la previsione di un unico valore y_i della variabile dipendente secondo un modello lineare.

3) Stima e calcolo dell'intervallo di confidenza per il valor medio del valore di previsione .

Considerando valide le ipotesi del modello classico, per cui gli stimatori a e b dei minimi quadrati sono i mgliori stimatori lineari non distorti dei paramtri del modello.

Una stima puntuale di y_i é:

= a + bxi yˆi

(34)

Calcolo dell'intervallo di confidenza, ad un livello di signficatività a, per il valore previsto:

- sotto l'ipotesi che e_i ~ N(0,s²), si ha:

dove s² = é la stima di s² e

L'intervallo di previsione é tanto più piccolo quanto più il valore x_i é prossimo alla x medio e quanto più grande é il campione.

3) L'intervallo di previsione per il valor medio é:

y ˆ

i

ii 2

/

; 2 n

i

t s 1 h

yˆ 

_ _a

+

e_i²

i1

n

n  2



 +

 + 

 _n

i

i n ii

x x

h n

1

2 2

1 1

) (

ii 2

/

; 2 n

i

t s h

yˆ 

_ _a

(35)

Intervallo di previsione per y

_i

Y

X

x –

y = b + b x

^

(36)

MODELLO DI REGRESSIONE LINEARE MULTIPLA

Il modello di regressione lineare multipla é un'estensione del modello di regressione lineare al caso di più variabili esplicative:

y

_i

= b

_o

+ b

₁

x

_1i

+ b

₂

x

_2i

+ ... + b

_k

x

_ki

+ e

_i

• E[y

_i

|X

₁

=x

_1i

,X

₂

=x

_2i

,...,X

_k

=x

_ki

]= b

_o

+ b

₁

x

_1i

+ b

₂

x

_2i

+ ... + b

_k

x

_ki

Si suppongono verificate le ipotesi del modello classico,

le k variabili X₁,X₂,...,X_k sono assunte deterministiche e linearmente indipendenti tra loro:

c₁X₁+ c₂X₂+...+c_kX_k 0

con {c₁, c₂,...,c_k} un insieme di k coefficienti diversi da 0.



(37)

Rappresentazione grafica del piano di regressione

Y

X

X₁

2

 



 

yi

e_i

(38)

INTERPRETAZIONE DI COEFFICIENTI DI REGRESSIONE MULTIPLA

b_o é l'intercetta del piano di regressione con l'asse Y

b₁ esprime la pendenza della retta di regressione parziale:

y_i = b_o + b₁x_1i+ b₂x_2i, dove x_2i é supposta costante

b₂ esprime la pendenza della retta di regressione parziale:

y_i = b_o + b₁x_1i+ b₂x_2i, dove x_1i é supposta costante

(39)

Bontà d’adattamento dell’iperpiano di regressione

• L'indice di determinazione multiplo

• L'indice di determinazione corretto permette di tener conto del numero di variabili esplicative e della dimensione campionaria:









 n

1 i

2 i

n 1 i

2 2 i

x x , y

) y y (

) y yˆ ( )

Tot ( Dev

) g (Re R Dev

2 1

1 k n

1 ) n

R 1 ( 1

R² ²



 





(40)

Test su tutti i parametri del modello di regressione

L'ipotesi che si sottopone a test é che nessuna variabile X_j (j=1,...,k) ha influenza sulla variabile di risposta Y.

ipotesi nulla: H_o: b₁=b₂=...=b_k=0

ipotesi alternativa: H₁: almeno un b_j  0

Sulla base di n osservazioni campionarie, ad un livello di significatività, a si considera la seguente regola di decisione:

Si rifiuta Ho se

:

2 /

; 1 k n , n k

1 i

2 i i

n 1 i

2 i

F ) 1 k n /(

) yˆ y (

k / ) y yˆ (

a





 





Modello classico di regressione lineare