1.Modello e assunzioni2.Stimatori OLS e proprietà3.R

(1)

1

MODELLO DI REGRESSIONE LINEARE MULTIPLA

1. Modello e assunzioni

2. Stimatori OLS e proprietà

3. R

²

, variabilità totale, spiegata e residua 4. Previsione

5. Test per la verifica di ipotesi 6. Variabili dummy

7. Multicollinearità 8. Eteroschedasticità

9. Autocorrelazione dei residui

(2)

2

REGRESSIONE LINEARE MULTIPLA: IL PROBLEMA

• Ricerca di un modello matematico in grado di esprimere la relazione esistente tra una variabile di risposta y (quantitativa) e ( ad esempio) k variabili esplicative

• Si tratta di una relazione asimmetrica del tipo

Nel caso del modello di regr.lineare multipla abbiamo che:

che geometricamente corrisponde ad un iperpiano a k dimensioni

• Perché si studia tale modello

i) facilità con cui può essere interpretato un iperpiano a k dimensioni

ii) ii) Facilità di stima dei parametri incogniti _j

( j = 1…k)

Nella realtà studiamo un modello del tipo

Componente componente sistematica casuale



x x_k



f

y  ₁...



x x_k



x x _kx_k

f ₁...  ₁ ₁ ₂ ₂...



^x ^x



^u

f

y  ₁... _k 

(3)

3

IL MODELLO

In forma matriciale

dove

: vettore (n

^x

1) di osservazioni sulla variabile dipendente

: matrice (n

^x

k) di osservazioni su k regressori

: vettore (k

^x

1) di parametri incogniti : vettore (n

^x

1) di disturbi stocastici

i ik

k i

i i

i x x x x u

y  ₁ ₁ ₂ ₂ ₃ ₃ ... 

u X

y  

y



X

u

(4)

4

N.B.

La matrice X ha la prima colonna unitaria nel caso in cui si consideri un modello con

intercetta ₁ nel sistema di riferimento multidimensionale

   





























































 

n n

k k

nk n

n

k k

k n

n n

u u u

u

x x

x

x x

x

x x

x

X

y y y

y

. . .

. .

. . .

.

. .

. . .

.

. .

. . .

.

. . .

2 1

1 2

1

2 1

2 22

21

1 12

11 2

1

Le matrici e i vettori sono così definiti

(5)

5

ASSUNZIONI DEL MODELLO 1) Esiste legame lineare tra variabile

dipendente e regressori

2) Le variabili sono tutte osservabili 3) I coefficienti i non sono v.c.

4) I regressori X sono non stocastici 5) Il termine u non è osservabile 6)

7)

le u_i sono omoschedastiche ed incorrelate

8) X ha rango pieno rank (X) = k condizione necessaria

9) hp aggiuntiva da utilizzare nell’analisi inferenziale

 







 

j i

per

j i

u per u

Cov _i _j 0₂

, 

 

^u_i ^ ⁰

E



 

















 

2 2

2

. . . 0

0

. .

. . .

.

0 .

. 0 0

0 .

. 0 0



 u

u E

k n  u ^N



⁰^,^²^I



(6)

6

STIMATORE OLS Y = X + u

Si cercherà quel vettore che minimizza gli scarti al quadrato:

dove X

_i

è la riga i-esima di X In forma matriciale

=

perché scalare

(1)

ˆ

 

²

1 :

min



ⁿ ^ ^

i

i X

y



_



  u  y  X e ˆ



_

 

_





e o y  X  y  X

e min

min

   

  



 





 

 



 





 









 





 



X X X

y y

X y

y

X y

e e Q

0 2

2     



 





X X y

Q X

(7)

7

è uno scalare

dalla (1) si ottiene

pre-moltiplicando ambo i membri

perché rank (X’X) = rank (X) = k

X’X è a rango pieno ovvero invertibile

stimatore OLS di 



^ ^



   ¹

2 1

1

3 32

31

2 22

21 1

1

. .

. . .

. .

.

. .

1 .

1 1

1

...





























 



n

n n

k

kn k

n n k

k

y y y

x x

x

x x

x y

X

perché



^^X ^^y

 

^ ^^X^^y

 

^ ^ ^y^^X^





^X ^X



^X ^y

y X X

X

 

 

 

 



2

2 

^X

^

^X

 

^¹ ^X

^

^X

 ^

_

^ 

^X

^

^X



^¹^X

^

^y



^X^^X



^X ^^y



ˆ ^1

(8)

8

CARATTERISTICHE STIMATORE OLS

Teorema di Gauss-Markov

è uno stimatore di tipo BLUE

Best Linear Unbiased Estimator

ovvero ha varianza minima nella classe degli stimatori Lineari e Corretti

1. La matrice è formata da elementi costanti per cui è una trasformazione lineare di y .

2. È uno stimatore corretto Inoltre:

ˆ



^X^^X



^X ^^y



ˆ ^1



^X^^X



^1^X ^

ˆ



^X^^X



^X^^y ^



^X^^X



^X ^



^X^ ^ ^u





ˆ ^¹ ^¹

   



^X ^X



^X ^u

u X X

X X

X



 







 

 

 



1

1 1

 

^^ˆ ^^ ^

^

^X^^X

^

^1^X ^^u

  ^

^

^

^

^

^X^^X

^

^ ^X ^E

^{ }

^u ^

^

E ˆ ¹ '

(9)

9

Si consideri più in dettaglio

Pertanto la varianza di ogni parametro si desume prendendo il corrispondente valore sulla diagonale principale della , moltiplicato per :

    

   

 

     

   

 

¹

 

¹ ²

 

¹

2

2 1 1

1 1

ˆ ˆ

ˆ



 

 



 



 



 



 



 



 















X X X

X X X X

X

X X X I X

X X

X X X u u E X X

X

X X X u u X X

X E

E Var

  

^ˆ ^ˆ _^ ^:

 









 E

       

    

^^



























































2 1

1

2 2 2

2 2

1 1

1 1 2

2 1 1 2

1 1

. ˆ . ˆ .

ˆ

. .

.

. .

ˆ . ˆ

ˆ

ˆ . ˆ

ˆ

k k

E E

E



^ˆ j j



²

E  

ˆ

j



^X

^X 

^¹

 2

 

^^ˆ j ^

 ^

X^X

^

^¹



jj ^²

Var 3.

(10)

10

STIMA DI

M_X

è simmetrica e idempotente, cioè:

1.

2. Da queste proprietà di M

_X

si ottiene

perché scalare

tr(ABC)=

tr(BCA)=

tr(BAC)

ˆ2

 ²

   

 

 

 

n n

X

X u M

M u

X X

X X I

u X X

X X X

u X

X X

X X u

X X

y e





 

 





 













 

 













1

ˆ 1

 

   ^ ^ 

X

X I X X X X I X X X X M

M      



 

  ^¹ ^¹

 

   ^ ^ 

       

 

_X

X

M X

X X X I

X X

X X X X

X X X

X X X X

X X X I

X X

X X I

X X

X X I

M

 

 





 



 



 





 



 





1

1 1

1 2 1

 

ê ê Ê



^tr

 

^e ^e



E

u M u u

M M

u e

e

Q _X _X _X

 



 



 

 

     

 



^



^



^



^



 

2 X X

X X

M tr u

u M E tr

u u M tr E u

M u tr E

(11)

11

è uno stimatore corretto

ESEMPIO (Greene p.200)

i : 1960 … 1986 , n = 27 G_i = consumo di benzina in $

P_gi = indice dei prezzi benzina Y_i = reddito pro-capite in $

P_qi = indice dei prezzi auto nuove

 

 

     

 

 

  ^ ^{ } ^



ⁿ ^k



I tr n

X X X

X tr n

X X

X X tr I

tr

X X

X X I

tr

k n

n







 

 



 

 



 

 





2

1 2 2

2 1 2 1



 

 

²

_ _{ } ^

² ²

2

ˆ 1 ˆ







 







 



k k n

E n

k n

e e

i qi

i gi

i P y P u

G  ₁  ₂ ₃  ₄  Se definiamo

(12)

12

Vettore y 121.01034 130.20306 136.62968 134.39852 150.34150 171.88391 175.44395 172.03874 198.65222 208.37573 214.38531 228.52113 237.37202 234.34193 222.32567 228.16247 242.33362 248.32557 240.93266 229.58893 227.13648 210.44373 236.85998 255.36365 243.75057 277.31965

x₁ 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

x₂ 0.9250000 0.9140000 0.9190000 0.9180000 0.9140000 0.9490000 0.9700000 1.0000000 1.0470000 1.0560000 1.0630000 1.0760000 1.1810000 1.5990000 1.7080000 1.7790000 1.8820000 1.9630000 2.6560000 3.6910000 4.1090000 3.8940000 3.7640000 3.7070000 3.7380000 2.9210000

x₃

6036.0000 6113.0000 6271.0000 6378.0000 6727.0000 7027.0000 7280.0000 7513.0000 7891.0000 8134.0000 8322.0000 8562.0000 9042.0000 8867.0000 8944.0000 9175.0000 9381.0000 9735.0000 9829.0000 9722.0000 9769.0000 9725.0000 9930.0000 10421.000 10563.000 10780.000

x₄ 1.0450000 1.0450000 1.0410000 1.0350000 1.0320000 1.0090000 0.9910000 1.0000000 1.0440000 1.0760000 1.1200000 1.1100000 1.1110000 1.1750000 1.2760000 1.3570000 1.4290000 1.5380000 1.6600000 1.7930000 1.9020000 1.9760000 2.0260000 2.0850000 2.1520000 2.2400000

Matrice X’X;

27.000000 51.357000 229865.00 37.296000 51.357000 133.15081 473127.10 83.319118 229865.00 473127.10 2.0120502e+09 331319.22 37.296000 83.319118 331319.22 56.280428 Matrice inv (X’X);

2.6605735 0.51586178 -0.00029970528 -0.76246362 0.51586178 0.30384762 -6.4047001e-07 -0.78790617 -0.00029970528 -6.4047001e-07 6.6199636e-08 -0.00019015563 -0.76246362 -0.78790617 -0.00019015563 2.8089108 Stime b=inv(X’X) * X’y;

-89.761482 -12.588147 0.039938109 -14.443884

(13)

13 Y121.01034

130.20306 136.62968 134.39852 150.34150 171.88391 175.44395 172.03874 198.65222 208.37573

n=10

X11.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 (X’X) 10.000000 9.6120000 69370.000 10.318000 Inv (X’X) 197.12839 -30.407072 0.00072941000 -167.53347 Beta =

inv(X’X)*X’y -131.78025 -90.513381 0.045503884 61.076792

X2 0.92500000 0.91400000 0.91900000 0.91800000 0.91400000 0.94900000 0.97000000 1.00000000 1.04700000 1.05600000

9.6120000 9.2665480 67031.717 9.9199470

-30.407072 489.93203 -0.034015993 -198.24254

X36036.0000 6113.0000 6271.0000 6378.0000 6727.0000 7027.0000 7280.0000 7513.0000 7891.0000 8134.0000

69370.000 67031.717 4.8631105e+08 71575.421

0.00072941000 -0.034015993 2.558142e-06 0.013782628

X41.0450000 1.0450000 1.0410000 1.0350000 1.0320000 1.0090000 0.9910000 1.0000000 1.0440000 1.0760000

10.318000 9.9199470 71575.421 10.651854

-167.53347 -198.24254 0.013782628 254.38467

(14)

14

ANOVA

Analisi della varianza

Se vogliamo testare simultaneamente ipotesi su tutti i parametri o coefficienti dei regressori

andiamo a considerare la statistica F di Fisher-Snedecor.

Considerando il modello in forma di scarti

 

y y

y R X

y X X

X

k



 





 

















 ^

ˆ ˆ

. . ˆ ˆ

2

1 1

 

 



i X X ii



N N

2 1 2

, , 0

 







ˆi

yi

(15)

15

Si può dimostrare che

e ricordando che

F_p,q

Sotto

 

2

ˆ



 





 X y



_²_k_₁_

2 2

q q

p p



  _ _



ⁿ ^k



e e

y k X

 



 

 







2

2 1

ˆ Fk_{ ,}₁n_k

0

0 :  H

 

   



^R^R



^k

^

ⁿ ^k

^

k n e e

k y X



 

 



2 2

1

1 ˆ 1

k n

Fk_{ ,}₁ _

(16)

16

TABELLA ANOVA

Causa var. Devianza G.L. Stime var.

Modello

x₂…..x_k k-1

Residuo n-k

Totale n-1

• Si costruisce la statistica F

• Si individua il 95% o il 99%

quantile della distribuzione F(k-1),(n-k)

• Se si rifiuta H₀ 0

...

: ₂

0    _k 

H



^{1 R}²



y y e

e   



y  y_i² y



¹



ˆXy k 





ⁿ ^k



e

e 

  k n k

F

F  ₁__ _; _₁ _

ˆX y  yyR2



(17)

17

Il coefficiente di correlazione è un indicatore del legame lineare tra Y e i regressori.

Ha però un difetto:

Esso può aumentare anche se viene aggiunto un regressore che non “spiega” y.

Se dividiamo le devianze per i gradi di libertà andiamo a pesare il contributo a R² di ogni

regressore

1

1 ₂

2

2    



 

i i

Y e TSS

RSS R TSS

1 0  R² 

 







 ₂

2

2 1 1

i i

Y e TSS

R RSS

 

  

²



2 1 1

ˆ 1 R

k n

R n 



 



 



¹



ˆ 1

2 2 2



 



 

n Y

k n R e

i i

COEFFICIENTE DI CORRELAZIONE MULTIPLA

(18)

18

APPLICAZIONE

n = 12 k = 3

Facendo riferimento ai valori

Determinare il vettore di stime OLS

u

X Y

  























3 2 1

i i

i

x x u

y  

₁

 

₂ ₂

 

₃ ₃



  

 







11 9

12

200 15

10

1 2

9

3 2 3

2

2 2

3 2

2

3 2

x x y

x y

x

y x

x

X X

Y

(19)

19

Se consideriamo il modello in forma di scarti dalle medie

Dove



^X^^X



^X ^ ^y

 











 _1

3

ˆ2

ˆ















n

n x

x

x x

X

3 2

32 22

31 21

. .

.

. ³ ³ ³

2 2

2

X X

x

X X

x

i i









 

     

   

 

^^_^^ ^ ^^_^

 















 





 



 

















  



  



  



2 2 3

2

3 2 2

3 2

3 2 2

3 2

2

2 2 4

3 2 3

3 2 2 3

3 2

1

2 3 3

2

3 2 2

2 3 3 2

2 1

1

1 1

1 1 1

ˆ ˆ

ˆ

i i

i

i i i

i

i i

i

i i i

i i

i

i i i

X X

X

X X X

X

X X

X

X X X

X

X X

X

X X X X

X

X X

Y

(20)

20

da cui







 



 

i i

Y X

Y y X

X

3 2

 

89 . 17 65

. 7 62 . 9 2 ˆ 9

ˆ ˆ

65 . 29 7

132 90

121 15

10

12 11

9 ˆ 10

62 . 29 9

99 180

121 15

10

9 11 12

ˆ 15

1 ˆ

ˆ

3 3 2

2 1

3 2

2 3

2 2

3 3

2 2

2 3

2 3 2 2

3 2

3 2 2

























 

 





 



 

 





 

















 

 

 











     

 

  

X X

Y

Y X X

X Y

X X

Y X X

X Y

X X

X X X

X





































65 . 7

62 . 9

89 . 17 ˆ

ˆ ˆ ˆ

3 2 1

(21)

21

RICAPITOLANDO

Fino ad ora nessuna ipotesi è stata posta per la distribuzione degli errori nel problema della stima.

Aggiungiamo :

 

 

     ^ ^

 

² ²

2 2

1 2 1

ˆ ˆ

ˆ ˆ ˆ







 



 

 



 



 





















 







E

k n

e

X X E

V E

y X X

X

i

 

 ^I 

N N

2 2

, 0



u

u_i

(22)

22

TEST PER LA VERIFICA DI IPOTESI

Dal teorema di GAUSS-MARKOV :

Vogliamo testare

Ovvero vogliamo verificare se il regressore X

_i

spiega effettivamente la variabile dipendente Y nel caso (improbabile) che sia nota 

²

Sotto andiamo a considerare la statistica

 



^, ² ¹



ˆ    ^

 N X X

0

0 : _i  H

 

  ^{ }

⁰^,¹

ˆ

2 1 N

X

X _ii

i i

 









0

0 : _i  H

 

 

ii

i

X X

¹

2

ˆ









(23)

23

Se il valore cade all’esterno dell’intervallo di

confidenza al 95% della

rifiutiamo H

₀

ed il parametro 

_i

sarà

“significativamente” diverso da zero.

In generale rifiuto H

₀

al livello 100% di significatività quando

) 96 . 1 ( )

1 , 0

( 

N

 



¹



²

2

ˆ







 







qn

X

X _ii

i i

(24)

24

QUANDO ² NON E’ NOTA

Utilizziamo la sua stima

Abbiamo già visto che

M_X

e idempotente con tr(M

_X

) = n-k da cui rank (M

_X

) = (n-k)

Per il teorema spettrale esiste una matrice ortogonale P :

P’P = I

_n

ˆ

2



 ⁿ ^e  ^e ^k 

 

 ˆ

²

u M u u

M M

u e

e

u M e

X X

 



 





n nn k n

n n n X n

nP M P



 

  

(25)

25

dove (n-k) k

(n-k) k

E’ una matrice diagonale con (n-k) unità e k zeri sulla diagonale principale

Esempio

n = 6 k = 2

Sulla base di P u può essere trasformato



 



 

 _ ^

0 0

k 0

n k

n

I





















0 0 0 0 0 0

0 0 1 0 0 0

0 0 0 1 0 0

0 0 0 0 1 0

0 0 0 0 0 1

2 22

12

1 1

1

...

,

k n k

n

X X

n n n n

v v

v

v v

v P M

P v u

M u e

e

u P u

P v

v P

u



 











 

 



 



(26)

26

con P ortogonale

Inoltre dimostriamo che e sono indipendenti:

Si dimostra verificando che e è incorrelato da

 

  



^

 











 



 





 

 



 

 





 



k n

i

k n k

n i

i

k n

v N

v v

v e

e

I N

v

u P v

I N

u

1

2 2 1

2

2 2 2

2 1 2

2 2

1 , 0 ...

, 0

 

 



^X ^X



^X ^u

u X X

X X I

e e

E



 









 



 



 



 









1 1

ˆ ˆ

ˆ

 ˆ

²

ˆ

(27)

27

e e sono Normali e incorrelate quindi

indipendenti ; lo saranno anche e

N.B.

Quindi

 

  ^ ^

 

 

  ^ ^

 

     

 

⁰

ˆ

1 1

2 1

1 2 1

1 1

 



 

 



 



 





 



 

 



 



 









X X X X X

X X X

X X

X X X X X

X X I

X X X u u X X

X X I

E e E

ˆ

ˆ n k

e e



 

ˆ²

 

^ⁿ ^k^

k n

k t n N



 

²

1 , 0

 

 

 

ⁿ ^k

ii i

i

t k

e n e

X X



 



 







2 2 1

ˆ

(28)

28

(*)

elemento generico di posto ii nella diagonale della (X’X) Le ipotesi su _i possono essere verificate

sostituendo i valori nella (*) e controllando poi che la statistica superi o meno i valori della regione critica della distribuzione t_n-k .

k n ii

i

i t

a ^







 ˆ ˆ

 

 

ii

ii X X

a   ^¹

(29)

29

RIPRENDIAMO L’ESERCIZIO (Applicazione lucidi precedenti 18-20)

( F

0.01 , 2 , 9

= 8.02)

Ricordiamo:

n = 12

k = 3 con intercetta

2 var. esplicative in forma di scarti

valore empirico di F

Si rifiuta H

₀

con un livello di significatività del 99% F empirico = 51.75 >F

_0.01,2,9 = 8.02

0

: ₂ ₃

0    

H

 



^R^R



^k

^

ⁿ ^k

^

^RSS^ESS

^ ^

ⁿ^k ^k

^ ^

F 

 



  1

1

2 2

 



¹ ⁰^.⁰⁹²^.⁹²²



⁹ ¹¹^.⁵ ²⁹ ⁵¹^.⁷⁵

92 . 200 0

29 . 184 200

9 65 . 7 12 62

. 9

ˆ ˆ

. . .

. . ˆ .

ˆ

2

3 3

2 2

3 2 3

2

1

3 31

2 21

3 2





 





 



 







 





































 









 



F R

y X y

y X X

y X

y y

x x

n n

n

y y

y R X



 

 ˆ

2



(30)

30

Se avessimo voluto testare

Ovvero la significatività di X

₂

(t

_99.9

= 2.82)

valore empirico

di t

Anche adesso rifiutiamo H

₀

il regressore X

₂

è significativo

0

: ₂

0  

H

 



^o ^F ⁿ ^k



a t

t _n _k 







  _ 1,

ˆ ˆ

22 2

2 2

 

2 . 94 10

. 0

62 . 9 51

. 0 74 . 1

62 . 9 ˆ

ˆ

74 . 9 1

29 . 184 200

ˆ 9

51 . 29 0

15 121

150 15

2 22 2 2

2 3 2 2

2 3 2

32 22



 

 

 

 

 

 





 



   

a t

ESS TSS

k n

e e

X X X

X a X



1.Modello e assunzioni2.Stimatori OLS e proprietà3.R