1
MODELLO DI REGRESSIONE LINEARE MULTIPLA
1. Modello e assunzioni
2. Stimatori OLS e proprietà
3. R
2, variabilità totale, spiegata e residua 4. Previsione
5. Test per la verifica di ipotesi 6. Variabili dummy
7. Eteroschedasticità 8. Multicollinearità
9. Autocorrelazione dei residui
2
REGRESSIONE LINEARE MULTIPLA: IL PROBLEMA
• Ricerca di un modello matematico in grado di esprimere la relazione esistente tra una variabile di risposta y (quantitativa) e ( ad esempio) k variabili esplicative
• Si tratta di una relazione asimmetrica del tipo
Nel caso del modello di regr.lineare multipla abbiamo che:
che geometricamente corrisponde ad un iperpiano a k dimensioni
• Perché si studia tale modello
i) facilità con cui può essere interpretato un iperpiano a k dimensioni
ii) ii) Facilità di stima dei parametri incogniti j
( j = 1…k)
Nella realtà studiamo un modello del tipo
Componente componente sistematica casuale
x xk
f
y 1...
x xk
x x kxkf 1... 1 1 2 2...
x x
uf
y 1... k
3
IL MODELLO
In forma matriciale
dove
: vettore (n
x1) di osservazioni sulla variabile dipendente
: matrice (n
xk) di osservazioni su k regressori
: vettore (k
x1) di parametri incogniti : vettore (n
x1) di disturbi stocastici
i ik
k i
i i
i x x x x u
y 1 1 2 2 3 3 ...
u X
y
y
X
u
4
N.B.
La matrice X ha la prima colonna unitaria nel caso in cui si consideri un modello con
intercetta 1 nel sistema di riferimento multidimensionale
n n
k k
nk n
n
k k
k n
n n
u u u
u
x x
x
x x
x
x x
x
X
y y y
y
. . .
. . .
. . .
. .
. . .
.
. .
. . .
.
. .
. . .
.
. . .
. . .
. . .
2 1
1 2
1
1
2 1
2 22
21
1 12
11 2
1
1
Le matrici e i vettori sono così definiti
5
ASSUNZIONI DEL MODELLO 1) Esiste legame lineare tra variabile
dipendente e regressori
2) Le variabili sono tutte osservabili 3) I coefficienti i non sono v.c.
4) I regressori X sono non stocastici 5) Il termine u non è osservabile 6)
7)
le ui sono omoschedastiche ed incorrelate
8) X ha rango pieno rank (X) = k condizione necessaria
9) hp aggiuntiva da utilizzare nell’analisi inferenziale
j i
per
j i
u per u
Cov i j 02
,
ui 0E
2 2
2
. . . 0
0
. .
. . .
.
0 .
. 0 0
0 .
. 0 0
u
u E
k n u N
0,2I
6
STIMATORE OLS Y = X + u
Si cercherà quel vettore che minimizza gli scarti al quadrato:
dove X
iè la riga i-esima di X In forma matriciale
=
perché scalare
(1)
ˆ
21 :
min
n i
i
i X
y
u y X e ˆ
e o y X y X
e min
min
X X X
y y
X y
y
X y
X y
X y
X y
e e Q
0 2
2
X X y
Q X
7
è uno scalare
dalla (1) si ottiene
pre-moltiplicando ambo i membri
perché rank (X’X) = rank (X) = k
X’X è a rango pieno ovvero invertibile
stimatore OLS di
1
2 1
1
3 32
31
2 22
21 1
1
. .
. . .
. .
. .
.
. .
. .
1 .
1 1
1
...
n
n n
k
kn k
n n k
k
y y y
x x
x x
x
x x
x y
X
perché
X y
Xy
yX
X X
X yy X X
X
2
2
X
X
1 X
X
X
X
1X
y
XX
X y
ˆ 1
8
CARATTERISTICHE STIMATORE OLS
Teorema di Gauss-Markov
è uno stimatore di tipo BLUE
Best Linear Unbiased Estimatorovvero ha varianza minima nella classe degli stimatori Lineari e Corretti
1.
La matrice è formata da elementi costanti per cui è una trasformazione lineare di y .
2.
È uno stimatore corretto Inoltre:
ˆ
XX
X y
ˆ 1
XX
1X ˆ
XX
Xy
XX
X
X u
ˆ 1 1
X X
X uu X X
X X
X X
X
1
1 1
ˆ
XX
1X u
XX
X E
u
E ˆ 1 '
9
Si consideri più in dettaglio
Pertanto la varianza di ogni parametro si desume prendendo il corrispondente valore sulla diagonale principale della , moltiplicato per :
1
1 2
12
2 1 1
1 1
1 1
ˆ ˆ
ˆ
X X X
X X X X
X
X X X I X
X X
X X X u u E X X
X
X X X u u X X
X E
E Var
ˆ ˆ :
E
2 1
1
2 2 2
2 2
1 1
1 1 2
2 1 1 2
1 1
. ˆ . ˆ .
ˆ
. .
. .
.
. .
ˆ . ˆ
ˆ
ˆ . ˆ
ˆ . ˆ
ˆ
k k
k k
k k
E E
E E
E E
E
ˆ j j
2E
ˆ
j
XX
1 2
ˆ j
XX
1
jj 2Var 3.
10
STIMA DI
MX
è simmetrica e idempotente, cioè:
1.
2.
Da queste proprietà di M
Xsi ottiene
perché scalare
tr(ABC)=
tr(BCA)=
tr(BAC)
ˆ2
2
n n
X
X u M
M u
X X
X X I
u X X
X X X
u X
u X
X X
X X u
X X
y e
1
1
ˆ 1
XX I X X X X I X X X X M
M
1 1
XX
M X
X X X I
X X
X X X X
X X X
X X X X
X X X I
X X
X X I
X X
X X I
M
1
1 1
1 1
1 2 1
e e E
tr
e e
E
u M u u
M M
u e
e
Q X X X
2 X X
X X
M tr u
u M E tr
u u M tr E u
M u tr E
11
è uno stimatore corretto
ESEMPIO (Greene p.200)
i : 1960 … 1986 , n = 27 Gi = consumo di benzina in $
Pgi = indice dei prezzi benzina Yi = reddito pro-capite in $
Pqi = indice dei prezzi auto nuove
n k
I tr n
X X X
X tr n
X X
X X tr I
tr
X X
X X I
tr
k n
n
2
1 2 2
2 1 2 1
2
2 22
ˆ 1 ˆ
k k n
E n
k n
e e
i qi
i gi
i P y P u
G 1 2 3 4 Se definiamo
12
Vettore y 121.01034 130.20306 136.62968 134.39852 150.34150 171.88391 175.44395 172.03874 198.65222 208.37573 214.38531 228.52113 237.37202 234.34193 222.32567 228.16247 242.33362 248.32557 240.93266 229.58893 227.13648 210.44373 236.85998 255.36365 243.75057 277.31965
x1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
x2 0.9250000 0.9140000 0.9190000 0.9180000 0.9140000 0.9490000 0.9700000 1.0000000 1.0470000 1.0560000 1.0630000 1.0760000 1.1810000 1.5990000 1.7080000 1.7790000 1.8820000 1.9630000 2.6560000 3.6910000 4.1090000 3.8940000 3.7640000 3.7070000 3.7380000 2.9210000
x3
6036.0000 6113.0000 6271.0000 6378.0000 6727.0000 7027.0000 7280.0000 7513.0000 7891.0000 8134.0000 8322.0000 8562.0000 9042.0000 8867.0000 8944.0000 9175.0000 9381.0000 9735.0000 9829.0000 9722.0000 9769.0000 9725.0000 9930.0000 10421.000 10563.000 10780.000
x4 1.0450000 1.0450000 1.0410000 1.0350000 1.0320000 1.0090000 0.9910000 1.0000000 1.0440000 1.0760000 1.1200000 1.1100000 1.1110000 1.1750000 1.2760000 1.3570000 1.4290000 1.5380000 1.6600000 1.7930000 1.9020000 1.9760000 2.0260000 2.0850000 2.1520000 2.2400000
Matrice X’X;
27.000000 51.357000 229865.00 37.296000 51.357000 133.15081 473127.10 83.319118 229865.00 473127.10 2.0120502e+09 331319.22 37.296000 83.319118 331319.22 56.280428 Matrice inv (X’X);
2.6605735 0.51586178 -0.00029970528 -0.76246362 0.51586178 0.30384762 -6.4047001e-07 -0.78790617 -0.00029970528 -6.4047001e-07 6.6199636e-08 -0.00019015563 -0.76246362 -0.78790617 -0.00019015563 2.8089108 Stime b=inv(X’X) * X’y;
-89.761482 -12.588147 0.039938109 -14.443884
13 Y121.01034
130.20306 136.62968 134.39852 150.34150 171.88391 175.44395 172.03874 198.65222 208.37573
n=10
X11.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 (X’X) 10.000000 9.6120000 69370.000 10.318000 Inv (X’X) 197.12839 -30.407072 0.00072941000 -167.53347 Beta =
inv(X’X)*X’y -131.78025 -90.513381 0.045503884 61.076792
X2 0.92500000 0.91400000 0.91900000 0.91800000 0.91400000 0.94900000 0.97000000 1.00000000 1.04700000 1.05600000
9.6120000 9.2665480 67031.717 9.9199470
-30.407072 489.93203 -0.034015993 -198.24254
X36036.0000 6113.0000 6271.0000 6378.0000 6727.0000 7027.0000 7280.0000 7513.0000 7891.0000 8134.0000
69370.000 67031.717 4.8631105e+08 71575.421
0.00072941000 -0.034015993 2.558142e-06 0.013782628
X41.0450000 1.0450000 1.0410000 1.0350000 1.0320000 1.0090000 0.9910000 1.0000000 1.0440000 1.0760000
10.318000 9.9199470 71575.421 10.651854
-167.53347 -198.24254 0.013782628 254.38467
14
ANOVA
Analisi della varianza
Se vogliamo testare simultaneamente ipotesi su tutti i parametri o coefficienti dei regressori
andiamo a considerare la statistica F di Fisher-Snedecor.
Considerando il modello in forma di scarti
y y
y R X
y X X
X
k
ˆ ˆ
. . ˆ ˆ
2
1 1
i X X ii
N N
2 1 2
, , 0
ˆi
yi
15
Si può dimostrare che
e ricordando che
Fp,q
Sotto
2
ˆ
X y
2k12 2
q q
p p
n k
e e
y k X
2
2 1
ˆ Fk ,1nk
0
0 : H
RR
k
n k
k n e e
k y X
2 2
1
1 ˆ 1
k n
Fk ,1
16
TABELLA ANOVA
Causa var. Devianza G.L. Stime var.
Modello
x2…..xk k-1
Residuo n-k
Totale n-1
• Si costruisce la statistica F
• Si individua il 95% o il 99%
quantile della distribuzione F(k-1),(n-k)
• Se si rifiuta H0 0
...
: 2
0 k
H
1 R2
y y e
e
y yi2 y
1
ˆXy k
n k
e
e
k n k
F
F 1 ; 1
ˆX y yyR2
17
Il coefficiente di correlazione è un indicatore del legame lineare tra Y e i regressori.
Ha però un difetto:
Esso può aumentare anche se viene aggiunto un regressore che non “spiega” y.
Se dividiamo le devianze per i gradi di libertà andiamo a pesare il contributo a R2 di ogni
regressore
1
1 2
2
2
i i
Y e TSS
RSS R TSS
1 0 R2
2
2
2 1 1
i i
Y e TSS
R RSS
2
2 1 1
ˆ 1 R
k n
R n
1
ˆ 1
2 2 2
n Y
k n R e
i i
COEFFICIENTE DI CORRELAZIONE MULTIPLA
18
Sviluppando gli OLS
è sempre uno stimatore BLUE poiché
= 0
Dalla (*) si ottiene
X
X
X
y
ˆ
1u u X
Y
X X
X u
X X
X uu u X
X X
X
1 1
ˆ 1
0
. .
3 2
1
ki i i
n n k
x u
x u
x u
u X
k k X X
X
Y
ˆ ˆ ˆ .... ˆ
3 3 2
2 1
19
APPLICAZIONE
n = 12 k = 3
Facendo riferimento ai valori
Determinare il vettore di stime OLS
uX Y
3 2 1
i i
i
i
x x u
y
1
2 2
3 3
11 9
12
200 15
10
1 2
9
3 2 3
2
2 2
3 2
2
3 2
x x y
x y
x
y x
x
X X
Y
20
Se consideriamo il modello in forma di scarti dalle medie
Dove
XX
X y
1
3
ˆ2
ˆ
n
n x
x
x x
x x
X
3 2
32 22
31 21
. .
.
. 3 3 3
2 2
2
X X
x
X X
x
i i
i i
2 2 3
2
3 2 2
3 2
3 2 2
3 2
2
2 2 4
3 2 3
3 2 2 3
3 2
1
2 3 3
2
3 2 2
2 3 3 2
2 1
1
1 1
1 1 1
ˆ ˆ
ˆ
i i
i
i i i
i i i
i
i i
i
i i i
i i
i
i i i
X X
X
X X X
X X X
X
X X
X
X X X
X X X
X
X X
X
X X X X
X
X X
Y
21
da cui
i i
i i
Y X
Y y X
X
3 2
89 . 17 65
. 7 62 . 9 2 ˆ 9
ˆ ˆ
65 . 29 7
132 90
121 15
10
12 11
9 ˆ 10
62 . 29 9
99 180
121 15
10
9 11 12
ˆ 15
1 ˆ
ˆ
3 3 2
2 1
3 2
2 3
2 3
2 2
3 3
2 2
2 3
2 3 2 2
3 2
3 2 2
X X
Y
Y X X
X Y
X X
Y X X
X Y
X X
X X X
X
65 . 7
62 . 9
89 . 17 ˆ
ˆ ˆ ˆ
3 2 1
22
RICAPITOLANDO
Fino ad ora nessuna ipotesi è stata posta per la distribuzione degli errori nel problema della stima.
Aggiungiamo :
2 22 2
1 2 1
ˆ ˆ
ˆ ˆ
ˆ ˆ ˆ
E
k n
e
X X E
V E
y X X
X
i
I
N N
2 2
, 0
, 0
uui
23
TEST PER LA VERIFICA DI IPOTESI
Dal teorema di GAUSS-MARKOV :
Vogliamo testare
Ovvero vogliamo verificare se il regressore X
ispiega effettivamente la variabile dipendente Y nel caso (improbabile) che sia nota
2Sotto andiamo a considerare la statistica
, 2 1
ˆ
N X X
0
0 : i H
0,1ˆ
2 1 N
X
X ii
i i
0
0 : i H
iii
X X
12
ˆ
24
Se il valore cade all’esterno dell’intervallo di
confidenza al 95% della
rifiutiamo H
0ed il parametro
isarà
“significativamente” diverso da zero.
In generale rifiuto H
0al livello 100% di significatività quando
) 96 . 1 ( )
1 , 0
(
N
1
22
ˆ
qnX
X ii
i i
25
QUANDO 2 NON E’ NOTA
Utilizziamo la sua stima
Abbiamo già visto che
MX
e idempotente con tr(M
X) = n-k da cui rank (M
X) = (n-k)
Per il teorema spettrale esiste una matrice ortogonale P :
P’P = I
nˆ
2
n e e k
ˆ
2u M u u
M M
u e
e
u M e
X X
X X
n nn k n
n n n X n
nP M P
26
dove (n-k) k
(n-k) k
E’ una matrice diagonale con (n-k) unità e k zeri sulla diagonale principale
Esempio
n = 6 k = 2
Sulla base di P u può essere trasformato
0 0
k 0
n k
n
I
0 0 0 0 0 0
0 0 0 0 0 0
0 0 1 0 0 0
0 0 0 1 0 0
0 0 0 0 1 0
0 0 0 0 0 1
2 22
12
1 1
1
...
,
k n k
n
X X
n n n n
v v
v
v v
v P M
P v u
M u e
e
u P u
P v
v P
u
27
con P ortogonale
Inoltre dimostriamo che e sono indipendenti:
Si dimostra verificando che e è incorrelato da
k n
i
k n k
n
i
i
k n
v N
v v
v e
e
I N
v
u P v
I N
u
1
2 2 1
2
2 2 2
2 2 2
2 1 2
2 2
1 , 0 ...
, 0
, 0
X X
X uu X X
X X I
e e
E
1 1
ˆ ˆ
ˆ
ˆ
2ˆ
28
e e sono Normali e incorrelate quindi
indipendenti ; lo saranno anche e
N.B.
Quindi
0ˆ
1 1
2 1
1 2 1
1 1
X X X X X
X X X
X X
X X X X X
X X I
X X X u u X X
X X I
E e E
ˆ
ˆ n k
e e
ˆ2
n kk n
k t n N
2
1 , 0
n kii i
i
t k
e n e
X X
2 2 1
ˆ
29
(*)
elemento generico di posto ii nella diagonale della (X’X) Le ipotesi su i possono essere verificate
sostituendo i valori nella (*) e controllando poi che la statistica superi o meno i valori della regione critica della distribuzione tn-k .
k n ii
i
i t
a
ˆ ˆ
iiii X X
a 1
30
RIPRENDIAMO L’ESERCIZIO (Applicazione lucidi precedenti 26-28)
( F
0.01 , 2 , 9= 8.02)
Ricordiamo:
n = 12
k = 3 con intercetta
2 var. esplicative in forma di scarti
valore empirico di F
Si rifiuta H
0con un livello di significatività del 99% F empirico = 51.75 >F
0.01,2,9= 8.02
0
: 2 3
0
H
RR
k
n k
RSSESS
nk k
F
1
1
1
2 2
1 0.092.922
9 11.5 29 51.7592 . 200 0
29 . 184 200
9 65 . 7 12 62
. 9
ˆ ˆ
ˆ ˆ
. . .
. . ˆ .
ˆ
2
3 3
2 2
3 2 3
2
1
3 31
2 21
3 2
F R
y X y
y X X
y X
y y
x x
x x
n n
n
y y
y R X
ˆ
2
31
Se avessimo voluto testare
Ovvero la significatività di X
2(t
99.9= 2.82)
valore empirico
di t
Anche adesso rifiutiamo H
0il regressore X
2è significativo
0
: 2
0
H
o F n k
a t
t n k
1,
ˆ ˆ
22 2
2 2
2 . 94 10
. 0
62 . 9 51
. 0 74 . 1
62 . 9 ˆ
ˆ
74 . 9 1
29 . 184 200
ˆ 9
51 . 29 0
15 121
150 15
2 22 2 2
2 3 2 2
2 3 2
32 22
a t
ESS TSS
k n
e e
X X X
X a X