1 Precisazioni sulla regressione lineare mul- tipla
Modello teorico:
Y = a 1 X 1 + ::: + a p X p + b + "
Dati sperimentali (di numerosità n) e residui:
y i = a 1 x i1 + ::: + a p x ip + b + " i i = 1; :::; n (1) Matrice degli input, vettori dei parametri, degli output e dei residui:
X = 0
@
x 11 ::: x 1p 1 ::: ::: ::: :::
x n1 ::: x np 1 1
A ; a =
0 B B
@ a 1
:::
a p b
1 C C
A ; y =
0
@ y 1 :::
y n 1
A ; " = 0
@
" 1 :::
" n 1 A
Riscrittura vettoriale di (1):
y = Xa + "
Errore quadratico medio (come funzione dei parametri a 1 ; :::; a p ; b)
M SE = 1 n
X n i=1
" 2 i = 1
n j"j 2 = 1
n jy Xa j 2 : Vogliamo minimizzarlo.
Theorem 1 Supponiamo che ker X = f0g, ovvero det X T X 6= 0. Allora, il vettore ba che minimizza la funzione a 7 ! jy Xa j 2 è
ba = X T X 1 X T y:
Se p + 1 = n e det X 6= 0, allora il minimo è nullo e vale ba = X 1 y.
Proof. Preliminarmente osserviamo che le condizioni ker X = f0g e det X T X 6=
0 sono equivalenti. Se ker X = f0g allora, per ogni vettore v 6= 0 vale Xv 6= 0, quindi jXvj 2 6= 0, quindi X T Xv; v 6= 0. Ma allora X T Xv 6= 0 (altrimenti, se fosse X T Xv = 0, allora sarebbe anche X T Xv; v = 0). Abbiamo di- mostrato che v 6= 0 implica X T Xv 6= 0 quindi ker X T X = f0g. Ma X T X
1
è una matrice quadrata, quindi è non singolare, ovvero det X T X 6= 0. Il viceversa è simile, ripetendo al contrario i ragionamenti.
Si noti che siamo autorizzati a porre ba = X T X 1 X T y perché X T X è invertibile, per ipotesi.
Scriviamo il generico a nella forma a = ba + z. Vale
jy Xa j 2 = jy X ( ba + z)j 2 = j(y X ba) Xz j 2
= jy X baj 2 + jXzj 2 2 hy X ba; Xzi : Ma
hy X ba; Xzi = X T y X T X ba; z = D
X T y X T X X T X 1 X T y; z E
= X T y X T y; z = 0:
Quindi
jy Xa j 2 = c + jXzj 2
dove la costante c vale jy X baj 2 . Il minimo si ottiene quando Xz = 0.
Avendo ipotizzato ker X = f0g, si trova z = 0, quindi il minimo si ottiene per a = ba + 0 = ba.
Se p + 1 = n e det X 6= 0, allora X stessa è (quadrata e) invertibile, e lo è anche X T , quindi
ba = X T X 1 X T y = X 1 X T 1 X T y = X 1 y:
Inoltre,
jy X baj 2 = y XX 1 y 2 = 0:
La dimostrazione è completa.
Remark 2 Quando p + 1 = n e det X 6= 0, i residui relativi ai parametri ba sono nulli (il minimo di MSE è zero). Da ciò si deduce anche che la varianza spiegata R 2 è 1. Sembrerebbe quindi che un tale modello sia il migliore possi- bile. Invece per le usuali applicazioni non è così. Il suo potere previsivo può essere scarsissimo, così come la sua capacità di aver capito il problema, i dati.
Infatti, un tale modello si adatta perfettamente ai dati sperimentali seguendo al millimetro i suoi accidenti casuali, senza …ltrarli, senza riconoscere che al- cune variazioni sono rumore, non struttura da catturare. Si può capire bene questo pensando al caso di due variabili X; Y , di cui si conoscano solo due
2
dati sperimentali (1; y 1 ), (2; y 2 ), tali che y 1 e y 2 sono numeri casuali N (0; 1).
Il modello corretto sarebbe
Y = "
(cioè a = b = 0), mentre se obblighiamo il software a cercare un modello del tipo Y = aX + b + " (p = 1, p + 1 = 2), esso …tterà perfettamente i due dati trovando la retta che passa per i due punti (1; y 1 ), (2; y 2 ): residui nulli, ma modello dato da una retta senza senso, completamente sbagliata rispetto a Y = ", ed oltretutto fortemente dipendente dai valori casuali y 1 e y 2 . Quando p è troppo grande rispetto al numeri di dati a disposizione, si parla di over…tting.
Theorem 3 Supponiamo che gli input x ij (ovvero la matrice X) siano dati (come fossero parametri di progetto) e che gli output y i siano legati ad essi dalla relazione (1) relativamente a ben determinati parametri a 1 ; :::; a p ; b, e dove, a seconda dell’esperimento (sempre e¤ettuato relativamente agli stessi sets di input x i1 ; :::; x i;p ), gli errori " i siano v.a. aventi media nulla e matrice di covarianza Q " . Allora ba (che ora è visto come un vettore aleatorio, essendo aleatori gli " i ) è uno stimatore non distorto di a:
E [ ba] = a
(ovvero, per componenti, E [ ba 1 ] = a 1 , ... , E [ ba p ] = a p , E h bb i
= b) e la matrice di covarianza di ba è
Q ba = h
X T X 1 X T i Q " h
X X T X 1 i :
In particolare, se Q " = 2 " Id, cioè se gli errori " i sono indipendenti tra loro e tutti di varianza 2 " , allora
Q ba = 2 " X T X 1 :
Proof. Abbiamo y = Xa + " dove ora X ed a sono dati, " è un vettore centrato di covarianza Q " . Siccome ba = X T X 1 X T y, vale
ba = X T X 1 X T Xa + X T X 1 X T "
= a + X T X 1 X T ":
3
Conosciamo le regole di trasformazione di media e covarianza per trasfor- mazioni lineari: E [ ba] = a e
Q ba = h
X T X 1 X T i Q " h
X T X 1 X T i T
= h
X T X 1 X T i Q " h
X X T X 1 i : Se Q " = 2 " Id, allora
Q ba = 2 "
h
X T X 1 X T i
Id h
X X T X 1 i
= 2 " X T X 1 : La dimostrazione è completa.
Remark 4 Dalla formula Q ba = 2 " X T X 1 si vede che, in caso di allinea- menti tra fattori, i coe¢ cienti stimati dal modello sono molto instabili (da qui si originano fenomeni strani come quello di coe¢ cienti di segno opposto alla correlazione tra fattore e output). Infatti, a parità di ampiezza " del rumore, la variabilità dei coe¢ cienti ba, variabilità misurata dalla matrice di correlazione Q ba (si pensi ad es. che gli elementi sulla diagonale sono le var- ianze), è molto elevata se la matrice X T X è vicina ad essere singolare, cioè ha determinante vicino a zero (in tale caso det X T X 1 è molto alto e così sono alcune delle componenti di X T X 1 ). E la matrice X T X è vicina ad essere singolare quando ci sono allieneamenti.
Remark 5 Possiamo capire il p-value dei singoli fattori, col teorema prece- dente. Innanzi tutto, ricordiamo che il p-value è la probabilità che una deter- minata grandezza statistica sia più estrema del valore sperimentale, quando vale l’ipotesi nulla. Nel caso in questione, per i fattore X i , l’ipotesi nulla è a i = 0. La grandezza statistica scelta per mettere in discussione questa ipotesi è sostanzialmente ba i . Ma ba i risentirebbe ad esempio dell’unità di misura, per cui conviene standardizzarla (anche se oggi giorno si potrebbe adottare un metodo Monte Carlo per il calcolo del p-value). Conviene quindi considerare ba
iE[ ba
i]
bai
, dove però E [ ba i ] = a i e a i = 0 sotto l’ipotesi nulla, quindi
ba
iE[ ba
i]
bai
= ba
ibai