Dati sperimentali (di numerosità n) e residui:

(1)

1 Precisazioni sulla regressione lineare mul- tipla

Modello teorico:

Y = a ₁ X ₁ + ::: + a _p X _p + b + "

Dati sperimentali (di numerosità n) e residui:

y _i = a ₁ x _i1 + ::: + a _p x _ip + b + " _i i = 1; :::; n (1) Matrice degli input, vettori dei parametri, degli output e dei residui:

X = 0

@

x ₁₁ ::: x _1p 1 ::: ::: ::: :::

x _n1 ::: x _np 1 1

A ; a =

0 B B

@ a 1

:::

a _p b

1 C C

A ; y =

0 @ y ₁ :::

y _n 1

A ; " = 0

@

" ₁ :::

" _n 1 A

Riscrittura vettoriale di (1):

y = Xa + "

Errore quadratico medio (come funzione dei parametri a 1 ; :::; a _p ; b)

M SE = 1 n

X n i=1

" ² _i = 1

n j"j ² = 1

n jy Xa j ² : Vogliamo minimizzarlo.

Theorem 1 Supponiamo che ker X = f0g, ovvero det X ^T X 6= 0. Allora, il vettore ba che minimizza la funzione a 7 ! jy Xa j ² è

ba = X ^T X ¹ X ^T y:

Se p + 1 = n e det X 6= 0, allora il minimo è nullo e vale ba = X ¹ y.

Proof. Preliminarmente osserviamo che le condizioni ker X = f0g e det X ^T X 6=

0 sono equivalenti. Se ker X = f0g allora, per ogni vettore v 6= 0 vale Xv 6= 0, quindi jXvj ² 6= 0, quindi X ^T Xv; v 6= 0. Ma allora X ^T Xv 6= 0 (altrimenti, se fosse X ^T Xv = 0, allora sarebbe anche X ^T Xv; v = 0). Abbiamo di- mostrato che v 6= 0 implica X ^T Xv 6= 0 quindi ker X ^T X = f0g. Ma X ^T X

1

(2)

è una matrice quadrata, quindi è non singolare, ovvero det X ^T X 6= 0. Il viceversa è simile, ripetendo al contrario i ragionamenti.

Si noti che siamo autorizzati a porre ba = X ^T X ¹ X ^T y perché X ^T X è invertibile, per ipotesi.

Scriviamo il generico a nella forma a = ba + z. Vale

jy Xa j ² = jy X ( ba + z)j ² = j(y X ba) Xz j ²

= jy X baj ² + jXzj ² 2 hy X ba; Xzi : Ma

hy X ba; Xzi = X ^T y X ^T X ba; z = D

X ^T y X ^T X X ^T X ¹ X ^T y; z E

= X ^T y X ^T y; z = 0:

Quindi

jy Xa j ² = c + jXzj ²

dove la costante c vale jy X baj ² . Il minimo si ottiene quando Xz = 0.

Avendo ipotizzato ker X = f0g, si trova z = 0, quindi il minimo si ottiene per a = ba + 0 = ba.

Se p + 1 = n e det X 6= 0, allora X stessa è (quadrata e) invertibile, e lo è anche X ^T , quindi

ba = X ^T X ¹ X ^T y = X ¹ X ^T ¹ X ^T y = X ¹ y:

Inoltre,

jy X baj ² = y XX ¹ y ² = 0:

La dimostrazione è completa.

Remark 2 Quando p + 1 = n e det X 6= 0, i residui relativi ai parametri ba sono nulli (il minimo di MSE è zero). Da ciò si deduce anche che la varianza spiegata R ² è 1. Sembrerebbe quindi che un tale modello sia il migliore possi- bile. Invece per le usuali applicazioni non è così. Il suo potere previsivo può essere scarsissimo, così come la sua capacità di aver capito il problema, i dati.

Infatti, un tale modello si adatta perfettamente ai dati sperimentali seguendo al millimetro i suoi accidenti casuali, senza …ltrarli, senza riconoscere che al- cune variazioni sono rumore, non struttura da catturare. Si può capire bene questo pensando al caso di due variabili X; Y , di cui si conoscano solo due

2

(3)

dati sperimentali (1; y 1 ), (2; y ₂ ), tali che y ₁ e y 2 sono numeri casuali N (0; 1).

Il modello corretto sarebbe

Y = "

(cioè a = b = 0), mentre se obblighiamo il software a cercare un modello del tipo Y = aX + b + " (p = 1, p + 1 = 2), esso …tterà perfettamente i due dati trovando la retta che passa per i due punti (1; y 1 ), (2; y ₂ ): residui nulli, ma modello dato da una retta senza senso, completamente sbagliata rispetto a Y = ", ed oltretutto fortemente dipendente dai valori casuali y 1 e y ₂ . Quando p è troppo grande rispetto al numeri di dati a disposizione, si parla di over…tting.

Theorem 3 Supponiamo che gli input x ij (ovvero la matrice X) siano dati (come fossero parametri di progetto) e che gli output y i siano legati ad essi dalla relazione (1) relativamente a ben determinati parametri a 1 ; :::; a _p ; b, e dove, a seconda dell’esperimento (sempre e¤ettuato relativamente agli stessi sets di input x i1 ; :::; x _i;p ), gli errori " i siano v.a. aventi media nulla e matrice di covarianza Q " . Allora ba (che ora è visto come un vettore aleatorio, essendo aleatori gli " i ) è uno stimatore non distorto di a:

E [ ba] = a

(ovvero, per componenti, E [ ba ¹ ] = a ₁ , ... , E [ ba ^p ] = a _p , E h bb i

= b) e la matrice di covarianza di ba è

Q _ba = h

X ^T X ¹ X ^T i Q _" h

X X ^T X ¹ i :

In particolare, se Q " = ² _" Id, cioè se gli errori " i sono indipendenti tra loro e tutti di varianza ² _" , allora

Q _ba = ² _" X ^T X ¹ :

Proof. Abbiamo y = Xa + " dove ora X ed a sono dati, " è un vettore centrato di covarianza Q " . Siccome ba = X ^T X ¹ X ^T y, vale

ba = X ^T X ¹ X ^T Xa + X ^T X ¹ X ^T "

= a + X ^T X ¹ X ^T ":

3

(4)

Conosciamo le regole di trasformazione di media e covarianza per trasfor- mazioni lineari: E [ ba] = a e

Q _ba = h

X ^T X ¹ X ^T i Q _" h

X ^T X ¹ X ^T i T

= h

X ^T X ¹ X ^T i Q _" h

X X ^T X ¹ i : Se Q " = ² _" Id, allora

Q _ba = ² _"

h

X ^T X ¹ X ^T i

Id h

X X ^T X ¹ i

= ² _" X ^T X ¹ : La dimostrazione è completa.

Remark 4 Dalla formula Q _ba = ² _" X ^T X ¹ si vede che, in caso di allinea- menti tra fattori, i coe¢ cienti stimati dal modello sono molto instabili (da qui si originano fenomeni strani come quello di coe¢ cienti di segno opposto alla correlazione tra fattore e output). Infatti, a parità di ampiezza " del rumore, la variabilità dei coe¢ cienti ba, variabilità misurata dalla matrice di correlazione Q _ba (si pensi ad es. che gli elementi sulla diagonale sono le var- ianze), è molto elevata se la matrice X ^T X è vicina ad essere singolare, cioè ha determinante vicino a zero (in tale caso det X ^T X ¹ è molto alto e così sono alcune delle componenti di X ^T X ¹ ). E la matrice X ^T X è vicina ad essere singolare quando ci sono allieneamenti.

Remark 5 Possiamo capire il p-value dei singoli fattori, col teorema prece- dente. Innanzi tutto, ricordiamo che il p-value è la probabilità che una deter- minata grandezza statistica sia più estrema del valore sperimentale, quando vale l’ipotesi nulla. Nel caso in questione, per i fattore X i , l’ipotesi nulla è a i = 0. La grandezza statistica scelta per mettere in discussione questa ipotesi è sostanzialmente ba ⁱ . Ma ba ⁱ risentirebbe ad esempio dell’unità di misura, per cui conviene standardizzarla (anche se oggi giorno si potrebbe adottare un metodo Monte Carlo per il calcolo del p-value). Conviene quindi considerare ^ba

ⁱ

^E[ ^ba

ⁱ

^]

bai

, dove però E [ ba ⁱ ] = a _i e a i = 0 sotto l’ipotesi nulla, quindi

ba

i

E[ ba

i

]

bai

= ^ba

ⁱ

bai

. Usando poi il teorema precedente, nell’ipotesi più speci…ca su

", vale

ba ⁱ

ba

i

= p ba ⁱ

(Q _ba ) _ii = ba ⁱ

"

q

(X ^T X) _ii ¹ :

Questa è la grandezza statistica scelta, di cui si calcola la probabilità che superi il suo valore sperimentale.

4

Dati sperimentali (di numerosità n) e residui:

1 Precisazioni sulla regressione lineare mul- tipla

Modello teorico:

Y = a 1 X 1 + ::: + a p X p + b + "

Dati sperimentali (di numerosità n) e residui:

y i = a 1 x i1 + ::: + a p x ip + b + " i i = 1; :::; n (1) Matrice degli input, vettori dei parametri, degli output e dei residui:

X = 0

@

x 11 ::: x 1p 1 ::: ::: ::: :::

x n1 ::: x np 1 1

A ; a =

0 B B

@ a 1

:::

a p b

1 C C

A ; y =

0

@ y 1 :::

y n 1

A ; " = 0

@

" 1 :::

" n 1 A

Riscrittura vettoriale di (1):

y = Xa + "

Errore quadratico medio (come funzione dei parametri a 1 ; :::; a p ; b)

M SE = 1 n

X n i=1

" 2 i = 1

n j"j 2 = 1

n jy Xa j 2 : Vogliamo minimizzarlo.

Theorem 1 Supponiamo che ker X = f0g, ovvero det X T X 6= 0. Allora, il vettore ba che minimizza la funzione a 7 ! jy Xa j 2 è

ba = X T X 1 X T y:

Se p + 1 = n e det X 6= 0, allora il minimo è nullo e vale ba = X 1 y.

Proof. Preliminarmente osserviamo che le condizioni ker X = f0g e det X T X 6=

1

è una matrice quadrata, quindi è non singolare, ovvero det X T X 6= 0. Il viceversa è simile, ripetendo al contrario i ragionamenti.

Si noti che siamo autorizzati a porre ba = X T X 1 X T y perché X T X è invertibile, per ipotesi.

Scriviamo il generico a nella forma a = ba + z. Vale

jy Xa j 2 = jy X ( ba + z)j 2 = j(y X ba) Xz j 2

= jy X baj 2 + jXzj 2 2 hy X ba; Xzi : Ma

hy X ba; Xzi = X T y X T X ba; z = D

X T y X T X X T X 1 X T y; z E

= X T y X T y; z = 0:

Quindi

jy Xa j 2 = c + jXzj 2

dove la costante c vale jy X baj 2 . Il minimo si ottiene quando Xz = 0.

Avendo ipotizzato ker X = f0g, si trova z = 0, quindi il minimo si ottiene per a = ba + 0 = ba.

Se p + 1 = n e det X 6= 0, allora X stessa è (quadrata e) invertibile, e lo è anche X T , quindi

ba = X T X 1 X T y = X 1 X T 1 X T y = X 1 y:

Inoltre,

jy X baj 2 = y XX 1 y 2 = 0:

La dimostrazione è completa.

2

dati sperimentali (1; y 1 ), (2; y 2 ), tali che y 1 e y 2 sono numeri casuali N (0; 1).

Il modello corretto sarebbe

Y = "

E [ ba] = a

(ovvero, per componenti, E [ ba 1 ] = a 1 , ... , E [ ba p ] = a p , E h bb i

= b) e la matrice di covarianza di ba è

Q ba = h

X T X 1 X T i Q " h

X X T X 1 i :

In particolare, se Q " = 2 " Id, cioè se gli errori " i sono indipendenti tra loro e tutti di varianza 2 " , allora

Q ba = 2 " X T X 1 :

Proof. Abbiamo y = Xa + " dove ora X ed a sono dati, " è un vettore centrato di covarianza Q " . Siccome ba = X T X 1 X T y, vale

ba = X T X 1 X T Xa + X T X 1 X T "

= a + X T X 1 X T ":

3

Conosciamo le regole di trasformazione di media e covarianza per trasfor- mazioni lineari: E [ ba] = a e

Q ba = h

X T X 1 X T i Q " h

X T X 1 X T i T

= h

X T X 1 X T i Q " h

X X T X 1 i : Se Q " = 2 " Id, allora

Q ba = 2 "

h

X T X 1 X T i

Y = a ₁ X ₁ + ::: + a _p X _p + b + "

y _i = a ₁ x _i1 + ::: + a _p x _ip + b + " _i i = 1; :::; n (1) Matrice degli input, vettori dei parametri, degli output e dei residui:

x ₁₁ ::: x _1p 1 ::: ::: ::: :::

x _n1 ::: x _np 1 1

a _p b

@ y ₁ :::

y _n 1

" ₁ :::

" _n 1 A

Errore quadratico medio (come funzione dei parametri a 1 ; :::; a _p ; b)

" ² _i = 1

n j"j ² = 1

n jy Xa j ² : Vogliamo minimizzarlo.

Theorem 1 Supponiamo che ker X = f0g, ovvero det X ^T X 6= 0. Allora, il vettore ba che minimizza la funzione a 7 ! jy Xa j ² è

ba = X ^T X ¹ X ^T y:

Se p + 1 = n e det X 6= 0, allora il minimo è nullo e vale ba = X ¹ y.

Proof. Preliminarmente osserviamo che le condizioni ker X = f0g e det X ^T X 6=

è una matrice quadrata, quindi è non singolare, ovvero det X ^T X 6= 0. Il viceversa è simile, ripetendo al contrario i ragionamenti.

Si noti che siamo autorizzati a porre ba = X ^T X ¹ X ^T y perché X ^T X è invertibile, per ipotesi.

jy Xa j ² = jy X ( ba + z)j ² = j(y X ba) Xz j ²

= jy X baj ² + jXzj ² 2 hy X ba; Xzi : Ma

hy X ba; Xzi = X ^T y X ^T X ba; z = D

X ^T y X ^T X X ^T X ¹ X ^T y; z E

= X ^T y X ^T y; z = 0:

jy Xa j ² = c + jXzj ²

dove la costante c vale jy X baj ² . Il minimo si ottiene quando Xz = 0.

Se p + 1 = n e det X 6= 0, allora X stessa è (quadrata e) invertibile, e lo è anche X ^T , quindi

ba = X ^T X ¹ X ^T y = X ¹ X ^T ¹ X ^T y = X ¹ y:

jy X baj ² = y XX ¹ y ² = 0:

dati sperimentali (1; y 1 ), (2; y ₂ ), tali che y ₁ e y 2 sono numeri casuali N (0; 1).

(ovvero, per componenti, E [ ba ¹ ] = a ₁ , ... , E [ ba ^p ] = a _p , E h bb i

Q _ba = h

X ^T X ¹ X ^T i Q _" h

X X ^T X ¹ i :

In particolare, se Q " = ² _" Id, cioè se gli errori " i sono indipendenti tra loro e tutti di varianza ² _" , allora

Q _ba = ² _" X ^T X ¹ :

Proof. Abbiamo y = Xa + " dove ora X ed a sono dati, " è un vettore centrato di covarianza Q " . Siccome ba = X ^T X ¹ X ^T y, vale

ba = X ^T X ¹ X ^T Xa + X ^T X ¹ X ^T "

= a + X ^T X ¹ X ^T ":

Q _ba = h

X ^T X ¹ X ^T i Q _" h

X ^T X ¹ X ^T i T

X ^T X ¹ X ^T i Q _" h

X X ^T X ¹ i : Se Q " = ² _" Id, allora

Q _ba = ² _"

X ^T X ¹ X ^T i

X X ^T X ¹ i

= ² _" X ^T X ¹ : La dimostrazione è completa.

^E[ ^ba

^]

, dove però E [ ba ⁱ ] = a _i e a i = 0 sotto l’ipotesi nulla, quindi

= ^ba

ba ⁱ

= p ba ⁱ

(Q _ba ) _ii = ba ⁱ

(X ^T X) _ii ¹ :