• Non ci sono risultati.

Dati sperimentali (di numerosità n) e residui:

N/A
N/A
Protected

Academic year: 2021

Condividi "Dati sperimentali (di numerosità n) e residui:"

Copied!
4
0
0

Testo completo

(1)

1 Precisazioni sulla regressione lineare mul- tipla

Modello teorico:

Y = a 1 X 1 + ::: + a p X p + b + "

Dati sperimentali (di numerosità n) e residui:

y i = a 1 x i1 + ::: + a p x ip + b + " i i = 1; :::; n (1) Matrice degli input, vettori dei parametri, degli output e dei residui:

X = 0

@

x 11 ::: x 1p 1 ::: ::: ::: :::

x n1 ::: x np 1 1

A ; a =

0 B B

@ a 1

:::

a p b

1 C C

A ; y =

0

@ y 1 :::

y n 1

A ; " = 0

@

" 1 :::

" n 1 A

Riscrittura vettoriale di (1):

y = Xa + "

Errore quadratico medio (come funzione dei parametri a 1 ; :::; a p ; b)

M SE = 1 n

X n i=1

" 2 i = 1

n j"j 2 = 1

n jy Xa j 2 : Vogliamo minimizzarlo.

Theorem 1 Supponiamo che ker X = f0g, ovvero det X T X 6= 0. Allora, il vettore ba che minimizza la funzione a 7 ! jy Xa j 2 è

ba = X T X 1 X T y:

Se p + 1 = n e det X 6= 0, allora il minimo è nullo e vale ba = X 1 y.

Proof. Preliminarmente osserviamo che le condizioni ker X = f0g e det X T X 6=

0 sono equivalenti. Se ker X = f0g allora, per ogni vettore v 6= 0 vale Xv 6= 0, quindi jXvj 2 6= 0, quindi X T Xv; v 6= 0. Ma allora X T Xv 6= 0 (altrimenti, se fosse X T Xv = 0, allora sarebbe anche X T Xv; v = 0). Abbiamo di- mostrato che v 6= 0 implica X T Xv 6= 0 quindi ker X T X = f0g. Ma X T X

1

(2)

è una matrice quadrata, quindi è non singolare, ovvero det X T X 6= 0. Il viceversa è simile, ripetendo al contrario i ragionamenti.

Si noti che siamo autorizzati a porre ba = X T X 1 X T y perché X T X è invertibile, per ipotesi.

Scriviamo il generico a nella forma a = ba + z. Vale

jy Xa j 2 = jy X ( ba + z)j 2 = j(y X ba) Xz j 2

= jy X baj 2 + jXzj 2 2 hy X ba; Xzi : Ma

hy X ba; Xzi = X T y X T X ba; z = D

X T y X T X X T X 1 X T y; z E

= X T y X T y; z = 0:

Quindi

jy Xa j 2 = c + jXzj 2

dove la costante c vale jy X baj 2 . Il minimo si ottiene quando Xz = 0.

Avendo ipotizzato ker X = f0g, si trova z = 0, quindi il minimo si ottiene per a = ba + 0 = ba.

Se p + 1 = n e det X 6= 0, allora X stessa è (quadrata e) invertibile, e lo è anche X T , quindi

ba = X T X 1 X T y = X 1 X T 1 X T y = X 1 y:

Inoltre,

jy X baj 2 = y XX 1 y 2 = 0:

La dimostrazione è completa.

Remark 2 Quando p + 1 = n e det X 6= 0, i residui relativi ai parametri ba sono nulli (il minimo di MSE è zero). Da ciò si deduce anche che la varianza spiegata R 2 è 1. Sembrerebbe quindi che un tale modello sia il migliore possi- bile. Invece per le usuali applicazioni non è così. Il suo potere previsivo può essere scarsissimo, così come la sua capacità di aver capito il problema, i dati.

Infatti, un tale modello si adatta perfettamente ai dati sperimentali seguendo al millimetro i suoi accidenti casuali, senza …ltrarli, senza riconoscere che al- cune variazioni sono rumore, non struttura da catturare. Si può capire bene questo pensando al caso di due variabili X; Y , di cui si conoscano solo due

2

(3)

dati sperimentali (1; y 1 ), (2; y 2 ), tali che y 1 e y 2 sono numeri casuali N (0; 1).

Il modello corretto sarebbe

Y = "

(cioè a = b = 0), mentre se obblighiamo il software a cercare un modello del tipo Y = aX + b + " (p = 1, p + 1 = 2), esso …tterà perfettamente i due dati trovando la retta che passa per i due punti (1; y 1 ), (2; y 2 ): residui nulli, ma modello dato da una retta senza senso, completamente sbagliata rispetto a Y = ", ed oltretutto fortemente dipendente dai valori casuali y 1 e y 2 . Quando p è troppo grande rispetto al numeri di dati a disposizione, si parla di over…tting.

Theorem 3 Supponiamo che gli input x ij (ovvero la matrice X) siano dati (come fossero parametri di progetto) e che gli output y i siano legati ad essi dalla relazione (1) relativamente a ben determinati parametri a 1 ; :::; a p ; b, e dove, a seconda dell’esperimento (sempre e¤ettuato relativamente agli stessi sets di input x i1 ; :::; x i;p ), gli errori " i siano v.a. aventi media nulla e matrice di covarianza Q " . Allora ba (che ora è visto come un vettore aleatorio, essendo aleatori gli " i ) è uno stimatore non distorto di a:

E [ ba] = a

(ovvero, per componenti, E [ ba 1 ] = a 1 , ... , E [ ba p ] = a p , E h bb i

= b) e la matrice di covarianza di ba è

Q ba = h

X T X 1 X T i Q " h

X X T X 1 i :

In particolare, se Q " = 2 " Id, cioè se gli errori " i sono indipendenti tra loro e tutti di varianza 2 " , allora

Q ba = 2 " X T X 1 :

Proof. Abbiamo y = Xa + " dove ora X ed a sono dati, " è un vettore centrato di covarianza Q " . Siccome ba = X T X 1 X T y, vale

ba = X T X 1 X T Xa + X T X 1 X T "

= a + X T X 1 X T ":

3

(4)

Conosciamo le regole di trasformazione di media e covarianza per trasfor- mazioni lineari: E [ ba] = a e

Q ba = h

X T X 1 X T i Q " h

X T X 1 X T i T

= h

X T X 1 X T i Q " h

X X T X 1 i : Se Q " = 2 " Id, allora

Q ba = 2 "

h

X T X 1 X T i

Id h

X X T X 1 i

= 2 " X T X 1 : La dimostrazione è completa.

Remark 4 Dalla formula Q ba = 2 " X T X 1 si vede che, in caso di allinea- menti tra fattori, i coe¢ cienti stimati dal modello sono molto instabili (da qui si originano fenomeni strani come quello di coe¢ cienti di segno opposto alla correlazione tra fattore e output). Infatti, a parità di ampiezza " del rumore, la variabilità dei coe¢ cienti ba, variabilità misurata dalla matrice di correlazione Q ba (si pensi ad es. che gli elementi sulla diagonale sono le var- ianze), è molto elevata se la matrice X T X è vicina ad essere singolare, cioè ha determinante vicino a zero (in tale caso det X T X 1 è molto alto e così sono alcune delle componenti di X T X 1 ). E la matrice X T X è vicina ad essere singolare quando ci sono allieneamenti.

Remark 5 Possiamo capire il p-value dei singoli fattori, col teorema prece- dente. Innanzi tutto, ricordiamo che il p-value è la probabilità che una deter- minata grandezza statistica sia più estrema del valore sperimentale, quando vale l’ipotesi nulla. Nel caso in questione, per i fattore X i , l’ipotesi nulla è a i = 0. La grandezza statistica scelta per mettere in discussione questa ipotesi è sostanzialmente ba i . Ma ba i risentirebbe ad esempio dell’unità di misura, per cui conviene standardizzarla (anche se oggi giorno si potrebbe adottare un metodo Monte Carlo per il calcolo del p-value). Conviene quindi considerare ba

i

E[ ba

i

]

bai

, dove però E [ ba i ] = a i e a i = 0 sotto l’ipotesi nulla, quindi

ba

i

E[ ba

i

]

bai

= ba

i

bai

. Usando poi il teorema precedente, nell’ipotesi più speci…ca su

", vale

ba i

ba

i

= p ba i

(Q ba ) ii = ba i

"

q

(X T X) ii 1 :

Questa è la grandezza statistica scelta, di cui si calcola la probabilità che superi il suo valore sperimentale.

4

Riferimenti

Documenti correlati

Calcolare la migliore stima e l’errore (attenzione al simbolo), scrivere il metodo

Nota: una cella contiene una stringa di caratteri Il Formato di una cella stabilisce come viene visualizzato il contenuto. A volte EXCEL assume un formato diverso da ciò

In EXCEL sono disponibili componenti aggiuntivi facoltativi (add-ins, add-on) che includono comandi e/o caratteristiche aggiuntive e. possono

E’ utile inserire commenti e istruzioni soprattutto se i fogli devono essere usati da altri.. Strumenti: Convalida dati. Consentono di controllare che i dati inseriti siano coerenti

Due ricercatori effettuano un esperimento sul moto rettilineo uniforme nelle medesime condizioni (velocità media, posizione iniziale, precisione delle misure) e ottengono i

Errori di tipo B: Stima della deviazione standard della distribuzione dei possibili risultati della misura.. Incertezze di

Nota: una cella contiene una stringa di caratteri Il Formato di una cella stabilisce come viene visualizzato il contenuto. A volte EXCEL assume un formato diverso da ciò

Due ricercatori effettuano un esperimento sul moto rettilineo uniforme nelle medesime condizioni (velocità media, posizione iniziale, precisione delle misure) e ottengono i