Esaminiamo per primo il caso pi`u diffuso in applicazioni reali quando il rumore sulle osservazioni `e di tipo additivo gaussiano bianco.
Sia pertanto
y = f (x, β) + ε (3.1)
43
funzione, in generale non lineare, di alcuni parametri β e di alcuni ingressi x a cui viene sommato del rumore additivo, gaussiano, a media nulla e varianza σ. Per poter stimare in maniera robusta i parametri, il numero di campioni in ingresso x = {x1. . . xn} deve essere elevato, molto di pi`u dei parametri.
Si pu`o pensare che la funzione dei parametri non sia la stessa per tutti i campioni ma potrebbero essercene di differenti, osservando di fatto quantit`a differenti, funzione sempre dei medesimi parametri β. In tal caso l’equazione (3.1) pu`o venire generalizzata come
yi= fi(β) + εi (3.2)
avendo sottointeso con il pedice i sia il tipo di funzione sia l’i-esimo campione in ingresso (di fatto un parametro costante della funzione).
Si introduce il vettore r definito come
ri = yi− fi(β) (3.3)
contenete il residuo associato all’osservazione i-esima (o alla funzione i-esima). ri`e funzione di β tanto come fie ne condivide le derivate (a meno di un segno con questo formalismo).
Per ottenere uno stimatore a massima verosimiglianza, la quantit`a da minimizzare `e la negative log likelihood (sezione2.8) della funzione (3.1). Nel caso di rumore gaussiano la funzione di verosimiglianza si scrive infatti come
L(ri|β, σ) = 1 p2πσi2e−
r2i
2σ2i (3.4)
nel caso di osservazioni indipendenti. Applicando alla funzione di verosimiglianza la definizione di negative log likelihood si ottiene che nel caso di rumore gaussiano lo stimatore alla massima verosimiglianza `e il metodo dei minimi quadrati.
La regressione ai minimi quadrati `e una tecnica di ottimizzazione standard per sistemi sovradimensionati che individua i parametri β = (β1, . . . , βm) di una funzione f (x, β) : Rm7→ Rn che minimizzano un errore S calcolato come somma del quadrato (Sum Of Squared Error ) dei residui ri su un insieme di n osservazioni y1. . . yn:
S(β) = SSE(β) = r · r =
n
X
i=1
krik2=
n
X
i=1
kyi− fi(β)k2 (3.5)
S(β) `e definito come residual sum of squares o alternativamente come expected squared error.
S : Rm7→ R `e una funzione che viene analizzata, al variare dei parametri β ∈ Rm, per cercare il suo valor minimo β+= arg min
β
S(β) (3.6)
Per questa ragione viene chiamata funzione obiettivo o funzione costo. Un minimo ottenuto attraverso un procedimento come quello descritto dall’equazione (3.6) viene definito minimo globale.
Un minimo globale `e difficile, dal punto di vista prettamente computazionale, da individuare e normalmente si possono sfruttare tecniche per individuare solamente i minimi locali.
Sia pertanto S(β)1 differenziabile, ovvero f differenziabile. La condizione necessaria che β sia un minimo `e che, in quel punto dello spazio dei parametri, il gradiente di S(β) si annulli, ovvero
∂S(β)
∂βj = 2J>r = −2
n
X
i=1
ri
∂fi(β)
∂βj = 0 j = 1, . . . , m (3.7)
Condizione sufficiente che un punto stazionario (S0(β) = 0) sia un minimo `e che S00(β) (l’hessiana) sia definita positiva.
Chiaramente l’esistenza del minimo locale garantisce solo che esiste un intorno δ di β tale che la funzione S(β + δ) ≥ S(β).
Tutta la discussione affrontata fin ora ha come ipotesi che il rumore sia additivo ε con varianza costante tra tutti i campioni (homoscedasticity). Nel caso in cui il rumore di misura sia comunque gaussiano additivo a media nulla ma con varianza non costante, ogni singola osservazione yi `e una variabile aleatoria indipendente a cui `e associata la varianza σi2. Intuitivamente si capisce che la regressione ottima in questo caso dovr`a pesare di pi`u i campioni con varianza bassa mentre dovranno essere pesati meno i campioni con varianza elevata. Per ottenere questo risultato si fa uso di una normalizzazione, simile a quella mostrata in sezione2.4.1e diretta conseguenza della likelihood di equazione (3.4), e pertanto non si deve pi`u minimizzare la semplice somma dei residui al quadrato, ma piuttosto la somma pesata dei residui:
χ2=
n
X
i=1
krik2 σi
(3.8)
La funzione costo, ora somma di una variabile aleatoria di varianza unitaria al quadrato, diventa una distribuzione chi-quadro e per questo motivo viene indicata come χ2. Il minimo di questa funzione costo coincide con quello ottenuto in precedenza
1In letteratura la funzione S viene spesso codificata con un fattore 1/2 di scala per rendere il gradiente di S non viziato dal fattore 2 ed il segno concorde con f per semplificare la notazione.
dai minimi quadrati quando la varianza `e invece costante. La condizione (3.7) per ottenere il minimo si modifica anch’essa di conseguenza:
n
X
i=1
ri
σi
∂fi(β)
∂βj
= 0 j = 1, . . . , m (3.9)
Generalizzando ulteriormente questo concetto, quando sull’osservazione `e presente del rumore gaussiano con matrice di covarianza nota Σ, la Weighted Sum of Squared Error (WSSE ) si pu`o scrivere infine come
χ2= r>Σ−1r (3.10)
E da notare che questa formulazione della funzione di costo equivale a quella di equazione (3.5) dove per`` o, invece della distanza euclidea, viene usata la distanza di Mahalanobis (sezione2.4).
Qualunque Weighted Least Squares pu`o essere ricondotto a un problema non pesato Σ = I premoltiplicando i residui r (e di conseguenza le derivate) per una matrice L> tale che Σ−1 = LL>, usando per esempio una decomposizione di Cholesky nel caso in cui tale matrice non sia diagonale.
Tutti questi stimatori, che tengono conto della varianza dell’osservazione, coincidono con il negative log likelihood per la variabile y perturbata da rumore gaussiano di media zero e covarianza Σ.
3.1.1 Regressione lineare ai minimi quadrati
Quando f `e una funzione lineare rispetto ai parametri β si parla di regressione lineare ai minimi quadrati (Linear Least Squares o Ordinary Least Squares OLS ). Tale funzione pu`o essere rappresentata nella forma di sistema lineare
yi= xiβ + εi (3.11)
dove β sono i parametri sconosciuti da ricavare e εi`e rumore additivo gaussiano bianco a media nulla. I parametri β sono i coefficienti della regressione: permettono di misurare l’associazione tra la variabile x e la variabile y.
Ogni osservazione `e un vincolo e tutti i singoli vincoli possono essere raccolti in forma matriciale
y = Xβ + ε (3.12)
y ∈ Rn `e il vettore delle risposte (variabili dipendenti), la matrice X ∈ Rn×m che raccoglie le variabili indipendenti (explanatory variables) viene chiamata design matrix, e infine ε `e il vettore del rumore additivo a media nulla
E
[ε] = 0 e varianza Σ. Il vettore dei parametri β `e chiamato Linear Projection Coefficient o Linear Predictor. La variabile casuale y`
e pertanto formata da una parte deterministica e da una parte stocastica.
L’obiettivo `e quello di trovare l’iperpiano β in m dimensioni che meglio si adatta ai dati (y, X).
Il valore β che minimizza la funzione costo definita in equazione (3.5), limitatamente al caso di rumore sull’osservazione a valor medio nullo e varianza costante fra tutti i campioni, di fatto `e il miglior stimatore lineare che minimizza la varianza (Best Linear Unbiased Estimator BLUE ).
Definizione 11 Il Best Linear Unbiased Estimate (BLUE) di un parametro β basato su un set di dati Y `e 1. una funzione lineare di Y , in modo che lo stimatore possa essere scritto come ˆβ = AY ;
2. deve essere unbiased (
E
[AY ] = 0),3. fra tutti gli stimatori lineari possibili `e quello che produce la varianza minore.
Il teorema di Gauss-Markov dimostra che uno stimatore ai minimi quadrati `e la miglior scelta tra tutti gli stimatori a minima varianza BLUE quando la varianza sull’osservazione `e costante (homoscedastic).
La miglior stima ai minimi quadrati ˆβ che minimizza la somma dei residui `e la soluzione del problema lineare β = arg minˆ
b
kεk2= arg min
b
Xkyi− xibk2= (X>X)−1X>y (3.13)
Lo stesso risultato era gi`a pervenuto nella sezione1.1riguardante la pseudoinversa di una matrice: una decomposizione SVD della matrice X ritorna anche la soluzione migliore dal punto di vista della propagazione degli errori di calcolo.
La matrice P, definita come
P = X(X>X)−1X> (3.14)
`
e una matrice di proiezione (projection matrix ) che trasforma le uscite (response vector ) y nella loro stima ˆy (stima dell’osservazione senza rumore):
Pyi= xiβ = ˆˆ yi (3.15)
Grazie a questa propriet`a, P `e chiamata hat matrix .
Nel caso di rumore a varianza non costante tra i campioni osservati (heteroscedastic) la regressione a minimi quadrati pesata `e la scelta BLUE
wi= 1
σi (3.16)
con wi> 0 che tengono conto le varie incertezze legate ad ogni osservazione yi cos`ı che 1/wi sia la deviazione standard della misura i-esima. Inseriti i pesi wi in una matrice diagonale W si ottiene un nuovo sistema lineare dove ogni riga di fatto ha la medesima varianza di osservazione. La soluzione che minimizza ε, pu`o sempre essere espressa come
β = (WX)ˆ +Wy (3.17)
con W = Σ−1.
Generalizzando ulteriormente, nel caso di rumore con varianza non costante tra i campioni osservati e tra loro correlato, la miglior stima BLUE nel caso lineare deve tenere conto della covarianza del rumore Σ:
β = (Xˆ >Σ−1X)−1X>Σ−1y (3.18)
Tale estimatore `e chiamato Generalized Least Squares (GLS ).
3.1.2 Total Least Squares
Estendiamo ora il problema lineare Ax = b + δ al caso pi`u generale dove anche la matrice dei coefficienti ˜A = A + E `e perturbata (Errors-In-Variables model EIV ). Questo tipo di problema di regressione ai minimi quadrati `e chiamato Total Least squares (TLS).
La soluzione del sistema perturbato
(A + E)x = b + δ (3.19)
corrisponde a trovare la soluzione x che minimizzi la norma di Frobenius k(E δ)kF, soggetta al vincolo (3.19).
Il sistema (3.19) pu`o essere riscritto come
([A|b] + [E|δ]) x
−1
= 0 (3.20)
Sfruttando la decomposizione SVD e il teorema di Eckart-Young-Mirsky (la matrice formata dai primi n termini della decomposizione SVD `e la matrice che meglio approssima la matrice Z sotto la norma di Frobenius) `e possibile trovare la soluzione del problema (3.19). Sia pertanto
C := [A|b] = UΣV> (3.21)
la Decomposizione a Valori Singolari della matrice C, dove Σ = diag (σ1. . . σn+d). La soluzione Total Least squares, se esiste, si scrive come
Xˆtls= −V12V−122 (3.22)
avendo partizionato
V =V11 V12
V21 V22
Σ =Σ1 0 0 Σ2
(3.23) ed `e possibile ottenere la miglior stima di ˆC come
Cˆtls= C + ∆Ctls= U diag (Σ1, 0) V> (3.24)