In questa sezione verranno esaminate alcune regressioni notevoli a modelli molto semplici, come rette piani e circonferenze.
3.4.1 Regressione a una retta
Sia
y = mx + q + ε (3.69)
l’equazione della retta scritta in forma esplicita con l’errore di misura totalmente inserito lungo l’asse delle y. Con l’errore lungo l’asse y la funzione costo da minimizzare `e
S = 1 2n
n
X
i=1
(mxi+ q − yi)2 (3.70)
La soluzione del problema `e il punto in cui il gradiente di S in m e q si annulla
∂S
∂m = 1n mP x2i + qP xi−P yixi = m ¯x2+ q ¯x −(xy) = 0¯
∂S
∂q = 1n(mP xi+ qn −P yi) = m¯x + q − ¯y = 0
(3.71)
ovvero:
m =
(xy) − ¯¯ x¯y
x¯2− ¯x2 =cov(x, y) var(x) q = −m¯x + ¯y
(3.72)
con ¯x il valor medio dei campioni xi (con lo stesso formalismo sono indicate anche le altre quantit`a). La retta passa per il punto (¯x, ¯y) centroide della distribuzione.
E facile modificare tale risultato nel caso in cui si voglia minimizzare lo scarto lungo le x invece che lungo le y, o` rappresentare l’equazione della retta in forma implicita.
3.4.2 Orthogonal Distance Fit
Nel caso in cui l’errore sia presente su entrambi gli assi (rumore funzione della distanza), la scrittura della funzione costo S che massimizza la verosimiglianza `e quella che viene chiamata Orthogonal least-squares line fit. L’errore pu`o essere espresso infatti usando la distanza tra il punto e la retta, secondo equazione (1.31). La regressione che usa questa metrica, pertanto detta Perpendicular Regression o Total least squares (si veda sezione 3.1.2), ha senso quando entrambe le coordinate sono affette da errore ovvero sono entrambe variabili aleatorie. L’ammontare del rumore sulle due componenti `e supposto uguale (per il caso pi`u generale si veda la discussione in sezione2.4). La funzione errore S da minimizzare `e la distanza tra il punto e la retta:
S = 1 2n
n
X
i=1
(axi+ byi+ c)2
a2+ b2 (3.73)
e il minimo si trova in ∇S = 0. `E da notare che nel caso di distanza perpendicolare esiste come soluzione sia un minimo che un massimo e pertanto esisteranno due valori di rette (ortogonali tra loro) entrambe soluzioni del sistema.
Dalla derivata parziale ∂S∂c = 0 si ricava che la retta di regressione passa per il centroide (¯x, ¯y) della distribuzione, ovvero
c = −a¯x − b¯y (3.74)
con ¯x e ¯y medie dei campioni xi e yi rispettivamente.
La funzione errore (3.73), usando la relazione (3.74), si pu`o scrivere come:
S = a2 x¯2− ¯x2 + 2ab (xy − ¯x¯y) + b2 y¯2− ¯y2
a2+ b2 (3.75)
ovvero, facendo sostituzioni adeguate Sxx= var(x), Syy = var(y) e Sxy = cov(x, y):
S = a2Sxx+ 2abSxy+ b2Syy
a2+ b2 (3.76)
pi`u facilmente derivabile. L’espressione (3.76) dell’errore non `e di carattere generale, ma vale solamente per tutte le rette che passano per il centroide della distribuzione. Essendo una forma omogenea `e conosciuta a meno di un fattore moltiplicativo:
non esiste pertanto una sola soluzione ma una relazione che lega i parametri. Escludendo i casi a = 0, b = 0 (da trattare a parte) il vincolo per ricavare il minimo/massimo ha la forma del tipo
(a2− b2)Sxy+ ab(Syy− Sxx) = 0 (3.77)
soluzione del problema.
E da notare infine che il medesimo risultato si ottiene in maniera molto pi`` u semplice applicando la decomposizione SVD sull’equazione delle rette. Nel caso di regressione lineare la decomposizione SVD minimizza sia l’errore algebrico che geometrico (l’errore algebrico e geometrico coincidono quando tutti i termini affetti da rumore rimangono limitati al termine noto).
3.4.3 Regressione ortogonale a un piano
Si possono estendere le considerazioni fatte sulla retta anche per il piano. Va sottolineato che le regressione ortogonali di una retta, di un piano, o di un iperpiano, sono da considerarsi come un problema di autovalori e risolvibile attraverso la decomposizione SVD (`e esattamente la principale applicazione della PCA).
Sia p0=
E
[p] il centroide dei punti coinvolti nella regressione. Data l’equazione del piano (1.46) e come funzione errore la sommatoria delle distanze (1.49) si ottiene immediatamente il vincolo:k = −p0· ˆn (3.78)
ovvero, come gi`a rilevato nel caso lineare, il centroide della distribuzione appartiene al piano. Partendo da questo primo vincolo, `e possibile descrivere il piano come
(p − p0) · ˆn = 0 (3.79)
sistema omogeneo sovradimensionato, la cui soluzione si pu`o ottenere con la pseudoinversa (ad esempio con la fattorizzazione QR o SVD). Il valore di ˆn cos`ı ricavato sar`a conosciuto a meno di un fattore moltiplicativo e per questo motivo si pu`o sempre normalizzare, forzandolo alla lunghezza unitaria (le soluzioni ottenute attraverso fattorizzazioni sono solitamente gi`a normalizzate).
3.4.4 Regressione lineare a funzione polinomiale
Il metodo applicato per ottenere la regressione lineare a una retta espressa in forma esplicita si pu`o generalizzare a una qualunque funzione polinomiale del tipo:
y = β0+ β1x + β2x2+ . . . + βmxm+ ε (3.80) dove β0. . . βm sono i parametri della curva da ricavare, parametri che si ottengono cercando il minimo della funzione errore descritta in (3.5). Le derivate di una funzione polinomiale sono notevoli:
∂S
∂βj =Pn
i=0(β0+ . . . + βmxmi − yi)xji
= β0P xji + . . . + βmP xj+mi −P yixji (3.81) Il porre il gradiente nullo significa risolvere pertanto il sistema associato:
P 1 . . . P xmi P xi . . . P xm+1i
... . .. ... P xmi . . . P x2mi
β0
... βm
=
P yi
P yixi
... P yixmi
(3.82)
che `e una matrice simmetrica.
Alternativamente `e possibile sfruttare la teoria della pseudoinversa (sezione 1.1) e usare direttamente l’equazione (3.80) per costruire un sistema lineare sovradimensionato:
1 x1 . . . xm1 1 x2 . . . xm2
... ...
1 xn . . . xmn
β0
... βm
=
y1
y2
... yn
(3.83)
matrice di Vandermonde. La soluzione di questo sistema permette di ottenere i coefficienti del polinomio che minimizza il quadrato dei residui. Se si pensa alla pseudoinversa risolta con il metodo delle normal equations si vede come il sistema risultante `e esattamente lo stesso di equazione (3.82).
Come si vedr`a in altre parti di questo libro, matrici come quella di Vandermonde, dove le diverse colonne hanno ordini di grandezza differenti, sono mal condizionate e richiedono una normalizzazione per migliorarne la stabilit`a numerica.
3.4.5 Regressione a una circonferenza
La regressione di una serie di punti all’equazione di una circonferenza (circular regression) si pu`o ottenere minimizzando sia una distanza algebrica che geometrica.
Se si vuole calcolare la regressione lineare di una serie di dati verso l’equazione della circonferenza di centro in (x0, y0) e raggio r la funzione da minimizzare `e
S =X
(xi− x0)2+ (yi− y0)2− r22
(3.84) dove si minimizza la distanza ortogonale tra i punti e il modello. Per risolvere il problema conviene eseguire un cambio di variabile e minimizzare la forma algebrica:
S =X
(zi+ Bxi+ Cyi+ D)2 (3.85)
dove `e stato introdotto zi= x2i+y2i per semplicit`a. Il problema si riduce alla soluzione di un sistema lineare 3×3 di equazione P zixi +BP x2i +CP yixi +DP xi = 0
P ziyi +BP xiyi +CP yi2 +DP yi = 0 P zi +BP xi +CP yi +DP 1 = 0
(3.86)
simmetrico, facilmente risolvibile. Ricavati i parametri B, C e D `e possibile ottenere i parametri originali del cerchio:
x0= −B
2 y0= −C
2 r2= x20+ y20− D (3.87)
Lo stesso risultato si pu`o ottenere usando i risolutori lineari visti in precedenza. Si consideri per esempio una rappresen-tazione algebrica di un cerchio
f (x) = ax>x + b>x + c = 0 (3.88)
dove x ´e il luogo dei punti della circonferenza.
Dato un elenco di punti che appartengono alla circonferenza affetti da rumore, i parametri (a, bx, by, c) che descrivono la circonferenza si ottengono dalla soluzione del sistema omogeneo di vincoli (3.88). Come si vedr`a in dettaglio in successivi problemi, per motivi puramente computazionali, risulta conveniente normalizzare i dati in ingresso, in quanto le diverse incognite sono associate a dati di magnitudine molto differenti.
La soluzione algebrica `e spesso usata come soluzione iniziale per tecniche iterative che minimizzano una metrica differente.
Per eseguire una regressione geometrica `e necessario minimizzare le distanze d2i = kxi− (x0, y0)>k − r2
. Per minimizzare questa quantit`a `e richiesto un risolutore non lineare ai minimi quadrati, ad esempio Levenberg-Marquardt, e il calcolo delle derivate della funzione costo.
Una alternativa `e infine parametrizzare il problema in un altro spazio diverso da quello cartesiano. Usando infatti la forma parametrica dell’equazione del cerchio
x = x0+ r cos ϕ
y = y0+ r sin ϕ (3.89)
le quantit`a da minimizzare diventano
xi− x0+ r cos ϕi ≈ 0
yi− y0+ r sin ϕi≈ 0 (3.90)
facilmente derivabili. Ad ogni dato in ingresso (xi, yi) viene associata una incognita aggiuntiva ϕi, variabile sussidiaria. In questo modo si crea un sistema non lineare in 3 + n incognite con 2n equazioni.
3.4.6 Regressione ad un ellisse
Come per il cerchio `e possibile eseguire sia una minimizzazione algebrica, che geometrica.
L’equazione quadratica di un ellisse `e
f (x) = x>Ax + b>x + c = 0 (3.91)
dove A `e una matrice simmetrica, definita positiva. Anche in questo caso la soluzione del problema omogeneo (3.91) permette di ricavare le 6 incognite (conosciute a meno di un fattore moltiplicativo) del sistema.
La soluzione non lineare che minimizza la quantit`a geometrica si pu`o ottenere usando la rappresentazione parametrica dell’ellisse
x =x0 y0
+cos α − sin α sin α cos α
a cos ϕ b sin ϕ
(3.92) dove (x0, y0) rappresenta il centro dell’ellissi, (a, b) la lunghezza dei due semiassi e α la rotazione dell’ellissi rispetto al centro.
Come per il cerchio, le ϕi saranno variabili sussidiarie e il problema non lineare diventa di 5 + n incognite con 2n equazioni.
3.4.7 Regressione ad un conica
E chiaramente possibile generalizzare la regressione della parabola, della circonferenza e dell’ellissi a una qualsiasi conica` (sezione1.6) arbitrariamente orientata.
Siano (xi, yi)>, con i = 1, . . . , n, punti affetti da rumore appartenenti al luogo dei punti da stimare.
L’equazione (1.53) pu`o essere riscritta nella forma
a>i β = 0 (3.93)
dove ai=x2i, xiyi, yi2, xi, yi, 1 e β = {a, b, c, d, e, f } da cui risulta evidente che per ottenere i parametri β di una qualsiasi conica si pu`o procedere con la soluzione di un problema omogeneo di tipo Aβ = 0 in 6 incognite, minimizzando una quantit`a del tipo
S =
n
X
i=1
a>i β (3.94)
Tale soluzione chiaramete minimizza un errore algebrico e non geometrico, pertanto questo non `e lo stimatore ottimo.
Una formulazione alternativa per ricavare i parametri delle coniche si pu`o trovare in [FPF99].
Infine, per capire se un punto `e vicino all’equazione di una conica ovvero per ottenere una approssimazione geometrica della distanza punto-conica, si pu`o calcolare l’errore di Sampson (sezione 3.2.7) sfruttando il fatto che, per una conica di equazione (1.53), il gradiente della variet`a assume una forma molto semplice da calcolare:
∇f (x, y) = (2ax + by + d, bx + 2cy + e) (3.95)
−4 −2 0 2 4 0.2
0.4 0.6 0.8
Figura 3.2: Funzione Logistica