• Non ci sono risultati.

Algoritmi di ottimizzazione

2.14 Funzione penalità

Dalla legge (2.4) discende immediatamente il problema di approssimazione con funzione di penalità [15]: 𝑚𝑚𝑐𝑐𝑎𝑎 min𝑨𝑨 𝜑𝜑(𝑐𝑐1) + 𝜑𝜑(𝑐𝑐2) + ⋯ + 𝜑𝜑(𝑐𝑐𝑚𝑚) , tale che 𝒓𝒓 = 𝑨𝑨𝑨𝑨 − 𝒃𝒃

Per definizione, la funzione di penalità 𝜑𝜑 basta che sia convessa. In realtà, nella stragrande maggioranza dei casi, è anche simmetrica, non negativa, e tale da annullarsi nell’origine.

All’atto pratico, per ogni 𝑨𝑨, si approssima il vettore 𝒃𝒃 con il prodotto 𝑨𝑨𝑨𝑨. L’eventuale discrepanza viene misurata dal vettore dei residui 𝒓𝒓. Qui interviene la funzione di penalità, che assegna ad ogni elemento di 𝒓𝒓 uno specifico costo. In fin dei conti, la funzione obbiettivo altro non è che la somma di quei costi.

La soluzione del problema si dimostra invariante a eventuali moltiplicazioni per fattori di scala della funzione di penalità. Ciò che conta realmente è l’andamento della funzione di penalità che determina la risultante distribuzione dei residui.

2.14.1 Possibili realizzazioni

Diversi studiosi hanno contribuito al dibattito sulla funzione penalità, con proposte più o meno originali. Una delle più scontate prevede una semplice norma – 𝑙𝑙𝑝𝑝 del residuo, ossia 𝜑𝜑(𝑐𝑐𝑠𝑠) = |𝑐𝑐𝑠𝑠|𝑝𝑝, dove 1 ≤ 𝑝𝑝 < ∞. Evidentemente, i risultati sono condizionati dal valore assunto da 𝑝𝑝. A tal proposito, due casi in particolare trovano ampio spazio in letteratura: 𝑝𝑝 = 1 e 𝑝𝑝 = 2. Curiosamente, l’adozione di tali funzioni penalità riduce il problema alla corrispondente norm approximation.

Un’altra proposta è la cosiddetta deadzone linear penalty function, il cui andamento risponde allo schema: 𝜑𝜑(𝑐𝑐) = � 0 se |𝑐𝑐| ≤ 𝑚𝑚 |𝑐𝑐| − 𝑚𝑚 altrimenti

Questa funzione non assegna alcun costo per i residui di ampiezza inferiore alla soglia 𝑚𝑚. Proprio per questo motivo, all’intervallo [−𝑚𝑚, +𝑚𝑚] si attribuisce il nome di zona morta.

Infine, l’ultima proposta qui considerata è la cosiddetta log barrier penalty function, con il vincolo 𝑚𝑚 > 0: 𝜑𝜑(𝑐𝑐) = �−𝑚𝑚2log(1 − (𝑐𝑐 𝑚𝑚⁄ )2) se |𝑐𝑐| < 𝑚𝑚

∞ altrimenti

Tale funzione, detta anche barriera logaritmica, attribuisce un costo infinito a qualsiasi residuo di ampiezza superiore alla soglia 𝑚𝑚.

2.14.2 Un banco di prova

Un esempio concreto può mettere in luce come le differenze non riguardino soltanto le formulazioni, quanto piuttosto i risultati che provocano.

Siano 𝑨𝑨 una matrice a coefficienti reali, di dimensioni 100 × 30, e 𝒃𝒃 un vettore a valori reali, di lunghezza pari a 100. Per ogni funzione di penalità presentata nel paragrafo precedente, si risolve il problema di approssimazione e si appronta un grafico che raffiguri la distribuzione delle ampiezze dei residui.

Per una maggiore chiarezza, ad ogni grafico viene sovrapposto l’andamento della corrispondente funzione di penalità. Dall’analisi comparata dei quattro grafici si deducono molte utili informazioni.

La norma – 𝑙𝑙1 è quella che assegna i pesi maggiori nello stretto intervallo dell’origine. Di contro, il suo andamento lineare fa sì che mano a mano che cresce l’ampiezza, i pesi si mantengono direttamente

proporzionali, ma inferiori a quanto previsto in altri casi. Per questo motivo , la stragrande maggioranza dei residui ha ampiezza nulla o comunque trascurabile, però ne rimangono alcuni di notevole ampiezza.

La norma – 𝑙𝑙2 penalizza di meno i residui più piccoli, ma attribuisce un pesante costo a quelli più ampi. La relazione in tal senso è quadratica. Di conseguenza, non ci sono altrettanti residui esattamente nulli, gli stessi occupano un intervallo più ampio di valori. D’altro canto, la distribuzione è più raccolta: si riducono i valori massimi assunti dai singoli residui.

La deadzone linear penalty function, tralascia i residui compresi nella zona morta, qui [−0.5, +0.5]. Al suo esterno, invece, i pesi seguono un andamento lineare crescente, ma sono comunque ridotti, se rapportati agli altri casi. Di conseguenza, le ampiezze dei residui si concentrano su due valori, gli estremi della zona morta.

Infine, la barriera logaritmica ricalca l’andamento della norma – 𝑙𝑙2 per quanto riguarda i residui più piccoli. Questo aspetto viene evidenziato dal grafico dove l’andamento quadratico viene rappresentato con una linea tratteggiata. Tolto quel breve tratto, i due andamenti si distinguono nettamente e la barriera logaritmica si presenta come la funzione più selettiva del novero. Nel particolare caso raffigurato, non sono ammessi residui di ampiezza superiore a 1. In termini matematici, a questi ultimi viene assegnato un peso illimitato. La distribuzione è una diretta conseguenza di queste osservazioni: nell’intervallo [−1, +1] ricalca quella della norma – 𝑙𝑙2.

Figura 2.1 Distribuzione delle ampiezze dei residui nei quattro casi considerati, per maggiore chiarezza in ogni grafico è

2.15 Outlier

Nell’ambito dei metodi di stima, il termine outlier designa una misura 𝑦𝑦𝑠𝑠 = 𝒂𝒂𝑠𝑠𝑇𝑇𝑨𝑨 + 𝑣𝑣𝑠𝑠, in cui la componente rumorosa 𝑣𝑣𝑠𝑠 è preponderante. Generalmente, si tratta di un errore nel sistema di acquisizione o di un dato il cui valore è stato corrotto in fase di memorizzazione.

Qualunque sia la causa scatenante, bisogna attuare delle contromosse, per evitare di inficiare i risultati dell’intera procedura. Infatti, anche se si presentano raramente, bastano pochi esemplari per modificare radicalmente le proprietà statistiche di un insieme di misure. In tal senso, il caso più eclatante è rappresentato dalla media.

Idealmente, bisognerebbe attribuire a tali “mele marce” un peso nullo così da scartarle nel computo dei risultati. Sfortunatamente l’attuazione di questo principio non è immediata. Infatti, non basta imporre peso nullo per tutti i residui maggiori di una certa soglia. In questo modo, si preferirebbero le soluzioni con i residui più ampi. In altri termini, ci si discosterebbe dalla stragrande maggioranza delle misure acquisite. L’adozione di un approccio diametralmente opposto, invece, si rivela una scelta vincente. In particolare, si appronta una funzione penalità che risponde al seguente schema [15]:

𝜑𝜑(𝑐𝑐) = � 𝑐𝑐2 se |𝑐𝑐| ≤ 𝑀𝑀

𝑀𝑀2 altrimenti

(2.5)

L’utente dispone anche di un grado di libertà: il parametro 𝑀𝑀 da tarare a seconda delle esigenze e dell’entità degli eventuali outlier. Nell’intervallo [−𝑀𝑀, +𝑀𝑀] l’andamento è quadratico e ricalca quello della norma – 𝑙𝑙2. All’esterno, invece, il peso è fissato e non dipende dall’effettiva ampiezza del residuo. In questo modo, tutti i valori superiori a 𝑀𝑀 sono notevolmente penalizzati, perché ritenuti outlier o comunque misure poco attendibili.

Sfortunatamente, la funzione (2.5) ha il difetto di non essere convessa. Quindi, neppure il problema di approssimazione associato è convesso, con tutte le complicazioni che ne derivano. Pertanto, conviene percorrere altre vie, che non si traducano in problemi combinatori impraticabili.

Evidentemente, la sensibilità di una funzione di penalità agli outlier dipende dal peso relativo attribuito ai residui più ampi. A tal proposito, limitandosi alle sole funzioni convesse, si definiscono robuste, ossia meno sensibili, quelle che impongono un peso che dipende secondo una relazione lineare dal valore assoluto del residuo. In particolare, se |𝑐𝑐| cresce, allora 𝜑𝜑(𝑐𝑐) cresce.

Una proposta autorevole in tal senso è la cosiddetta funzione di penalità di Huber, che segue lo schema: 𝜑𝜑ℎ𝑢𝑢𝑀𝑀(𝑐𝑐) = � 𝑐𝑐𝑀𝑀(2|𝑐𝑐| − 𝑀𝑀) altrimenti2 se |𝑐𝑐| ≤ 𝑀𝑀

Questa formulazione rappresenta l’approssimazione convessa più fedele della (2.5). Infatti, nell’intervallo [−𝑀𝑀, +𝑀𝑀] l’andamento è quadratico e coincide perfettamente. All’esterno attua una crescita lineare, quasi si trattasse di una norma – 𝑙𝑙1.