La regressione locale, o "LOESS" (LOcal regrESSion), è un metodo regressivo non parametrico sviluppato da W. S. Cleveland nel 1979 che consiste nella stima dei parametri di più regressioni sulla stessa serie di dati in esame.
Più precisamente, data la variabile dipendente Y e quella indipendente X,
la regressione locale calcolata in un determinato punto x0 per le coppie di dati
(yi, xi)assume la seguente forma:
yi = m(xi) + i con xi ∈ x0± h e i = 1, . . . , t1 (2.8)
dove h > 0 simboleggia l’ampiezza di banda, mentre i ∼ IID(0, σ2) sono gli
errori del modello. La funzione m(·) è una funzione lineare o non lineare che rap-
presenta il valore atteso condizionato di Y rispetto a X, ovvero m(xi) = E(Y |X =
xi), e che verrà specificata solo in un secondo momento. A detta di ciò, occorre
notare che la regressione locale è un metodo di stima "non parametrico", proprio perché non si presuppone che la funzione m(·) appartenga ad una determinata classe di funzioni parametriche, ma si richiedono solo delle specifiche condizioni di regolarità su di essa.
Giunti a questo punto è opportuno sottolineare che la regressione locale con- sente di ottenere dei buoni risultati soprattutto nel caso in cui la serie storica in esame abbia un elevato numero di osservazioni. A tal proposito, «l’impostazione non parametrica della regressione è risultata particolarmente efficace sopratutto,
anche se certo non solamente, nel caso in cui si disponga di una considerevole massa di dati [. . . ] . Infatti in presenza di moltissimi dati abbiamo sempre abba- stanza evidenza empirica per "falsificare" qualunque modello parametrico [. . . ] . Il motivo di questo "fallimento" sta nel tentativo di riassumere tutta l’informazio- ne dei dati in un numero ristretto di parametri; questa difficoltà può essere gesti- ta con degli strumenti che offrono maggiore flessibilità»[33], come la regressione locale. Per questi motivi, ovvero data l’elevata numerosità delle osservazioni nelle serie storiche finanziarie e data l’incapacità delle metodologie parametriche di rappresentare tutta l’informazione contenuta nel fenomeno in esame, è sta- to deciso di avvalersi della regressione locale nello sviluppo del modello ibrido proposto in questo elaborato.
La formulazione più semplice della LOESS è la regressione locale lineare. Per ottenere questa particolare metodologia regressiva, l’equazione (2.8) può essere specificata nel seguente modo:
yi = ax0 + bx0xi+ i (2.9)
dove a e b sono i due parametri della regressione, i quali vengono stimati uti- lizzando il metodo dei minimi quadrati pesati illustrato nella formula (2.10).
min a,b t1 X i=1 {yi− ax0 − bx0xi} 2w i (2.10)
Nell’equazione (2.10) i pesi wi sono determinati secondo un’ottica locale attorno
a x0. In particolare, questi pesi sono ottenuti nel seguente modo:
wi = 1 hK xi− x0 h (2.11)
dove K è la funzione kernel, la quale è una funzione di densità simmetrica rispet-
to a x0, che decade abbastanza velocemente in modo tale da diminuire l’impatto
dei dati più distanti da x0. Alcuni esempi di funzioni kernel sono illustrate nella
Nucleo w(z) supporto Normale √1 2πexp(− 1 2z 2) R Rettangolare 12 (−1; 1) Epanechnikov 3 4(1 − z 2) (−1; 1) Biquadratico 1516(1 − z2)2 (−1; 1) Tricubico 7081(1 − |z|3)3 (−1; 1)
Tabella 2.1: Alcuni comuni tipi di funzioni kernel. Fonte: A. AZZALINI E B. SCARPA,
2004 [33]
Nel caso della regressione lineare locale, la condizione di regolarità preve-
de che se m(xi) = a(x0) + b(x0)xi è una funzione derivabile con derivata conti-
nua in x0 allora, secondo lo sviluppo in serie di Taylor, m(xi)è approssimabile
localmente con una retta passante per il punto (x0, m(x0)), ovvero:
m(xi) = m(x0) + m0(x0)(xi− x0) + i (2.12)
Un esempio della stima di una regressione lineare locale è riportato in figura 2.2, nella quale viene analizzata la relazione tra gli stipendi e l’età dei lavoratori. In particolare, dalla figura 2.2 si può notare che «[Tr. It] il valore della stima nel primo punto u è ottenuto utilizzando una retta passante per i dati avvalendosi del metodo dei minimi quadrati pesati, dove i pesi sono stati scelti in base all’altezza della funzione kernel [la linea tratteggiata in basso]. Ciò significa che i punti più vicini a u hanno una maggiore influenza rispetto a quelli più lontani da u. [. . . ] La stima nel punto differente v è stata ottenuta con la stessa metodologia di prima [. . . ]»[34].
A questo punto, occorre sottolineare che «[. . . ] [Tr. It] l’oggetto della regres- sione non parametrica non è la stima dei parametri, ma la stima della funzione
Figura 2.2: Regressione lineare locale stimata sui dati stipendio/anni. Fonte: M. P.
WAND EM. C. JONES, 1995 [34]
te che tale funzione m(·) sia una funzione continua e capace di generare un effetto "lisciante" sulla serie originale»[35]. Proprio per questa lisciatura generata dalla regressione locale sui dati, tale tecnica è anche chiamata "scatterplot smoothing". Un’estensione della regressione locale lineare è la regressione locale polino- miale, la quale rappresenta la tecnica regressiva utilizzata nel modello ibrido pro- posto in questo elaborato e la cui previsione viene quindi combinata con quelle ottenute dagli indicatori di analisi tecnica.
Nella regressione locale polinomiale si suppone che la funzione m(xi) pos-
sa essere approssimata localmente nel punto x0 con un polinomio di grado p,
ovvero: m(xi) = p X j=0 βj(xi− x0)j (2.13)
Sostituendo poi m(xi)(così come è appena stato definito) nell’equazione (2.8),
si ottiene la seguente regressione polinomiale locale.
yi = β0+ β1(xi− x0) + β2(xi− x0)2+ · · · + βp(xi− x0)p+ i (2.14)
le determinata nel punto x0, i quali vengono stimati con il metodo dei minimi
quadrati pesati illustrato nella formula (2.15).
min βj t1 X i=1 {yi− p X j=0 βj(xi− x0)j}2wi (2.15)
Occorre notare che nel caso in cui p = 1 si ottiene una regressione locale linea- re, mentre per valori elevati di p si può generare una sovraparametrizzazione del problema. Infatti, «[Tr. It] una regressione locale con un polinomio di grado ele- vato si adatta molto bene ai dati, tuttavia questo metodo non concorda con lo spi- rito della Loess/Lowess, le quali si basano sull’idea che qualsiasi funzione possa essere approssimata in un piccolo intervallo con un polinomio di grado limita- to e che modelli semplici si possono facilmente adattare ai dati. Un polinomio con un grado elevato tenderebbe a sovraparametrizzare i dati e ad essere nume- ricamente instabile, rendendo quasi sempre impossibile ottenere delle previsioni precise»[35].
In una regressione locale polinomiale occorre inoltre scegliere l’ampiezza di banda h > 0, la quale rappresenta il parametro di lisciamento. Più precisamente, nel caso delle serie storiche, per valori piccoli di h la regressione si adatta bene ai dati. Tuttavia, in questo caso può capitare che da un lato il modello riesca a cogliere bene il DGP sottostante, mentre dall’altro inizi a catturare anche il "ru- more" presente nella serie originale dei dati. Quando h assume invece un valore elevato, la curva regressiva che si ottiene sarà più liscia generando tuttavia un modello con una distorsione elevata e che può sotto-parametrizzare il fenomeno in esame.
Si può quindi affermare che un vantaggio della regressione locale è sicura- mente quello di non dover specificare la funzione m(·) che rappresenta la rela- zione che lega le variabili su cui viene stimato il modello. Tuttavia, il principale svantaggio è quello di dover scegliere il grado del polinomio p e il parametro di lisciamento h. Ciò nonostante, occorre notare che «[. . . ] [Tr. It] la flessibilità di
questa tecnica la rende molto appropriata per modellare processi complessi per i quali non esistono modelli teorici. La sua semplicità rende questa metodologia molto popolare nell’era dei modelli regressivi [. . . ] »[35].
Un altro svantaggio della LOESS è quello di risentire molto dei dati estremi. Per questo Cleveland sviluppò la LOWESS (LOcally WEighted Scatterplot Smoo- thing), la quale consente di rendere robusta la tecnica della regressione locale. Per ottenere tale risultato occorre «[Tr. It] calcolare la regressione locale polinomiale di grado p ed ottenere quindi i relativi valori stimati. Assegnare ai residui della regressione un peso: residui elevati (ridotti) riceveranno un peso piccolo (gran- de). Successivamente occorre ricalcolare la regressione locale polinomiale ma attribuendo ora a ciascuna osservazione un nuovo peso, il quale non è altro che il prodotto del peso iniziale moltiplicato per il peso assegnato al relativo residuo. In questo modo, le osservazioni con residui elevati sono sottopesate nella secon- da iterazione. Tale procedura viene ripetuta successivamente per un determinato numero di volte»[36].
Si può quindi riassumere l’algoritmo per il calcolo della LOWESS nel seguente modo:
1. Stimare la regressione locale polinomiale di grado p dell’equazione (2.14),
i cui coefficienti sono ottenuti dalla (2.15). I pesi wi della (2.15) vengono
calcolati come illustrato nell’equazione (2.11);
2. Calcolare i pesi della LOWESS nel seguente modo:
δi = B
|yi − ˆyi|
6M
con i = 1, . . . , t1 (2.16)
dove B è il kernel Biquadratico, ri = |yi − ˆyi| sono i residui dell’i-esima
3. Per ogni punto xi in cui viene stimata la regressione locale polinomiale,
viene calcolato un nuovo valore ˆyicon peso pari a:
zi = δiwi (2.17)
Alla successiva iterazione, gli zisostituiscono i pesi wi del punto 1;
4. I punti 2 e 3 dell’algoritmo vengono ripetuti per N volte o fino a quando gli
zi non subiscono più modifiche rilevanti.
Per quanto concerne il numero di iterazioni di questa procedura, Cleveland sostiene che «[Tr. It] sperimentazioni su un numero elevato di data set reali ed artificiali indicano che due iterazioni dovrebbero essere sufficienti in quasi tutte le situazioni»[37].
È opportuno però sottolineare che, nonostante questa procedura consenta di ridurre l’influenza di dati anomali nella stima della regressione locale polinomia- le, «[. . . ] [Tr. It] se esistono troppi valori estremi, anche questa versione robusta fallisce nel produrre i risultati desiderati»[35].