• Non ci sono risultati.

Capitolo 2 Dagli ARMA ai modelli ARCH e GARCH

2.2 I modelli MA

La classe dei modelli ARMA comprende sia i processi AR che i processi MA: applicando

il lag operator a π‘Œπ‘‘ otteniamo un modello AR, se lo applichiamo al White Noise otteniamo un MA.

Un processo MA(q), dove q rappresenta l’ordine del Moving Average, possiamo definirlo come una sorta di media mobile degli πœ€π‘‘:

𝑀𝐴 (π‘ž): π‘Œπ‘‘ = πœƒ ( 𝐿 )πœ€π‘‘= πœ€π‘‘+ πœƒ1πœ€π‘‘βˆ’1πœƒ2πœ€π‘‘βˆ’2… πœƒπ‘žπœ€π‘‘βˆ’π‘ž

Essendo πœ€π‘‘ ∼ 𝑁( 0, 𝜎2), possiamo notare come il processo sia a media 0, infatti:

𝐸[ π‘Œπ‘‘ ] = 𝐸 [ βˆ‘ πœƒπ‘– π‘ž 𝑖=0 πœ€π‘‘βˆ’π‘– ] = βˆ‘ πœƒπ‘– π‘ž 𝑖=0 𝐸(πœ€π‘‘βˆ’π‘–) = 0

Inoltre, considerando che il momento primo Γ¨ pari a 0, la varianza corrisponde al

45 𝛢(0) = π‘‰π‘Žπ‘Ÿ ( π‘Œπ‘‘ ) = 𝐸 ( π‘Œπ‘‘2 ) = 𝐸 [ ( βˆ‘ πœƒπ‘– π‘ž 𝑖=0 πœ€π‘‘βˆ’π‘– ) 2 ] = βˆ‘ πœƒπ‘–2 π‘ž 𝑖=0 πœ€π‘‘βˆ’π‘–2 + βˆ‘ βˆ‘ πœƒπ‘–πœƒπ‘—πœ€π‘‘βˆ’π‘–πœ€π‘‘βˆ’π‘— 𝑗≠𝑖 π‘ž 𝑖=0

Dalla proprietΓ  del White Noise, il valore atteso della seconda sommatoria Γ¨ 0, per cui:

𝐸 ( π‘Œπ‘‘2 ) = 𝐸 [βˆ‘ πœƒπ‘–2 π‘ž 𝑖=0 πœ€π‘‘βˆ’π‘–2 ] = βˆ‘ πœƒπ‘–2 π‘ž 𝑖=0 𝐸( πœ€π‘‘βˆ’π‘–2 ) = βˆ‘ πœƒπ‘–2 π‘ž 𝑖=0 𝜎2 = 𝜎2 βˆ‘ πœƒπ‘–2 π‘ž 𝑖=0

Per quanto riguarda l’autocovarianza, invece:

𝛢(π‘˜) = 𝐸(π‘Œπ‘‘π‘Œπ‘‘βˆ’π‘˜) = 𝐸 [ (βˆ‘ πœƒπ‘– π‘ž 𝑖=0 πœ€π‘‘βˆ’π‘–) (βˆ‘ πœƒπ‘— π‘ž 𝑗=0 πœ€π‘‘βˆ’π‘—+π‘˜) ]

Dal momento che, per le proprietΓ  del White Noise, 𝐸( πœ€π‘‘βˆ’π‘–πœ€π‘‘βˆ’π‘—+π‘˜ ) = 𝜎2 per 𝑗 = 𝑖 + π‘˜ mentre Γ¨ 0 negli altri casi, l’espressione dell’autocovarianza diventa:

𝛢(π‘˜) = 𝐸(π‘Œπ‘‘π‘Œπ‘‘βˆ’π‘˜) = 𝜎2 βˆ‘ πœƒ 𝑗 π‘žβˆ’π‘˜ 𝑗=0 πœƒπ‘—+π‘˜ βˆ€k ≀ q = 0 βˆ€k > q

Per quanto riguarda l’autocorrelazione:

𝜌(π‘˜) = βˆ‘ πœƒπ‘—

π‘žβˆ’π‘˜

𝑗=0 πœƒπ‘—+π‘˜

1 + βˆ‘π‘žπ‘—=1πœƒπ‘—2 βˆ€k ≀ q = 0 βˆ€k > q

Nei processi MA(q) abbiamo delle formule chiuse, ovvero conoscendo i vari ΞΈ possiamo calcolare direttamente le autocorrelazioni, autocovarianze ecc…

46

Un fatto di notevole rilevanza Γ¨ che si puΓ² rappresentare qualsiasi processo con q

correlazioni diverse da 0 con un processo MA(q) e questo sta a significare che tali processi

sono molto generali e possiamo rappresentare un processo molto ampio di processi

stazionari30.

Quello che c’è da prendere in considerazione Γ¨ che qualsiasi processo stazionario q- correlato ha una rappresentazione MA(q), ma tale rappresentazione non Γ¨ unica: in realtΓ 

ve ne sono 2π‘ž possibili rappresentazioni. Tuttavia, Γ¨ possibile identificare il concetto di invertibilitΓ  che ci consente di ottenere un solo modello MA(q) (c’è infatti da considerare che, sebbene un processo MA(q) sia un processo sempre stazionario, non sempre risulta

invertibile).

Per andare a verificare tale proprietΓ  prendiamo come riferimento un MA(1).

Figura 2.2

Processo MA(1) con differenti ΞΈ. Fonte: elaborazione personale

30 Il teorema di Wold afferma, infatti, che qualsiasi processo a media 0 e stazionario in covarianza puΓ²

essere rappresentato attraverso una parte deterministica (e quindi prevedibile, π‘˜π‘—) e una stocastica (non prevedibile, βˆ‘βˆžπ‘—=0πœƒπ‘—πœ€π‘‘βˆ’π‘— ):

π‘Œπ‘‘= βˆ‘ πœƒπ‘—πœ€π‘‘βˆ’π‘— ∞ 𝑗=0

47

Innanzitutto, c’è da notare dalla tabella riportata in figura 2.2 come, all’aumentare dei ΞΈ, la varianza aumenti.

In un processo MA (1) la funzione di autocorrelazione sarΓ  data dalla seguente formula:

𝜌(1) =𝛢(1) 𝛢(0)=

πœƒ 1 + πœƒ2

Figura 2.3:

Autocorrelazione di un MA(1). Fonte: elaborazione personale

Come accennato in precedenza, qualsiasi processo avente q correlazioni diverse da 0 puΓ²

essere rappresentato con 2π‘ž processi MA(q); quindi, nel caso preso in esame, ci saranno 21 processi che ci danno la stessa autocorrelazione.

Come è possibile notare dalla figura 2.3, ad esempio per 𝜌 = 0.4 vi sono due possibili θ

che ci danno la stessa autocorrelazione: πœƒ = 0.5 e πœƒ = 2.

Tra tutti i possibili MA bisogna scegliere quello che risulta invertibile; possiamo scrivere

il processo MA (1) utilizzando il lag operator:

48

Possiamo portare il lag polinomial a sinistra ottenendo un AR (∞):

π‘Œπ‘‘( 1 + πœƒπΏ )βˆ’1= πœ€π‘‘ Dove:

( 1 + πœƒπΏ )βˆ’1= ( 1 βˆ’ πœƒπΏ + πœƒ2𝐿2 βˆ’ πœƒ3𝐿3… ) = βˆ‘(βˆ’πœƒπΏ)𝑖 ∞

𝑖=0

Quello che si puΓ² notare Γ¨ che si avrΓ  un polinomio di ordine infinito applicato a π‘Œπ‘‘. Questo modello di ordine infinito dipende dai valori passati di π‘Œπ‘‘ ed Γ¨ quindi un modello

autoregressivo e per essere convergente (non esplodere) | πœƒ | < 1.

Infatti, prendendo sempre potenze piΓΉ grandi, se πœƒ fosse maggiore di 1 allora la serie non

convergerebbe. Visto che abbiamo preso in considerazione MA(1), in questo caso basta

escludere πœƒ = 2.

La condizione di invertibilitΓ  Γ¨ molto importante per il MA in quanto consente di ricavare

gli πœ€π‘‘ che, a differenza di π‘Œπ‘‘ , non sono osservati.

Prendendo come riferimento πœƒ = 0.4, possiamo andare a costruire un MA(1),

rappresentandolo nella figura 2.4.

Figura 2.4

49

Come possiamo notare, l’autocorrelazione risulta nulla per ritardi superiori a 1; se avessimo preso in considerazione un MA(2), invece, avremmo avuto autocorrelazione

nulla per ritardi superiori a 2 e così via.

2.3 I modelli AR

Un’altra classe di modelli che Γ¨ possibile costruire con il lag operator Γ¨ quella dei modelli AR (Autoregressivi).

Questi processi rappresentano la variabile π‘Œπ‘‘ come funzione lineare dei propri valori passati piΓΉ il White Noise e quindi introducono una dipendenza temporale nella dinamica

della variabile: quello che succederΓ  domani dipende dal quello che Γ¨ successo oggi piΓΉ

un certo errore.

Il modello AR somiglia molto a un modello di regressione in cui i regressori (variabili

esplicative) non sono altro che i valori passati della variabile dipendente:

𝐴𝑅(𝑝) β†’ π‘Œπ‘‘ = πœ™1π‘Œπ‘‘βˆ’1+ πœ™2π‘Œπ‘‘βˆ’2+ β‹― πœ™π‘π‘Œπ‘‘βˆ’π‘+ πœ€π‘‘

A differenza dei processi MA, nei processi AR quello che bisogna verificare Γ¨ la

stazionarietΓ .

Prendendo in esame un modello AR(1), possiamo fare esattamente come abbiamo fatto

nel caso del MA invertendo il lag polinomial e trasformando l’AR(1) in un MA ( ∞ ):

𝐴𝑅(1) β†’ (1 βˆ’ πœ™πΏ)π‘Œπ‘‘ = πœ€π‘‘ 𝑀𝐴(∞) β†’ π‘Œπ‘‘ = (1 βˆ’ πœ™πΏ)βˆ’1πœ€π‘‘ = βˆ‘(πœ™πΏ)𝑖 ∞ 𝑖=0 πœ€π‘‘= βˆ‘ πœ™π‘– ∞ 𝑖=0 πœ€π‘‘βˆ’1

Conviene molto ricorrere a questa rappresentazione di un AR(1) come MA(∞) in quanto

si hanno formule chiuse per i calcoli di media, varianza, covarianza e autocorrelazione:

in questo modo, infatti, vediamo che Γ¨ un processo a media 0 con autocovarianza pari a:

𝛢(π‘˜) = 𝐸[(π‘Œπ‘‘βˆ’ 𝐸(π‘Œπ‘‘)][π‘Œπ‘‘βˆ’π‘˜βˆ’ 𝐸(π‘Œπ‘‘βˆ’π‘˜)] = 𝐸(π‘Œπ‘‘π‘Œπ‘‘βˆ’π‘˜) = πœ™π‘˜

𝜎2 1 βˆ’ πœ™2

50

La varianza, invece, risulta pari a:

𝛢(0) = 𝐸[(π‘Œπ‘‘βˆ’ 𝐸(π‘Œπ‘‘)][π‘Œπ‘‘βˆ’ 𝐸(π‘Œπ‘‘)] = 𝐸(π‘Œπ‘‘π‘Œπ‘‘) =

𝜎2 1 βˆ’ πœ™2

La funzione di autocorrelazione:

𝜌(π‘˜) = πœ™|π‘˜| βˆ€k

Quindi l’autocorrelazione di un AR(1) al lag 1 sarΓ  πœ™1, al lag 2 sarΓ  πœ™2; tutto ciΓ² sta a

significare che i processi AR hanno una memoria esponenziale.

La stazionarietΓ  del modello AR(1) Γ¨ verificata per |πœ™| < 1; nel caso di |πœ™| = 1, invece,

si ha la presenza di una radice unitaria che lo rende non stazionario.

In generale, in un processo AR(p), la presenza di una radice unitaria puΓ² essere verificata

controllando se la somma dei coefficienti Ο• Γ¨ uguale a 1; se la somma Γ¨ superiore a 1,

invece, il polinomio non Γ¨ invertibile.

Il fatto che il processo sia invertibile Γ¨ importante per diversi motivi: per i modelli MA, l’invertibilitΓ  del lag polinomial Γ¨ importante sia per la stima che per la previsione. Per i modelli AR, invece, il polinomio risulta invertibile solo se il processo Γ¨ stazionario.

Per essere stazionario un processo deve avere, come giΓ  accennato, varianze e

autocovarianze finite. I processi MA sono sempre stazionari, in quanto non sono altro che

una somma ponderata di processi White Noise stazionari.

Dai grafici successivi possiamo notare un esempio di AR(1) stazionario e uno non

stazionario.

In particolar modo, dalla funzione di autocorrelazione della figura 2.5 si puΓ² notare come,

nei processi autoregressivi, l’autocorrelazione sia di minore utilitΓ  per individuare l’ordine del processo.

Quello che ci Γ¨ piΓΉ utile in questa tipologia di modelli, al fine di individuarne l’ordine, Γ¨ la partial correlation che ci dice la correlazione diretta tra π‘Œπ‘‘ e π‘Œπ‘‘βˆ’π‘˜ e, quindi, senza passare per i valori intermedi. In sintesi, l’autocorrelazione dΓ  informazioni sulla

51

correlazione totale, quella parziale ci dΓ  solo quella diretta non tenendo conto degli effetti

intermedi.

Figura 2.5

AR(1) con Ο•=0.7. Fonte: elaborazione personale.

La figura 2.6, invece, prende come riferimento πœ™ = 1; si puΓ² facilmente notare dal grafico

come il processo non sia stazionario. Dalla funzione di autocorrelazione possiamo infatti

osservare come il processo abbia una memoria pressochΓ© infinita: Γ¨ un random walk31.

31 Il Random Walk Γ¨ un processo non stazionario in cui la varianza non condizionale di π‘Œ

𝑑 Γ¨ infinita. Il suo valore atteso non Γ¨ altro che la sua posizione iniziale e, quindi, la migliore previsione che possiamo fare del prezzo di un titolo all’istante successivo non Γ¨ altro che il prezzo precedente. Secondo tale teoria i prezzi non seguono nessun trend e i movimenti dei prezzi passati non possono essere usati per effettuare previsioni future. Sono stati effettuati numerosi studi e ricerche tra cui quelle di William Sharpe e Eugene Fama che evidenziano come la storia dei prezzi di un titolo non costituiscano un buon indicatore per i suoi prezzi futuri (il movimento dei prezzi sarebbe, quindi, imprevedibile).

52

Figura 2.6

Modello AR con Ο•=1. Fonte: elaborazione personale.

2.4 ARMA

Dalla partial autocorrelation e dalla autocorrelation siamo in grado in linea generale di farci un’idea del modello da utilizzare: un AR(p) o un MA(q).

Tuttavia, puΓ² capitare che sia utile combinare il modello Autoregressivo con il modello

Moving Average per avere piΓΉ flessibilitΓ  ottenendo un modello ARMA(p,q).

πœ™(𝐿)π‘Œπ‘‘= πœƒ(𝐿)πœ€π‘‘

Ad esempio, se i dati sono molto persistenti e calcolando la partial autocorrelation

notiamo che ha 15 lag diversi da 0, dovremmo utilizzare un AR(15) e stimare 15

parametri, ma ognuno di questi avrΓ  un errore di stima.

Una cosa piΓΉ semplice Γ¨ quindi utilizzare solo due parametri πœƒ e πœ™ attraverso il modello

53

Essendo una combinazione tra AR e MA, il modello ARMA avrΓ  due decadimenti esponenziali (figura 2.7) uno per l’autocorrelation e uno per la partial autocorrelation in quanto puΓ² essere scritto sia come un AR(∞) che un MA(∞).

Nella 2.7 abbiamo il caso di un modello molto semplice come l’ARMA(1,1), che nonostante la semplicitΓ , risulta molto efficace poichΓ©, avendo anche meno parametri da

stimare, ha anche meno errori di stima da portare avanti.

Figura 2.7

Modello ARMA(1,1) con Ο• = 0.7 e ΞΈ = 0.6

Infatti, utilizzando il lag polynomial possiamo scrivere l’ARMA(1,1) come:

(1 βˆ’ πœ™πΏ)π‘Œπ‘‘ = (1 + πœƒπΏ)πœ€π‘‘

Che si puΓ² riscrivere come un AR(∞), una volta verificate le condizioni di stazionarietΓ : (1 + πœƒπΏ)βˆ’1(1 βˆ’ πœ™πΏ)π‘Œ

𝑑= πœ€π‘‘

54

(1 + πœ™πΏ)βˆ’1(1 βˆ’ πœƒπΏ)πœ€π‘‘= π‘Œπ‘‘

2.5 ARIMA e ARFIMA

Nel paragrafo 2.2 si Γ¨ fatto riferimento alle condizioni di invertibilitΓ  del MA(1),

constatando che il polinomio di ritardo del primo ordine (1 βˆ’ πœƒπΏ) era invertibile per |πœƒ| <

1. C’è inoltre da considerare che, le condizioni che garantiscono l’invertibilitΓ  di un

MA(1), sono le stesse che garantiscono la stazionarietΓ  di un AR(1).

Considerando un polinomio di secondo ordine 1 βˆ’ πœƒ1𝐿 βˆ’ πœƒ2𝐿2, in generale esistono due

valori 𝛼1, 𝛼2 per cui possiamo riscriverlo come:

1 βˆ’ πœƒ1𝐿 βˆ’ πœƒ2𝐿2 = (1 βˆ’ 𝛼

1𝐿)(1 βˆ’ 𝛼2𝐿)

CiΓ² che rende invertibile il polinomio di secondo ordine, sono |𝛼1| < 1 e |𝛼2| < 1 ovvero

le condizioni che rendono i polinomi di primo ordine (1 βˆ’ 𝛼1𝐿) e (1 βˆ’ 𝛼2𝐿) invertibili. Possiamo inoltre verificare le condizioni di invertibilitΓ  attraverso quella che viene definita l’equazione caratteristica:

(1 βˆ’ 𝛼1𝑧)(1 βˆ’ 𝛼2𝑧) = 0

Tale equazione ammette due soluzioni 𝑧1 e 𝑧2 che sono chiamate radici caratteristiche.

I requisiti |𝛼1| < 1, |𝛼2| < 1 corrispondono a |𝑧1| > 1, |𝑧2| > 1. Se anche soltanto una delle radici caratteristiche |𝑧𝑖| Γ¨ ≀ 1, il polinomio non Γ¨ invertibile. Se una delle soluzioni verifica l’uguaglianza, si Γ¨ in presenza di una radice unitaria.

Tuttavia, si puΓ² verificare la presenza o meno di una radice unitaria facendo riferimento

alla somma dei coefficienti del polinomio (πœƒ): se βˆ‘π‘π‘—=1πœƒπ‘— = 1, allora siamo in presenza di una radice unitaria.

Abbiamo visto nel caso dell’AR(1) che la presenza di una radice unitaria rende il modello non stazionario (fig. 2.6).

55

Infatti, per essere stazionario un processo deve avere varianze e autocovarianze finite e

indipendenti nel tempo, mentre nel caso del random walk la varianza unconditional Γ¨

infinita.

Nei casi in cui vi Γ¨ la presenza di una radice unitaria, e quindi non solo nel modello AR

ma in qualsiasi altro processo facente parte degli ARMA (tranne ovviamente il MA che

Γ¨ stazionario per definizione essendo una media ponderata di processi White Noise), Γ¨ possibile rendere un processo stazionario con l’operatore differenza prima (π‘Œπ‘‘βˆ’ π‘Œπ‘‘βˆ’1). Se, una volta applicato tale operatore, la serie risulta stazionaria, il modello viene

chiamato ARIMA (Autoregressive Integrated Moving Average) con parametri (p,1,q)

dove 1 sta a significare integrato di ordine 1. Se un processo Γ¨ integrato di ordine 1, allora

vuol dire che deve essere differenziato una volta perchΓ© risulti stazionario.

La differenza tra una serie stazionaria I(0) e una serie stazionaria in differenza prima I(1),

Γ¨ che la serie I(0) avrΓ  una tendenza a convergere verso la media (il processo della mean

reversion che si era accennato nell’introduzione di questo capitolo), mentre la serie I(1) avrΓ  ampie oscillazioni. Una serie I(0), infatti, ha una varianza finita e una memoria

limitata degli shock passati, mentre la serie I(1) ha una memoria infinita.

Ovviamente tale fatto, come Γ¨ giΓ  stato detto, puΓ² essere verificato dalla funzione di

autocorrelazione poichΓ©, nel caso della serie I(0) l’autocorrelazione diminuisce molto

rapidamente al crescere del ritardo mentre nella serie I(1) avrΓ  un decadimento molto

lento.

In generale, un processo ARIMA(p,d,q) sta a significare che il processo Γ¨ integrato di

ordine d. Se 0 < d < 1 allora l’ordine di differenziazione Γ¨ un numero frazionato e si Γ¨ a

metΓ  tra una serie stazionaria e una non del tutto stazionaria e prende il nome di

56

2.6 Procedura Box-Jenkins

In linea generale non esistono ragioni economiche per privilegiare un modello rispetto ad

un altro, ma spesso sono i dati stessi che determinano il modello piΓΉ appropriato.

Tuttavia, non risulta molto semplice scegliere un modello prendendo in considerazione

soltanto la funzione di autocorrelazione e la correlazione parziale.

Quello che si utilizza solitamente Γ¨ la procedura di Box e Jenkins che consente, a partire dall’osservazione dei dati, di trovare il modello ARMA piΓΉ appropriato.

La procedura si articola in tre step step:

- Identification: si controlla che i dati siano stazionari e, se non lo sono, si rendono

stazionari con le differenze prime. Fatto ciΓ², si calcolano le funzioni di

autocorrelazione e di correlazioni parziale per avere un’idea dell’ordine del

modello.

- Estimation: si stimano i parametri con il Maximum Likelihood o con il metodo

OLS (Ordinary Least Square)32.

- Diagnostic Checking: si cerca di capire se il modello Γ¨ appropriato o meno ai dati

attraverso delle misure di fit di bontΓ  della stima. Queste misure dipendono dalla

varianza dei residui del modello rispetto ai dati che abbiamo a disposizione;

inoltre si aggiunge una penalizzazione per il numero di parametri che si usa.

Solitamente i criteri di selezione usati sono il Criterio di Informazione di Akaike

(AIC) e il Criterio di Informazione Bayesiano (BIC).

32 OLS (o metodo dei minimi quadrati) Γ¨ una tecnica di ottimizzazione che permette di scegliere i

parametri in modo da minimizzare la somma dei residui al quadrato. Tale strategia Γ¨ molto conveniente per i modelli AR mentre risulta piΓΉ complessa per i modelli MA e ARMA dal momento che gli Ξ΅ non sono osservati direttamente. Infatti, in questo caso dovremmo ricostruire gli Ξ΅ (prima verificando l’invertibilitΓ  del MA) in funzione delle variabili osservate ottenendo una funzione non lineare del parametro. Quindi Γ¨ bene ricorrere a un altro approccio per la stima dei parametri ovvero il Maximum Likelihood (o massima verosimiglianza) che sarΓ  spiegato meglio nel paragrafo 2.11 dal momento che sarΓ  utilizzato per la stima dei parametri dei modelli GARCH.

57

𝐴𝐼𝐢 = βˆ’2(π‘™π‘œπ‘”πΏ) + 2(π‘π‘’π‘šπ‘’π‘Ÿπ‘œπ‘ƒπ‘Žπ‘Ÿπ‘Žπ‘šπ‘’π‘‘π‘Ÿπ‘–)

𝐡𝐼𝐢 = βˆ’2(π‘™π‘œπ‘”πΏ) + π‘π‘’π‘šπ‘’π‘Ÿπ‘œπ‘ƒπ‘Žπ‘Ÿπ‘Žπ‘šπ‘’π‘‘π‘Ÿπ‘– βˆ— log (𝑇)

Dove logL corrisponde alla logLikelihood e T Γ¨ il numero di osservazioni.

Per finire si controllano i residui del modello che si Γ¨ stimato e, se il modello Γ¨ buono, ci

si aspetta che i residui siano White Noise.

Se i tre step sono superati, allora si puΓ² utilizzare il modello anche per effettuare una

possibile previsione, altrimenti si ripetono le varie fasi finchΓ© non si trova un modello

appropriato.

2.7 Previsione ottimale

Una volta che si Γ¨ stimato il modello, possiamo utilizzarlo per effettuare una previsione.

Per individuare il previsore ottimale, ovvero il migliore stimatore che ci consente di avere

una miglior stima sul futuro, bisogna stabilire un criterio di ottimalitΓ  da utilizzare (Loss

Function).

In genere, il criterio che si usa Γ¨ il Mean Squared Error (MSE):

𝑀𝑆𝐸(π‘ŒΜ‚π‘‘) = 𝐸(π‘Œπ‘‘βˆ’ π‘ŒΜ‚π‘‘)2

Quello che si fa Γ¨ confrontare il nostro previsore π‘ŒΜ‚π‘‘ con la realizzazione che si Γ¨ poi verificata; questa differenza tra la realizzazione e previsione, elevata al quadrato, ci dΓ 

una misura di quanto sbagliamo in media.

Quando si usa tale criterio come Loss Function, il valore atteso condizionato Γ¨ la funzione

che minimizza il MSE. Per dimostrare la validitΓ  di tale affermazione, dobbiamo andare

a ricercare la migliore funzione dei valori passati che minimizza il MSE. Per fare ciΓ², all’interno del quadrato, sommiamo e sottraiamo il valore atteso condizionato:

𝐸(π‘Œπ‘‘+π‘˜βˆ’ 𝑓(π‘₯))2 = 𝐸 (π‘Œπ‘‘+π‘˜βˆ’ π‘ŒΜƒπ‘‘+π‘˜|𝑑+ π‘ŒΜƒπ‘‘+π‘˜|π‘‘βˆ’ 𝑓(π‘₯)) 2

58

= 𝐸(π‘Œπ‘‘+π‘˜βˆ’ π‘ŒΜƒπ‘‘+π‘˜|𝑑)2 + 2𝐸 [(π‘Œπ‘‘+π‘˜βˆ’ π‘ŒΜƒπ‘‘+π‘˜|𝑑) (π‘ŒΜƒπ‘‘+π‘˜|π‘‘βˆ’ 𝑓(π‘Œπ‘‘))] + 𝐸 (π‘ŒΜƒπ‘‘+π‘˜|π‘‘βˆ’ 𝑓(π‘Œπ‘‘))2 Il doppio prodotto Γ¨ 0, poichΓ©, per la legge delle aspettative iterate, il valore atteso del

valore atteso condizionato non Γ¨ altro che il valore atteso non condizionato (e quindi

risulterebbe (π‘Œπ‘‘+π‘˜βˆ’ π‘Œπ‘‘+π‘˜) (π‘ŒΜƒπ‘‘+π‘˜|π‘‘βˆ’ 𝑓(π‘Œπ‘‘)) = 0 ). Quindi: 𝐸(π‘Œπ‘‘+π‘˜βˆ’ 𝑓(π‘Œπ‘‘))2 = 𝐸(π‘Œ 𝑑+π‘˜βˆ’ π‘ŒΜƒπ‘‘+π‘˜|𝑑) 2 + 𝐸 (π‘ŒΜƒπ‘‘+π‘˜|π‘‘βˆ’ 𝑓(π‘Œπ‘‘))2 Essendo una somma di due quantitΓ  positive, l’espressione risulta minima se:

𝑓(π‘Œπ‘‘) = π‘ŒΜƒπ‘‘+π‘˜|𝑑

Per fare un esempio, prendiamo come riferimento un modello AR(1):

π‘Œπ‘‘= πœ™π‘Œπ‘‘βˆ’1+ πœ€π‘‘ Al tempo t+1 avremo:

π‘Œπ‘‘+1 = πœ™π‘Œπ‘‘+ πœ€π‘‘+1

Considerando che il valore atteso di πœ€π‘‘+1 Γ¨ 0, il valore atteso condizionato di π‘Œπ‘‘+1 sarΓ : 𝐸𝑑(π‘Œπ‘‘+1) = πœ™π‘Œπ‘‘

Se vogliamo calcolare il valore atteso condizionato al tempo 2, dobbiamo riscriverlo in

funzione delle osservazioni passate:

π‘Œπ‘‘+2= πœ™π‘Œπ‘‘+1+ πœ€π‘‘+2 = πœ™(πœ™π‘Œπ‘‘+ πœ€π‘‘+1) + πœ€π‘‘+2

= πœ™2π‘Œπ‘‘+ πœ™πœ€π‘‘+1+ πœ€π‘‘+2 𝐸𝑑(π‘Œπ‘‘+2) = πœ™2π‘Œπ‘‘

Proseguendo in avanti fino al tempo 𝑑 + π‘˜:

59

Quindi, mentre il valore atteso non condizionato Γ¨ 0 e puΓ² essere visto semplicemente

ricorrendo a un MA(∞), il valore atteso condizionato dipende da t: conoscere il punto di

partenza ci consente di effettuare una previsione migliore.

Tuttavia, poichΓ© sappiamo che |Ο•| < 1, piΓΉ ci si sposta in avanti nel tempo e piΓΉ la

previsione si avvicina alla media non condizionata: per una previsione nel breve periodo

Γ¨ molto utile sapere il punto di partenza, ma se ci si sposta nel lungo periodo, sapere dove

siamo oggi ha poca utilitΓ .

Per quanto riguarda la varianza condizionata, invece:

π‘‰π‘Žπ‘Ÿπ‘‘(π‘Œπ‘‘+1) = π‘‰π‘Žπ‘Ÿπ‘‘(πœ™π‘Œπ‘‘+ πœ€π‘‘+1) = 𝜎2

π‘‰π‘Žπ‘Ÿπ‘‘(π‘Œπ‘‘+2) = π‘‰π‘Žπ‘Ÿπ‘‘(πœ™2π‘Œπ‘‘+ πœ™πœ€π‘‘+1+ πœ€π‘‘+2 ) = 𝜎2(1 + πœ™2)

…

π‘‰π‘Žπ‘Ÿπ‘‘(π‘Œπ‘‘+π‘˜) = π‘‰π‘Žπ‘Ÿπ‘‘(πœ™π‘˜π‘Œπ‘‘+ πœ™π‘˜βˆ’1πœ€π‘‘+1… + πœ€π‘‘+π‘˜ ) = 𝜎2(1 + πœ™2+ πœ™4… + πœ™2(π‘˜βˆ’1))

Come possiamo notare dalle formule riportate della varianza condizionata, il processo

AR e in generale i processi ARMA, non sono in grado di descrivere la volatilitΓ  dei

mercati in quanto, la varianza condizionata degli ARMA, non dipende da t ma solo da

quanto ci spostiamo in avanti per la previsione; tale risultato Γ¨ facilmente intuibile visto

che la varianza in realtΓ  dipende solo dal White Noise che Γ¨ caratterizzato da

omoschedasticità (la varianza del White Noise è infatti 𝜎2 ovvero una costante).

In particolare, la varianza condizionata non dipende mai dal punto di partenza ma soltanto

da quanto ci portiamo avanti nella previsione.

Le serie storiche, invece, sono caratterizzate da quella caratteristica giΓ  evidenziata nel

primo capitolo ovvero il volatility clustering secondo cui shock elevati tendono ad essere

seguiti da shock elevati mentre shock contenuti sono seguiti sa shock contenuti.

Per questo motivo si sono sviluppati altri modelli per cercare di introdurre dinamica in

60

Documenti correlati