Probablità, Statistica e Processi Stocastici
Franco Flandoli, Università di Pisa
Corso per la Scuola di Dottorato in Ingegneria
Esempio di serie storica
Esportazioni italiane di pezzi di accessori auto (trend accentuato, poca stagionalità)
Esempio di serie storica
Esportazioni italiane di motocicli (trend debole variabile, molta stagionalità)
Metodo di smorzamento esponenziale
Scelta automatica dei parametri (minimi quadrati)
SET
Cattura la pendenza in fase di previsione (forse troppo sensibile)
HW
HW
Metodi regressivi
Essi costituiscono la classe più ampia e forse l’unica in cui è possibile sviluppare elementi di teoria rigorosa.
Ci stiamo riferendo ai metodi denominati AR, MA, ARMA, ARIMA, ARIMAX ecc.
Non sviluppiamo la loro teoria, suggerendo eventualmente di
esaminare il comando ar.ols del software R per vedere in azione uno di questi metodi
(ar.ols = AR, cioè autoregressivi, con stima ols, cioè ordinary least squares, minimi quadrati, dei coe¢ cienti del modello; il metodo di stima più ragionevole per serie qualsiasi, in assenza di ipotesi particolari come la stazionarietà).
Metodi regressivi
Sviluppiamo invece "a mano" un esempio di metodo autoregressivo (un sottocaso della classe AR).
Si parte da un modello, cioè si ipotizza che la serie storica soddis… la relazione autoregressiva
xn =a1xn 1+a12xn 12+b+en
con errore en piccolo (questa relazione è sempre veri…cata, scelti a caso i coe¢ cienti, se l’errore viene de…nito per di¤erenza; il punto è sperare che, per certi coe¢ cienti, l’errore sia molto piccolo).
Si applica la regressione lineare multipla per stimare i coe¢ cienti a1, a12, b a partire dalla serie storica.
Il metodo è del tutto generale, cioè applicabile a qualsiasi relazione ricorsiva lineare del tipo precedente (ritardi qualsiasi, quanti si vuole).
Tra chi si fa la regressione
Data la serie storica x1, x2, ...., xN, volendo applicare la regressione xn =a1xn 1+a12xn 12+b+en
si deve considerare la serie stessa come input e come output, ma opportunamente traslata.
Preciasamente, l’output è la serie
x13, ...., xN
ed i due input le serie
x12, ...., xN 1 x1, ...., xN 12
Previsione
Calcolati i coe¢ cienti del modello, la previsione del primo istante successivo è
pN+1 =a1xN +a12xN+1 12+b
ma dalla successiva in poi bisogna usare le previsioni stesse nel primo fattore
pN+2 =a1pN+1+a12xN+2 12+b e così via.
Nota: la logica di questo modello è di replicare periodicamente (se 12 è il periodo) mantenendo nota della situazione più recente. Una forma particolare di innovazione-conservazione.
Esempio di previsione
Confronto gra…co con HW
Fattori esogeni
Un elemento di sicuro vantaggio dei metodi regressivi è la possibilità di inserire fattori esogeni.
Se ad esempio x1, x2, ...., xN è la serie storica delle esportazioni di un prodotto e z1, z2, ...., zN è la serie storica del costo del petrolio, possiamo immaginare che un modello del tipo
xn =a1xn 1+a12xn 12 +ckzn k+b+en
sia più accurato. Il ritardo k può essere cercato con il comando ccf (cross correlation function, versione empirica della formula E[XtZs]molto usata in Telecomunicazioni).
Queste considerazioni sono la base dei cosidetti modelli econometrici.
Analisi dei residui
I residui variano a seconda del modello utilizzato. Es.
xn =tn+sn+en (decomposizione additiva) en =xn pn (modelli SE, SET, HW, AR) Anche i comandi variano. Però il comando residuals() è abbastanza generico. Funziona ad es. per HW.
Le prime analisi sono visive:
- plot dei residui per vedere eventuali strutture ed eventuali anomalie - acf, per vedere eventuali periodicità residue; confrontare con white noise
- hist, per vedere come si distribuiscono; confrontare con hist della serie storica
- qqnorm, per vedere se sono abbastanza gaussiani
Analisi dei residui
E’evidente una struttura moltiplicativa residua. Si noti anche il picco a
…ne 2003 - inizio 2004: esso è molto più alto dei picchi precedenti e
Analisi dei residui
Non c’è evidenza di periodi residui.
Analisi dei residui
così abbiamo una percezione gra…ca della variabilità originaria e di quella dei residui
Analisi dei residui
I campioni gaussiani hanno qqplot abbastanza rettilineo.
Incertezza della predizione tramite i residui
Premessa: data una gaussiana di parametri m ed s, se si vuole un intervallo simmetrico rispetto alla media che contenga il 90% dei valori, esso è dato da
qnorm(0.05,m,s), qnorm(0.95,m,s) o equivalentemente da
m+s*qnorm(0.05), m+s*qnorm(0.95).
Se abbiamo un campione sperimentale x1, ..., xn e decidiamo di descriverlo con una gaussiana, possiamo stimare m ed s dal campione ed usare le formule precedenti.
Oppure possiamo usare un comando di R che fa una stima empirica, non parametrica,
Incertezza della predizione tramite i residui
Possiamo applicare i calcoli precedenti ai residui, ad es.
X=residuals(HW), trovando così un intervallo che contiene i residui al 90%
Poi, traslando del valore previsto per il mese successivo
P=predict(HW,1), troviamo un intervallo che contiene i valori futuri al 90%:
P+qnorm(0.05,m,s), P+qnorm(0.95,m,s)
Possiamo poi tracciare due bande, entro le quali prevediamo stiano i valori al 90%.
Incertezza della predizione tramite i residui
Oct 2010 : 34.223 — 80.740
Incertezza della predizione tramite i residui
I calcoli precedenti sono una prima approssimazione.
Da un lato, si potrebbero innescare algoritmi che allargano le bande al crescere del tempo (valori più lontani nel futuro sono più incerti).
Omettiamo questa direzione.
Dall’altro, si potrebbe modulare l’incertezza in modo stagionale.
In…ne, applicando PCA (che in questa versione è la cosidetta fPCA), si possono trovare i pro…li più tipici delle ‡uttuazioni, dell’incertezza.
Modulazione stagionale dell’incertezza sulla predizione
Pro…lo annuale delle deviazioni standard dei residui e bande di previsione stagionali
Variazioni tipiche dell’incertezza sulla predizione
Pro…lo semestrale della variazione tipica dei residui (prima componente principale, 54%)
Variazioni tipiche dell’incertezza sulla predizione
Pro…lo semestrale della variazione tipica dei residui (seconda componente principale, 25%)