Modelli stocastici stagionali auto regressivi a media mobile
2.1 Confronto tra un modello deterministico di decomposizione e un modello ARIMA stagionale per l’analisi di serie storiche
2.1.7 Diagnostica dei modelli e analisi dei residu
La tecnica più usata per verificare quantitativamente le prestazioni di un modello previsionale è l’analisi dei residui. I residui sono definiti in accordo con la formula I.8, come la differenza tra i valori osservati della serie e quelli previsti dal modello preso in esame. È utile notare che un residuo positivo denota una sottostima della misurazione reale, mentre uno negativo dimostra che il modello ha sovrastimato il valore reale in quel periodo.
I grafici dei residui in funzione del tempo per i modelli DD-TSA e SARIMA sono riportati nella figura II.6. nella tabella II.5 sono riportate le statistiche principali: è evidente che il modello DD-TSA dimostra migliori prestazioni rispetto al SARIMA. Sia la media che la deviazione standard degli errori sono più basse per il modello deterministico anche se la precedente comparazione grafica non esaltava questa differenza. Osservando le figure II.4 e II.5 e concentrandosi sui peridi che vanno approssimativamente dal 25 al 90, può essere colta la differenza principale nella previsione dei due modelli. Quando si verifica la brusca variazione nella media, il SARIMA impiega circa un giorno (24 periodi) per apprendere la variazione nella serie e per adeguare la previsione al nuovo andamento dei dati. Al contrario il DD-TSA fornisce una previsione molto stabile in media e dunque sovrastima nel primo intervallo temporale e poi sottostima quando si verifica l’incremento della rumorosità. Queste caratteristiche sono evidenziate anche dal basso valore dell’MPE per il modello SARIMA se confrontato con lo stesso indicatore del modello deterministico: MPE considera un errore percentuale dunque penalizza i modelli che a parità di errore assoluto commettono questo in peridi di tempo caratterizzati da valori della serie più bassi.
Le figure II.7 e II.8 riportano il correlogramma dei residui, l’istogramma di frequenza e il diagramma quantile-quantile. Questi grafici nel loro complesso provano le buone prestazioni previsionali dei due modelli proposti e confermano l’assunzione teorica di una distribuzione normale per i residui.
(a) (b)
Fig. II.6: (a) Grafico dei residui ottenuti usando il modello DD-TSA sui 224 dati di calibrazione. L’asse orizzontale è in ore, l’asse verticale è in dBA. (b) Grafico dei residui ottenuti usando il
modello SARIMA sui 224 dati di calibrazione.
Tab. II.5: Statistiche riassuntive della distribuzione degli errori valutati sia nella fase di calibrazione utilizzando i due modelli.
Modello Media [dBA] Dev.Std. [dBA] Mediana [dBA] Min [dBA] Max
[dBA] skew kurt
DD-TSA 0.06 6.53 0.42 -18.5 18.0 -0.28 0.25
SARIMA 0.98 7.03 1.33 -20.6 21.35 -0.38 0.75
Tab. II.6: Valori delle metriche di errore MPE, CVE e MASE calcolati nella fase di calibrazione per i due differenti modelli.
Tipologia di modello MPE CVE MASE
DD-TSA -1.559 0.118 0.750
SARIMA -0.102 0.128 0.795
(a) (b) (c)
Fig. II.7: (a) Istogramma di frequenza degli errori calcolati applicando il modello DD-TSA ai 224 dati di calibrazione. (b) Grafico quantile-quantile (distribuzione normale ipotizzata) che descrive l’andamento degli errori del DD-TSA. (c) Correlogramma degli errori di previsione del DD-TSA.
(a) (b) (c)
Fig. II.8: (a) Istogramma di frequenza degli errori calcolati applicando il modello SARIMA ai 224 dati di calibrazione. (b) Grafico quantile-quantile (distribuzione normale ipotizzata) che descrive l’andamento degli errori del SARIMA. (c) Correlogramma degli errori di previsione del SARIMA.
2.1.8 Discussione sui risultati ottenuti
In questo paragrafo, l'attenzione è stata focalizzata sullo studio e la previsione del livello acustico nei pressi di un aeroporto. È stata svolta un’analisi della serie storica dei livelli acustici equivalenti orari, rilevati in prossimità dell'aeroporto internazionale di Nizza (Francia). Diverse tecniche statistiche sono state applicate a queste misurazioni per evidenziare le caratteristiche peculiari e per attuare la migliore scelta dei modelli predittivi.
Sono stati implementati due differenti tecniche per la modellazione di una serie storica. Inizialmente è stato sfruttato un modello di decomposizione deterministica (DD- TSA) basato sull’assunzione che il livello acustico misurato è stato generato da una funzione costituita dalla moltiplicazione del trend per dei fattori di correzione stagionali. A questi, in maniera additiva, si aggiunge una componente di fluttuazione casuale non prevedibile e distribuita normalmente con media nulla. Il trend costituisce l’andamento di lungo periodo ed è stato calcolato con una regressione lineare sui dati osservati: la funzione scelta, di tipo linea retta, è molto adatta quando si vogliono ottenere orizzonti di previsione lunghi dato che non soffre eccessivamente di overfitting sui dati usati per la stima dei coefficienti, un comportamento diverso hanno funzioni polinomiali di grado elevato adatte quando lo scopo della modellazione è la ricostruzione di dati mancanti. I fattori di stagionalità descrivono la periodicità osservata nella serie e sono calcolati mediante una tecnica di statistica non parametrica.
La seconda tecnica adottata si basa sull’assunzione che le singole osservazioni della serie sono la realizzazione di una variabile casuale: viene implementato un modello stagionale auto-regressivo a media mobile (SARIMA).
Entrambi i modelli sfruttano il marcato comportamento periodico evidenziato nella serie. Tale serie storica è costituita da 224 misurazioni, e, grazie all'applicazione di alcune procedure statistiche, la presenza di variazioni periodiche è stata evidenziata. Entrambe le tecniche usate per modellare i dati considerano una periodicità giornaliera, evidenziata dalla massimizzazione della funzione di autocorrelazione in corrispondenza di un ritardo pari a 24 ore.
È stato mostrato un confronto grafico dei due modelli diagrammando le previsioni insieme alle 224 misure reali; inoltre è stato svolto un dettagliato studio dei residui (differenza tra i valori reali e le previsioni) per ottenere un confronto quantitativo tra le
prestazioni previsionali delle due tecniche. Anche se le buone prestazioni predittive delle due strategie adottate sono simili, il DD-TSA si è caratterizzato per un valore della media dei residui più prossimo allo zero e per una deviazione standard degli stessi più bassa. Inoltre anche l’autocorrelazione presente negli errori del DD-TSA è inferiore rispetto a quella riscontrata per il SARIMA.
Gli indici di asimmetria e curtosi per i residui di entrambi i modelli, sono vicini allo zero. Inoltre, istogrammi e QQ-plot confermano l'ipotesi di distribuzione normale per gli errori. Questa è una prova delle buone capacità predittive delle tecniche proposte.
Per quanto riguarda le metriche di errore, la CVE ha dato risultati migliori per il modello DD-TSA, mentre l’MPE è più basso (dunque migliore) per il SARIMA. Questo accade perché il modello SARIMA ha dato previsioni peggiori nei periodi con livelli di rumorosità più elevati, con un conseguente errore percentuale più basso, anche se l'errore medio è più alto. Guardando il MASE si può affermare che i due modelli adottati forniscono previsioni migliori, in media, rispetto al modello stagionale basilare fondato sull’ipotesi che la previsione di riferimento (più semplice da ottenere) al periodo t è uguale al valore osservato all’ora t-24. Le buone capacità predittive sia di DD-TSA che di SARIMA sono altresì confermate dal fatto che il valore del MASE è inferiore all’unità.
Infine, si può concludere che l'obiettivo di ottenere un modello previsionale affidabile per il livello di rumorosità acustica in prossimità di insediamenti aeroportuali è pienamente raggiunto per mezzo dell’analisi delle serie storiche, sia basata su tecniche di tipo deterministico (con un più ampio orizzonte predittivo, ma con una previsione molto statica nel tempo) sia del tipo stocastico SARIMA (con previsioni più rapide ad adeguarsi a variazioni nella serie ma con un più breve orizzonte).