• Non ci sono risultati.

Dato quanto detto finora, `e possibile attribuire una stima della com- ponente deterministica per la serie del consumo utilizzando i metodi proposti.

Dalla stima degli effetti deterministici si estrae la stima della compo- nente stocastica

ˆ

gt = Gt− ˆLDt t = 1, ..., n (4.4)

4.2 La componente stocastica 59

Figura 4.4: Estrazione della componente stocastica per la

Cabina Remi Totale.

castiche per Cabina Remi Totale, le componenti residuali riportano la presenza di numerosi picchi, probabile sintomo di uno o pi`u componenti non tenute in considerazione.

Figura 4.5: Funzioni di autocorrelazione e autocorrelazione parzia- le per i primi 100 ritardi delle componenti stocastiche estratte per Cabina Remi Totale.

La verifica della stazionariet`a delle serie stocastiche pu`o essere fatta tramite lo studio dei diagrammi di autocorrelazione e autocorrelazione parziale; questo per verificare possibili evidenze di componenti non col- te precedentemente. Dall’osservazione della funzione di autocorrelazione

Figura 4.6: Relazioni tra la componente stocastica estratta da Cabina Remi Totale e i suoi 9 ritardi per il periodo in-sample.

e autocorrelazione parziale (Figura 4.5) si assume che la seria stoca- stica estratta conservi ancora una qualche forma di dipendenza seriale. Evidenza di tale comportamento viene riscontrata anche con il test di Ljung-Box (Di Fonzo & Lisi, 2007), la cui statistica `e:

Q = n(n + 2) h X i=1 ˆ ρ2(i) n − i con distribuzione asintotica χ2

h.

Il test verifica l’ipotesi nulla che le autocorrelazioni fino al ritardo h siano congiuntamente pari a zero, contro l’ipotesi alternativa che almeno una sia diversa da zero. Il test `e stato condotto per h = 1, ..., 15 e i valori di p-value ottenuti hanno portato tutti al rifiuto dell’ipotesi di incorrela- zione dei residui.

4.2 La componente stocastica 61

dosi infatti di dati giornalieri, `e sensato pensare che un alto consumo di gas osservato in un dato giorno, possa causare ripercussioni sul consumo di gas della stessa utenza nei giorni successivi, e al contrario per valori piccoli. Questo effetto di trascinamento pu`o essere inoltre amplificato dalle caratteristiche delle utenze. E’ necessario quindi definire un model- lo per la componente residuale gtche tenga conto di tale comportamento. I due modelli definiti per gt, la cui specificazione `e stata anticipata ad inizio capitolo, sono entrambi di tipo additivo e con residui spiegati da soli tre ritardi (l ∈ {1, 2, 7} ), per non dover gestire modelli troppo com- plessi e poco utili in fase predittiva. Mentre la semplicit`a `e alla base della scelta del primo modello, un classico modello lineare, il secondo, un modello additivo dove le relazioni vengono colte attraverso l’uso di opportune spline, trova giustificazione dalla possibile forma non lineare della relazione tra i residui (Figura 4.6).

Figura 4.7: Estrazione della componente stocastica per

Cabina Remi Totale considerata la modellazione della componente stocastica tramite modello lineare.

Dalla stima della componente stocastica `e possibile estrarre ˆt(a sinistra: Figura 4.7) ed ottenere la stima dell’andamento in-sample dei consumi (a destra: Figura 4.7). Questi grafici mostrano come il modello non sia in grado di cogliere parte dell’andamento dei consumi, difficolt`a evidente in particolare nella stima dei picchi. Ci si chiede comunque se il metodo proposto porti alla stazionariet`a della serie. Mostrando barre all’interno

Figura 4.8: Funzioni di autocorrelazione e autocorrelazione parziale per i primi 100 ritardi di ˆt,i per Cabina Remi Totale.

delle bande di confidenza, i grafici delle autocorrelazioni in Figura 4.8 evidenziano come i residui del modello ottenuto siano stazionari.

4.3

Modellazione congiunta di componente

deterministica e stocastica

Un’ulteriore possibilit`a `e quella di modellare congiuntamente componente deterministica e componente stocastica mediante le thin plate regression spline. Questo viene fatto con l’uso di una specificazione in cui vengono definiti un modello additivo per la parte deterministica e un modello au- toregressivo AR(p) per la parte stocastica, con p opportunamente scelto. Tale procedura risulta particolarmente lenta e porta ad un uso intensi- vo della memoria quando le strutture di correlazione sono usate per un elevato numero di dati. Sembra quindi essere una procedura sconsigliata per una numerosit`a superiore a 1000. Sono questi i casi in cui spesso le correlazioni possono essere applicate entro gruppi definiti attraverso un fattore di raggruppamento.

Partendo dalla specificazione presentata ad inizio capitolo vengono definiti due modelli

• il primo in cui la struttura di correlazione, e quindi il comporta- mento autoregressivo, `e attribuito al consumo;

4.4 Il modello in riferimento alle utenze 63

• il secondo in cui gli errori sono annidati entro gruppi definendo il fattore di raggruppamento wef.

mediante l’utilizzo del pacchetto R mgcv di Wood (2015), di cui viene usato il comando gamm.

Data la lentezza del metodo si sono scelti valori di p pari a 2; scelta che per`o porta a non cogliere parte della struttura autoregressiva dei da- ti, legata al settimo ritardo. Inoltre tale procedura risulta meno stabile di quelle usate in precedenza.

I risultati ottenuti e le considerazioni teoriche e computazionali hanno spinto quindi a preferire un procedimento a due passi che si basa sul- la modellazione separata di componente deterministica e componente stocastica, come quello presentato nelle sezioni precedenti.

4.4

Il modello in riferimento alle utenze

Spiegato in genarale il modello definendo le motivazioni che hanno spinto alla sua scelta, se ne fornisce una specificazione in riferimento alle utenze. Viene definito per ciascuna utenza i al tempo t

Gt,i =LDt,i+ Dt,i+ gt,i (4.5)

con

LDt,i =LTt,i+ Mt,i

LTt,i =fi(tempot,i) + fi(yeft,i) + fi(weft,i) + Ct,i Mt,i =fi(temperaturat,i) + fi(rad.solaret,i)

+ fi(umiditat,i)

Ct,i =γ1∗ bankt,i+ γ2∗ eoyt,i + γ3∗ agot,i+ γ4∗ dayof ft,i + γ5∗ termot,i+ γ6∗ eastert,i

j=1,2,7 oppure gt,i =φ0+ X j=1,2,7 f (gt−j,i) + t,i (4.7)

dove t = 1, ..., ni indica la lunghezza di ciascun campione in-sample e i = 1, ..., 15 fa riferimento all’utenza.

Si `e provato inoltre a stimare un modello autoregressivo per gt,i diverso per ogni serie del consumo, ma questo non ha portato a miglioramenti sostanziali degli indici di adattamento e quindi si `e privilegiata la sem- plicit`a di adottare modelli per la componente stocastica uguali per tutte le utenze.

Per modellare al meglio ciascuna utenza si procede alla scelta dei pa- rametri e delle variabili esogene.

I parametri da fissare sono df per le spline di lisciamento e k per le thin plate regression spline. Tale scelta viene fatta considerando indici basati sull’errore commesso e mediante analisi grafica. Ad esempio, va- lori di df = 20, 25 producono un eccessivo adattamento ai dati per tutte le utenze, mentre un valore pari a df = 5 sembra adatto solo per alcune componenti studiate.

In definitiva, si `e scelto di procedere con valori di df = 5, 10, 15 e lo stesso viene fatto per il parametro k, ricercando un buon compromesso tra adattamento e lisciamento. Valori diversi vengono fissati per le uten- ze e le componenti stimate.

4.4 Il modello in riferimento alle utenze 65

Illustrati i metodi usati per la scelta dei parametri si passa alla scelta delle variabili esogene da considerare nella modellazione del consumo di ciascuna utenza. Come gi`a accennato, considerata la presenza di valori anomali e salti nei consumi, si `e deciso di introdurre delle variabili dum- my che possano, per alcune serie, aiutare a cogliere andamenti altrimenti difficilmente spiegabili.

Gt,i Tt,i Yt,i Wt,i Ct,i Mt,i Dt,i

1 2 3 4 5 6 7 8 9 Civile 1 x x x x x x Civile 2 x x x x x x x Condominio 1 x x x x x x x Condominio 2 x x x x x x x Tecnologico 1 x x x x x Tecnologico 2 x x x x x x x x x x x x x Sanit`a 1 x x x x x x x Sanit`a 2 x x x x x x x Ufficio 1 x x x x x x x x Grande Cliente 1 x x x x x Grande Cliente 2 x x x x x x x x x

Tabella 4.2: Variabili esogene utilizzate per la modellazione di ciascuna singola utenza. Effetti di calendario definiti da 1 (bank), 2 (eoy), 3 (ago), 4 (dayof f ), 5 (termo), 6 (easter). Variabili meteo definite come 7 (temp.media), 8 (radiazione), 9 (umidit`a).

Gt,i Tt,i Yt,i Wt,i Ct,i Mt,i Dt,i

1 2 3 4 5 6 7 8 9

Cabina Remi 1 x x x x x x x x x

Cabina Remi 2 x x x x x x x x x

Cabina Remi 3 x x x x x x x x x

Cabina Remi Totale x x x x x x x x x x

Tabella 4.3: Variabili esogene utilizzate per la modellazione di ciascu- na cabina Remi. Effetti di calendario definiti da 1 (bank), 2 (eoy), 3 (ago), 4 (dayof f ), 5 (termo), 6 (easter). Variabili meteo definite come 7 (temp.media), 8 (radiazione), 9 (umidit`a).

dellazione di molti dei consumi delle singole utenze ma non per le cabine Remi. Per queste ultime infatti non risulta statisticamente significativa e porta ad un leggero aumento dei criteri di informazione AIC e BIC.

Capitolo 5

Previsioni e risultati

Scelto il modello di riferimento, i parametri di lisciamento e le variabi- li esogene, si passa ora alla fase previsiva, in cui si presta particolare attenzione ad alcuni aspetti, quali la dipendenza seriale e l’importanza dell’uso di un adeguato predittore per la componente meteo. Anche in questo caso si concentra maggiormente l’attenzione sui dati relative alle cabine Remi, altri risultati interessanti sono disponibili in Appendice B. Questo capitolo si divide in due sezioni: una prima sezione nella quale si spiega il concetto di previsione e una seconda sezione in cui vengono presentati i risultati delle previsioni da uno a sette passi in avanti per le serie dei consumi e considerando un periodo pari ad M ∈ {274, 366}.

Documenti correlati