• Non ci sono risultati.

3.3 Implementazioni del Complex Event Processing

4.1.1 Il concetto di serie temporale

In generale, per serie si intende la classicazione di diverse osservazioni di un fenomeno rispetto ad un carattere qualitativo. Se tale carattere è il tempo, la serie viene detta storica o temporale. Il fenomeno di interesse, detto variabile, può essere osservato in dati istanti di tempo, prendendo così il nome di variabile di stato, o alla ne di periodi di lunghezza denita, da cui il nome di variabile di usso. Un esempio di variabile di stato è il numero dei dipendenti di un'azienda o la quotazione di chiusura di un titolo negoziato in borsa; una tipica variabile di usso, invece, è rappresentata dalle vendite annuali di un'azienda, o dal livello di precipitazioni mensili in un dato luogo [Wik12b].

Indicando con Y il fenomeno, si indica con Yt un'osservazione al tempo t, con 1 ≤ t ≤ L,

dove L è il numero complessivo degli intervalli o dei periodi temporali considerati. In generale, una serie storica è denita come Y = [Y1, Y2, ...], o più formalmente Y = [Yt: 1 ≤ t ≤ L]. La

serie storica avrà, ovviamente, dimensione L.

Contrariamente a quanto avviene nella statistica classica, dove si suppone che n osservazioni indipendenti provengano da un'unica variabile aleatoria, nelle serie storiche si suppone che esi- stano n osservazioni provenienti da altrettante variabili aleatorie dipendenti. L'inferenza sulla serie storica si congura, quindi, come un procedimento che tenta di riportare la serie al suo processo generatore.

Queste serie vengono studiate sia per interpretare un fenomeno, così da individuare compo- nenti di trend, ciclicità, stagionalità o accidentalità, ma anche per prevedere il loro andamento futuro.

Ai ni della pura e semplice analisi, esse vengono divise in due categorie: le serie di tipo deterministico e quelle di tipo stocastico. Una serie deterministica si identica quando i valori della variabile in questione possono essere esattamente determinati sulla base dei valori prece- denti; al contrario, in una serie stocastica i valori di tale variabile possono essere determinati sulla base dei valori precedenti solo in misura parziale. La maggior parte delle serie storiche è di tipo stocastico e si rivela, quindi, impossibile elaborare previsioni prive di errore.

L'approccio classico all'analisi delle serie storiche prevede un modello del tipo:

Yt= f (t) + ut

nel quale il valore del fenomeno al tempo t è il risultato della composizione di una sequenza deterministica f(t), detta parte sistematica, e di una sequenza di variabili aleatorie ut, detta

parte stocastica.

Esiste anche un approccio moderno al problema, nel quale si assume che il processo de- scritto sia stato generato a partire da un processo stocastico descrivibile mediante un modello probabilistico di tipo parametrico. In questa trattazione, tuttavia, verrà utilizzato l'approccio tradizionale precedentemente esplicitato.

E' bene sottolineare che prima di qualsiasi analisi, è necessario esaminare i dati grezzi e apportare alcuni aggiustamenti per depurarli dalle discontinuità, dagli eetti della diversa durata degli intervalli, o periodi di tempo, considerati oppure per eliminare i valori anomali. Alcuni esempi di discontinuità sono i cambiamenti di base nelle serie storiche di numeri indice, oppure la presenza di metriche diverse per le variabili economiche. In tali casi, se non si riesce ad eliminare la discontinuità, può essere preferibile limitare l'analisi a dati omogenei.

La diversa durata dei periodi incide sui valori osservati nei medesimi periodi dei cicli seguenti, producendo variazioni non ascrivibili all'andamento del fenomeno; ad esempio, in serie mensili di dati di produzione, le variazioni nei dati grezzi dipendono solo in parte dal numero dei giorni lavorativi nei diversi mesi. Si possono eliminare tali perturbazioni in vari modi, come ad esempio aggregando i dati in periodi più lunghi o passando a dati medi giornalieri, oppure ancora applicando coecienti correttivi.

Per quel che riguarda i valori anomali, se ne possono distinguere di due tipi: quelli che provocano una brusca variazione nella serie in un dato istante, dopo il quale però la serie stessa ritorna immediatamente, o gradualmente, all'andamento precedente. Nel primo caso si parla di outlier additivo, mentre nel secondo di cambiamento temporaneo. I cambiamenti che introducono una brusca variazione che permane nel tempo, provocando una variazione del livello o dello stesso andamento della serie, costituiscono un cambiamento strutturale. In Figura 4.1 è possibile osservarne degli esempi [Wik11a].

Figura 4.1: Esempi di valori anomali in una serie temporale

Un altro strumento molto utilizzato nell'analisi di serie temporali è il correlogramma. Un correlogramma, o autocorrelogramma, è un graco che rappresenta la autocorrelazione di una serie storica in funzione del ritardo con cui la autocorrelazione è calcolata. Esso si usa prin- cipalmente per individuare l'eventuale prevalenza di una componente tendenziale, stagionale o stocastica [Wik12a].

Come già accennato prima, nell'approccio tradizionale si assume che esista una legge di evo- luzione temporale del fenomeno, rappresentata da f(t), e che i residui, vale a dire le dierenze tra i valori teorici e quelli osservati, siano dovuti al caso e, pertanto, assimilabili a errori acciden- tali. I residui vengono normalmente indicati con il termine εt ed intesi come variabili aleatorie

indipendenti, identicamente distribuite, con media nulla e varianza costante. Nell'approccio moderno, invece, si ipotizza che la parte sistematica manchi o sia già stata eliminata, mediante

stime o altri modelli, e si studia solo la componente stocastica ut.

Sempre all'interno dell'approccio tradizionale, si ritiene che la parte sistematica sia la risul- tante di tre componenti non direttamente osservabili:

ˆ il trend, o componente tendenziale, inteso come la tendenza di fondo del fenomeno consi- derato, spesso espressa mediante una funzione polinomiale di grado non troppo elevato; ˆ il ciclo, o componente congiunturale, cioè l'alternanza di uttuazioni di segno diverso

intorno al trend;

ˆ la stagionalità, o componente stagionale, costituita da variazioni che si riscontrano con analoga intensità negli stessi periodi di anno in anno, ma con intensità diversa nel corso di uno stesso anno.

La componente accidentale è data dai residui εt, spesso indicati con la formula εt = yt− ˆyt,

dove con yt si intende il valore osservato della serie temporale allo tempo t, mentre con ˆyt ci si

riferisce al valore stimato nel medesimo istante. In Figura 4.2 sono riportati degli esempi per ciascuna delle componenti presentate [Wik11a].

Figura 4.2: Esempio di serie storica e di sua scomposizione nelle componenti tendenziale, stagionale e accidentale