• Non ci sono risultati.

Time Series Analysis and Forecasting of Customer Acquisition for a Gambling Company

N/A
N/A
Protected

Academic year: 2021

Condividi "Time Series Analysis and Forecasting of Customer Acquisition for a Gambling Company"

Copied!
121
0
0

Testo completo

(1)

UNIVERSITÀ DI PISA

DIPARTIMENTO DI INFORMATICA

C

ORSO DI

L

AUREA

M

AGISTRALE IN

D

ATA

S

CIENCE AND

B

USINESS

I

NFORMATICS

Time Series Analysis and Forecasting of Customer

Acquisition for a Gambling Company

Relatore

Candidato

Giovanna ROSONE

Pietro Gianluca CALAMIA

(2)

“Ai miei genitori e

a mio fratello”

(3)

Indice

ABSTRACT ... 6

INTRODUZIONE... 7

1 STATO DELL’ARTE... 11

1.1 LE SERIE TEMPORALI ... 11

1.2 OBIETTIVI DELLA TIME SERIES ANALYSIS ... 13

1.2.1 Tipologie di Serie Temporali ... 13

1.3 TIME SERIES FORECASTING ... 16

1.4 RASSEGNA DELLA LETTERATURA ... 18

1.5 STUDIO DELLE SERIE TEMPORALI ... 20

1.5.1 Funzione di Autocorrelazione (ACF) ... 21

1.5.2 Funzione di Autocorrelazione Parziale (PACF) ... 22

1.5.3 Scomposizione di una Serie Storica ... 22

1.5.4 Processi Stocastici e Stazionarietà ... 26

1.5.5 Misure di Errore ... 27

2 CASO DI STUDIO ... 30

3 DATA UNDERSTANDING ... 32

3.1 IL DATASET ... 32

3.2 GESTIONE MISSING VALUES E OUTLIERS ... 34

3.3 CREAZIONE VARIABILI DERIVATE... 35

3.4 CREAZIONE VARIABILI AGGIUNTIVE ... 35

3.5 IL DATASET FINALE ... 37

3.6 TECNICHE DI VALIDAZIONE ... 37

3.6.1 Hold-Out ... 38

3.6.2 Cross Validation on Rolling Origin ... 38

3.7 ANALISI STATISTICHE DI BASE ... 39

3.8 ANALISI DELLE SERIE TEMPORALI ... 45

3.8.1 Serie Temporale Principale ... 46

3.8.2 Serie Temporale Canale Tradizionale ... 52

3.8.3 Serie Temporale Canale Diretto ... 56

3.8.4 Serie Temporale Canale Digitale ... 61

4 MODELLI DI PREVISIONE ... 67

4.1 SCELTA DEI REGRESSORI... 67

4.2 MODELLI SEMPLICI ... 69

4.2.1 Modello basato sulla Media Aritmetica ... 69

4.2.2 Modello Naïve ... 72

4.2.3 Modello Seasonal Naïve ... 76

4.3 MODELLO AUTO REGRESSIVO INTEGRATO A MEDIA MOBILE (SARIMAX) ... 77

(4)

4.3.2 I Residui ... 83

4.3.3 Autocorrelazione di un White Noise ... 84

4.3.4 Implementazione ... 85

4.4 MODELLO DI REGRESSIONE LINEARE MULTIPLA ... 90

4.5 MODELLO DI HOLT-WINTERS ... 94

4.6 RETE NEURALE RICORRENTE (LSTM) ... 99

4.7 PROPHET ... 105

5 VALUTAZIONI FINALI ...109

5.1 CREAZIONE PREVISIONI FINALI ... 113

CONCLUSIONI ...118

(5)
(6)

6

ABSTRACT

Lo scopo del seguente progetto di tesi è quello di verificare e confrontare quali algoritmi di previsione su serie temporali sono più indicati per prevedere il numero di acquisizioni annuali di clienti per una famosa azienda di Gambling. Riuscire a prevedere il numero di clienti che verranno acquisiti funge da indicatore di business per l’azienda, la quale lo userà per stimare i costi o i guadagni che saranno effettuati nell’anno successivo oppure potrà essere utilizzato per cambiare strategia di mercato ed effettuare campagne di marketing. Per la previsione dei clienti sono stati implementati e confrontati diversi metodi: da algoritmi semplici a quelli più complessi, con risultati diversi ma che si avvicinano ai valori reali. Si vedrà come modelli concettualmente semplici riescano ad avere performance paragonabili a quelli più complessi mediante opportune operazioni di trasformazione ed elaborazione delle serie temporali.

Si è prestata la massima attenzione al fine di garantire l’anonimato dei clienti, tutelandone così la privacy.

(7)

7

INTRODUZIONE

Nell’industria del Gambling (gioco d’azzardo), è fondamentale riuscire a prevedere il numero di potenziali clienti per l’anno successivo.

Visto l’incremento del settore e l’aumento costante di nuovi giocatori, affinché la società riesca a sottrarre clienti ai competitor, è necessario che incrementi le campagne promozionali al fine di mantenere i clienti già esistenti e attrarne di nuovi. Nonostante ciò, se da una parte la previsione di nuove acquisizioni in un periodo in cui non sono presenti campagne di marketing non presenta particolari problemi, dall’altro le previsioni per acquirenti soggetti ad attività promozionali risultano molto difficili.

Il concetto racchiuso nel termine gambling è l’azione di puntare denaro su un evento non prevedibile con lo scopo di vincere ulteriore denaro e/o beni materiali. La parte fondamentale del gambling è la natura aleatoria degli eventi, ed è proprio la varianza di tale variabile che esprime quanto sia importante la componente fortuna nell’atto di scommettere su un evento.

Data la sua natura probabilistica, il gambling si realizza in un contesto ludico, quale un gioco di carte, l’esito di un evento sportivo o un qualche altro gioco numerico. È insita nella natura umana la voglia di voler realizzare vincite sempre più grandi e ciò ha portato alla necessità di regolamentare il mondo del gambling con rigide legislazioni e restrizioni.

Si definisce quindi gambling l’insieme di attività di gambling effettuate utilizzando il canale telematico, che tipicamente è la rete internet. Le principali attività di gambling proposte dagli operatori del settore sono: gli skill games (giochi in cui la componente di abilità riveste un’importanza predominante rispetto a quella aleatoria come poker e blackjack), le scommesse sportive, i casinò, i giochi a totalizzatore e le lotterie (tra cui bingo e “gratta e vinci”).

Negli ultimi anni, grazie all’onnipresenza di internet, si è registrato un incremento significativo del gambling online. La caratteristica principale del gambling online è la possibilità di raggiungere un numero di giocatori di gran lunga maggiore rispetto a quello raggiungibile dalle reti fisiche: basti pensare, nel caso del poker online, all’esiguo numero di casinò presenti in Italia e alla difficoltà di raggiungerli per tutti i giocatori potenzialmente

(8)

8

interessati sul territorio nazionale. È certamente questo uno dei motivi per cui un fenomeno recente come questo sta avendo una rapidissima espansione.

Il settore del gambling online in Italia inizia a diffondersi soprattutto dopo l’entrata in vigore del decreto Bersani1 del 2006, con il quale vengono regolamentati i giochi online. I dati

indicano che nel 2009 il mercato del gambling online ha superato i 3,7 miliardi di euro, oltre il 150% in più rispetto all’anno precedente confermando un trend di crescita positivo [1]. Nel 2011, secondo l’AAMS, l’Amministrazione Autonoma dei Monopoli di Stato, in Italia la raccolta del gioco d’azzardo è stata di quasi 80 miliardi di euro, circa il 5 per cento del Prodotto Interno Lordo nazionale: il 56,3 per cento del fatturato totale è stato raccolto da slot machine e video-lotterie, il 12,7 per cento dai Gratta e Vinci, l’8,5 dal Lotto, il 4,9 dalle scommesse sportive, il 3 per cento dal Superenalotto, e il rimanente da bingo e scommesse ippiche [2].

Gli elementi principali che hanno determinato tale crescita sono stati:

• evoluzione della normativa e passaggio alla liquidità internazionale: la nuova normativa consente nuove concessioni che abilitano all’offerta di tutti i tipi di gioco online, inoltre con l’apertura verso la liquidità internazionale i giocatori italiani posso giocare contro utenti non residenti in Italia combattendo così il mercato illegale.

• Introduzione di nuovi giochi: recentemente sono stati introdotti sul mercato vari tipi di giochi nuovi come il poker online o il bingo online, catturando così l’attenzione di molte persone

• Aumento degli operatori del settore: con l’avvento di Internet, oggi entrare nel mercato del gambling è diventato molto più facile anche per i più piccoli operatori sostenendo costi più bassi di realizzazione e mantenimento dei servizi.

Il lavoro di tesi ha come obiettivo lo studio di serie temporali appartenenti ad una società di Gambling Online con la finalità di studiare i modelli migliori di previsione sulle acquisizioni di clienti e compararne i risultati.

(9)

9

Di seguito si riporta un breve riassunto di come è stato diviso l’elaborato rispettando il modello Crisp-DM2 (Cross-Industry Standard Process for Data Mining).

• Nel primo capitolo si discute dello stato dell’arte sulle serie temporali e si evidenziano quelle che sono le caratteristiche principali mostrandone alcuni esempi. Si argomentano gli obiettivi della Time Series Analysis spiegando a cosa serve e perché viene utilizzata, presentando quelle che sono le tipologie di serie storiche più frequenti e quali metodologie vengono usate oggi utilizzate per effettuare le previsioni.

• Nel secondo capitolo si discute del caso di studio e del Decreto Dignità approvato ad Agosto 2018.

• Nel terzo capitolo vengono trattate sia la fase di Data Understanding in cui vengono mostrati e spiegati i dati che sono stati estratti dal DataWarehouse aziendale ma anche la fase di Data Preparation in cui viene mostrata la procedura che ha portato alla creazione del dataset finale. Inoltre, saranno analizzate le varie fasi di gestione dei valori mancanti e degli outliers presenti nel dataset ed infine verranno create delle variabili aggiuntive per migliorare le predizioni per i modelli regressivi.

• Nel quarto capitolo si entra nel cuore delle analisi con l’implementazione dei vari modelli predittivi, verrà spiegata sia la teoria del modello che la fase di costruzione. L’implementazione dei modelli segue le due tecniche di validazione principali, l’hold-out e la cross-validation, implementando due versioni distinte per ogni serie temporale analizzata. Per ogni modello vengono mostrati i grafici sull’andamento reale del numero di acquisizioni di clienti in rapporto alla previsione effettuata, verrà calcolato l’errore di previsione e saranno date delle valutazioni generali sui risultati finali.

• Nel quinto e ultimo capitolo, vengono effettuate le valutazioni finali che cercano di rispondere alla domanda di business dell’azienda. Vengono mostrati quali modelli riescono a prevedere in maniera più accurata il numero di clienti finali realmente acquisite nel 2018.

(10)

10

• Nelle conclusioni si discute di come sarebbe possibile migliorare ulteriormente le previsioni andando a combinare risultati di modelli diversi visto che alcuni algoritmi restituiscono risultati migliori relativi a determinati periodi dell’anno.

(11)

11

1 STATO DELL’ARTE

Lo stato dell’arte del progetto si focalizza sullo studio e sugli obiettivi dell’analisi delle serie temporali. Vengono discusse le caratteristiche di una serie e cosa significa effettuare una previsione sulla base delle osservazioni precedenti. Inoltre, vengono presentati alcuni tra i metodi di previsione più utilizzati nel settore del gambling.

1.1 Le Serie Temporali

La misurazione dei fenomeni che evolvono nel tempo viene compiuta con lo scopo di osservare, ed eventualmente prevedere, le dinamiche future del fenomeno oggetto di studio. Uno degli obiettivi dell’analisi delle serie storiche è quello di individuare le componenti che determinano l’evoluzione dei fenomeni del tempo. Una serie storica si può definire una successione di dati numerici nella quale ogni dato è associato ad un particolare istante o intervallo di tempo. I valori delle realizzazioni della generica variabile Y che formano una serie storica rilevati ad intervalli equidistanti, sono solitamente indicati con lettere minuscole (y1, y2, …, yi, …, yt): l’indice “i” serve, pertanto, ad indicare la posizione

nella serie storica dell’osservazione “y”. Se in ciascun punto o intervallo di tempo viene osservato un solo fenomeno, la serie è detta “univariata”. Se le variabili osservate sono più d’una la serie è detta multipla o “multivariata”. Le serie storiche considerate in questo lavoro sono trattate mediante approcci sia univariati ma anche multivariati. In una serie storica l’ordine dei dati è materiale e non accidentale come nel caso di un campione casuale di osservazioni e il riconoscimento di tale ordine è una delle caratteristiche più importanti della serie stessa. È lecito pensare che vi sia una sorta di dipendenza tra osservazioni successive e che essa sia legata alla posizione dell’osservazione nella sequenza. Lo studio di tale dipendenza e la conseguente possibilità di sfruttarla a fini previsivi rappresentano il cuore dell’analisi delle serie storiche. Spesso le previsioni non si basano su un solo intervallo temporale, ma di frequente vengono utilizzate per prevedere determinati orizzonti temporali come posso essere le ore, i giorni o i mesi.

(12)

12

Un’altra importante distinzione è tra serie storiche deterministiche e stocastiche. Una serie storica yt è detta deterministica se può essere prevista esattamente sulla base della storia

passata. La maggior parte delle serie storiche è tuttavia di tipo stocastico, nel senso che il futuro viene determinato dal passato solo in maniera parziale rendendo quindi impossibile l’elaborazione di previsioni del tutto prive di errore. L’approccio classico tende ad individuare in una serie storica due componenti, una sistematica (o deterministica), ed una casuale. Tale impianto metodologico è finalizzato a scomporre la serie in singole componenti individuabili in maniera deterministica e quindi, “con certezza”; ciò che del dato osservato non è spiegato dalla parte deterministica è invece ritenuto un “residuo” dovuto al caso. Quindi, un modello stocastico abbastanza generale per descrivere il processo generatore dei dati di una serie storica Yt relativa ad una variabile Y è dato da:

Y

t

= f

t

+ u

t

Secondo l’approccio classico dell’analisi delle serie storiche si suppone che esista una “legge di evoluzione temporale del fenomeno” rappresentata da ft. La componente casuale

ut viene invece assunta a rappresentare l’insieme delle circostanze, ciascuna di entità

trascurabile, che non si vogliono o possono considerare esplicitamente in Yt. Una volta

individuate le componenti tendenziali, cicliche e stagionali, l’approccio classico permette di determinare in maniera “meccanica” il dato della serie storica a meno di una componente casuale. In tale approccio il tempo viene trattato direttamente o indirettamente come una variabile indipendente: è solamente col passare del tempo, difatti, che il trend si evolve, che il ciclo assume un andamento oscillante, e che la componente stagionale, se presente, assume andamenti regolari.

Il tempo è quindi la variabile fondamentale per l’origine delle “forze” che determinano il dato, e per tale motivo, è la principale variabile che spiega il fenomeno. Invece l’approccio moderno, o stocastico, venne proposto da Box e Jenkins nel 1976 [3]. L’obiettivo finale dell’analisi è quello di comprendere la struttura aleatoria sottostante ai dati e di tentare di riprodurre il processo stocastico che si suppone abbia generato la serie storica, ossia l’insieme delle “forze” che hanno concorso a produrre il dato secondo leggi probabilistiche. Il processo stocastico non potrà mai essere individuato esattamente poiché abbiamo a disposizione un insieme finito di osservazioni (la serie storica), ciò che si può fare è tentare

(13)

13

di “apprendere” il comportamento della serie temporale e creare dei modelli di predizione che riescano ad avvicinarsi al dato reale.

1.2 Obiettivi della Time Series Analysis

Gli obiettivi principali dell’analisi delle serie storiche detta anche time series analysis sono: • Identificare la natura del fenomeno rappresentato dalla sequenza delle

osservazioni;

• Effettuare previsioni su un intervallo temporale scelto.

Entrambi questi obiettivi richiedono che il modello dei dati delle serie temporali osservate sia identificato e descritto formalmente. Una volta stabilito il modello, possiamo interpretarlo e integrarlo con altri dati. Si procede, successivamente, con l’eliminazione degli outliers, ovvero quei valori anomali che si discostano molto dal valore medio della serie, e che altrimenti vengono considerati dai modelli. Una volta rimossi gli outliers si procede alla gestione dei missing values cioè quei valori che per causa esterne non sono presenti nel dataset.

Una volta che la serie è stata pulita da tutte le impurità, in base al modello che si cerca di sviluppare, essa deve prima essere trasformata o adattata e successivamente utilizzata. Vedremo come alcuni modelli come le reti neurali richiedano che i valori siano all’interno di un intervallo che sia compreso tra 0 a 1, oppure di come i modelli Arima richiedano che la serie sia stazionaria.

1.2.1 Tipologie di Serie Temporali

Una classificazione per tipologia, il più possibile completa ed esaustiva, delle serie storiche è quella che si basa sull’eventuale presenza di una o più componenti regolari descritte nel paragrafo precedente. La classificazione viene riportata nella tabella 1 (chiamata

matrice di classificazione), in cui sui due assi principali si trovano rispettivamente la

(14)

14

alla classificazione basata sulla stagionalità, vi è la distinzione tra serie sporadiche e serie continue.

Figura 1-1 Classificazione delle serie storiche di domanda [22]

Alcuni esempi di serie storiche possono essere i seguenti:

• serie storica continua non stagionale, caratterizzata da trend lineare crescente;

• serie di tipo stagionale, avente lunghezza pari a sei periodi, caratterizzata da trend lineare crescente;

(15)

15

• serie sporadica stazionaria, caratteristica di prodotti ordinati poco frequentemente ed in volumi irregolari;

• serie sporadica stagionale stazionaria, caratteristica di prodotti venduti in singole stagioni di vendite periodiche;

• serie continua non stagionale crescente in modo parabolico;

Figura 1-3: Serie Temporale Stagionale con Trend Crescente [22]

Figura 1-4: Serie Storica senza Trend e Stagionalità [22]

(16)

16 In letteratura esistono due tipi di serie temporali:

1. Serie storiche continue: la presenza di valori nulli è quasi assente 2. Serie storiche sporadiche: vi è una consistente presenza di valori nulli

Gli algoritmi di previsione su time series fanno molta difficoltà a creare dei buoni modelli su serie storiche sporadiche dato che l’assenza di intervalli temporali crea una componente di irregolarità all’interno della serie stessa facendo sì che i modelli creati abbiano una bassa capacità predittiva.

1.3 Time Series Forecasting

Grazie agli algoritmi di forecasting viene generata la previsione delle acquisizioni di clienti nel periodo di interesse in funzione dell'andamento del numero di acquisizioni del passato. Come si è visto nel capitolo 1, la qualità predittiva dei modelli di time series forecasting [4] è misurata tramite il calcolo degli errori di previsione in corrispondenza del periodo in esame, avendo precedentemente addestrato i vari modelli sull'intervallo temporale precedente.

In generale è possibile riassumere le fasi del processo di forecasting nelle seguenti fasi: • Analisi delle caratteristiche quantitative della serie temporale;

• Selezione deli algoritmi da implementare;

• Scelta dei parametri ottimali per ogni algoritmo selezionato;

(17)

17

• Addestramento dei modelli cercando di ottenere le performance migliori; • Generazione della predizione per ogni modello creato;

• Valutazione dell’errore di previsione sul test set;

• Aggiornamento dei parametri degli algoritmi (si ripetono i punti 1, 2 e 3).

La serie storica viene inizialmente studiata ed analizzata per capire quali sono le caratteristiche che ne determinano l’andamento e come possono essere usate per effettuare previsioni sul futuro. Vengono gestiti i valori mancanti e gli outliers, si studiano le caratteristiche quantitative, come ad esempio la presenza di trend e di stagionalità, ed infine viene preparata per le analisi. Per il confronto delle serie temporali che verrano analizzate si è scelto di utilizzare sia l’approccio univariato, dove la serie temporale contiene un unico valore che sarà quello che vogliamo predire, sia l’approccio multivariato, dove oltre al numero di acquisizioni da predire vengono considerate ulteriori informazioni per tentare di aiutare gli algoritmi regressivi nelle predizioni.

Una volta determinati gli algoritmi da utilizzare sarà necessario settarli su determinati parametri in modo da minimizzare l’errore di previsione calcolato su un intervallo temporale prestabilito. Verrà scelto quindi il modello che minimizza una determinata metrica di errore scelta tra: ME, MPE, MAPE, MAE e RMSE. La scelta dell’algoritmo con l’errore di previsione minore suppone che sia il migliore per la previsione delle acquisizioni per l’anno successivo. Il fatto di aver ottenuto l’errore più basso tra i vari modelli non significa che l’algoritmo selezionato sia sicuramente il migliore. È lecito fissare una soglia di errore, entro la quale l’errore di previsione viene tollerato, e quindi accettare il modello con l’errore più basso, d’altra parte se nessun modello raggiunge la soglia minima di errore, sarà necessario ripetere i punti 2, 3 e 4 iterando la procedura fin quando non viene raggiunto l’errore di previsione minimo.

(18)

18

1.4 Rassegna della letteratura

In questa sezione verranno illustrati i vari modelli standard usati in letteratura per la previsione delle serie temporali. Verranno spiegate, in particolare, le teorie dei modelli, come bisogna trattare i dati per la loro costruzione, e infine come vengono implementati. I modelli di previsione più utilizzati in letteratura spaziano da modelli semplici a modelli molto complessi che spesso richiedono particolare attenzione nella scelta dei parametri di configurazione. Quando si fa riferimento ad una serie storica ci si riferisce alla variazione di una data variabile in funzione del tempo. Nella realtà, invece, l’andamento di un fenomeno nel tempo è di tipo probabilistico, ovvero non se ne può prevedere il movimento futuro senza errori, a differenza di quanto accade per gli andamenti temporali deterministici. Lo studio delle serie storiche può evidenziare alcuni comportamenti ricorrenti di modo che il processo possa essere scomposto in parti casuali e parti deterministiche sulla base delle quali elaborare una previsione futura.

Tra i modelli più semplici che possono essere utilizzati ci sono quei metodi statistici che utilizzano semplici operazioni aritmetiche per effettuare previsioni sul futuro. Tra questi figurano il modello basato sulla Media aritmetica, che considera l’intervallo di previsione pari alla media di tutti i valori precedenti, il modello Naïve,3 che considera l’intervallo di

previsione pari all’ultima osservazione effettuata, ed infine il modello Snaïve, che similmente al metodo Naïve, considera come intervallo di predizione l’ultimo orizzonte temporale osservato.

Uno dei modelli più utilizzati per lo studio delle serie temporali è sicuramente il modello

ARIMA [5]. Si tratta di modelli basati sulla regressione lineare in cui la serie deve essere

scissa dalla componente di rumore (White Noise). L’algoritmo, affinché funzioni correttamente, necessita che la serie temporale sia stazionaria (concetto che verrà ripreso più avanti) e che siano definiti i parametri di input. Il limite di questa tipologia di modelli è rappresentato dal fatto che è necessario iterare l’algoritmo più volte, cambiando il valore dei parametri di input, affinché la componente di rumore sia completamente randomica. Data la presenza di stagionalità, è stata implementata una variante denominata SARIMAX la quale tiene conto sia della stagionalità ma anche di variabili esogene esterne.

(19)

19

Questa tecnica è nota come “la procedura di Box-Jenkinks” [6] ed è molto utilizzata in letteratura. Il limite di questa tipologia di algoritmi consiste appunto nell’individuare manualmente i parametri di input, scelta spesso difficile ma che può essere aiutata dai grafici di autocorrelazione globale (Acf) per la parte relativa alla media mobile e di autocorrelazione parziale (Pacf) per la parte auto regressiva. In letteratura esistono diverse varianti dei modelli ARMA, da cui deriva Arima, tra cui troviamo: Arimax, Sarima, Sarimax. I modelli Arima “semplici” sono i più diffusi in assoluto vista la capacità di integrazione della serie temporale e gli ottimi risultati ottenuti. Tuttavia, non si dimostrano capaci di trattare serie temporali stagionali motivo per cui è stata implementata una variante in grado di gestire sia la componente stagionale sia la presenza di regressori esterni, il cui nome è

Sarimax.

Un altro modello molto utilizzato per lo studio delle serie temporali è il modello di regressione lineare multipla il quale utilizza una serie di variabili indipendenti X per prevedere il valore attuale Y. Al contrario del modello di regressione lineare semplice, il quale prevede solamente una variabile come regressore, sarà possibile fornire all’algoritmo due o più variabili contemporaneamente utilizzate per prevedere i valori futuri. L’equazione della regressione lineare multipla che utilizza n variabili indipendenti per effettuare le previsioni è

𝑦

𝑡

= 𝛽

0

+ 𝛽

1

𝑋

1 𝑡

+ 𝛽

2

𝑋

2 𝑡

+

+ 𝛽

𝑘

𝑋

𝑘 𝑡

+ 𝑒

𝑡

dove yt rappresenta la variabile dipendente da predire, X1, X2, …, Xt sono le variabili

indipendenti, 𝛽1, 𝛽2, …, 𝛽𝑛rappresentano i coefficienti di regressione e eindica l’errore.

Altri due modelli di regressione utilizzati in letteratura sono LASSO e RIDGE i quali utilizzano un sistema di scelta automatica dei regressori e ottimizzano automaticamente la regolarizzazione per evitare che la varianza delle stime sia troppo elevata come potrebbe accadere nel caso della regressione semplice. La regolarizzazione viene effettuata mediante la minimizzazione della somma dei quadrati residui e l’assegnazione di una penalizzazione alle variabili di regressione.

Un modello molto diffuso in letteratura è l’Holt-Winters. Il modello di Holt-Winters [7] è uno degli algoritmi più utilizzati per calcolare la previsione di domanda per serie storiche

(20)

20

continue, caratterizzate dalla presenza di trend e stagionalità. Esso fa parte di quella famiglia di modelli che implicano una decrescita esponenziale pesata per le osservazioni detta comunemente “livellamento esponenziale” dall’inglese “exponential smoothing”. L’idea soggiacente al modello è quella di attribuire maggior peso alle osservazioni più recenti e pesi via via minori per osservazioni passate.

Uno degli approcci più utilizzati negli ultimi anni per la previsione di serie temporali è quello delle reti neurali. Le reti neurali più utilizzate, per lo studio delle serie temporali, sono LSTM (Long Short Term Memory) [8]. Le reti LSTM sono una forma speciale di Recurrent Neural

Network (RNN), ampiamente utilizzata per apprendere da serie di dati. Nelle reti ricorrenti

sono previste connessioni di feedback (in genere verso neuroni dello stesso livello, ma anche all’indietro). Questo permette di considerare il comportamento in più istanti temporali utilizzando un effetto memoria a breve termine. Un'unità LSTM comune è composta da una Cella, Input gate, Output gate e un Forget gate. La cella ricorda i valori su intervalli di tempo arbitrari mentre il forget gate decide cosa tenere e cosa lasciare. L’input gate invece sceglie quali sono le nuove informazioni da considerare mentre l’output

gate funge da filtro alla cella decidendo cosa restituire al successivo stato nascosto.

Un ultimo modello che sta prendendo sempre più piede è Prophet, un algoritmo di previsione su time series implementato dal colosso statunitense Facebook. L’idea di

Prophet [9] è quella di creare un modello di regressione sulla base delle componenti di

trend, stagionalità e festività. È in grado di lavorare con serie temporali al cui interno sono presenti valori mancanti oppure si verificano cambiamenti improvvisi di tendenza. Inoltre, è molto indicato su serie temporali di medio o lungo periodo al cui interno sono presenti stagionalità multiple, che l’algoritmo riesce a catturare in modo efficiente.

1.5 Studio delle Serie Temporali

In questa sezione, verranno mostrate le tecniche principali per studiare ed analizzare una serie temporale. Lo studio della serie temporale è sicuramente la fase più importante di tutto il processo di previsione in quanto capire le caratteristiche intrinseche permetterà di creare modelli più performanti e quindi previsioni migliori.

(21)

21

1.5.1 Funzione di Autocorrelazione (ACF)

La funzione di autocorrelazione (ACF), indica la dipendenza lineare che esiste tra il processo al tempo t e sé stesso al tempo t+h. Per visualizzare l’eventuale correlazione, viene usato uno strumento grafico chiamato correlogramma, nel quale ogni barretta verticale rappresenta la correlazione della serie (p) in funzione di k (pk). Con k si indica il ritardo o lag

temporale con cui l’autocorrelazione è calcolata. Di seguito i tre casi principali di autocorrelazione su una serie temporale:

Figura 1-7: Esempio Trend, Stagionalità, Rumore4

Quando i valori di autocorrelazione ρk sono positivi e decrescono lentamente all’aumentare

di k (grafico a sinistra) significa che sono fortemente correlati a quelli della serie ritardata di un periodo. Ad esempio, se stiamo osservano il mese di maggio, vedremo che sarà maggiormente correlato al mese di aprile, un po' meno a marzo e così via. In questo caso diremo che prevale la componente tendenziale o semplicemente il trend.

Quando i valori di pk sono positivi ma si trovano in corrispondenza di intervalli regolari, ad

esempio k=12, vuol dire che in quell’istante sono fortemente correlati con quelli dell’anno passato. In questo caso prevale quindi la componente stagionale.

Quando i valori di pk variano, ma si trovano sempre all’interno di una banda ristretta, vuol

dire che la serie non presenta particolari correlazioni con il passato. Si presuppone quindi

(22)

22

che il processo che genera la serie sia di tipo randomico o comunque che le variabili assumano una distribuzione casuale.

L’analisi dell’autocorrelazione delle serie temporali risulterà particolarmente utile quando verranno analizzati i modelli Arima, i quali richiedono che la serie sia stazionaria. L’analisi del grafico di autocorrelazione, assieme al test ADF, rappresentano i due strumenti più importanti per capire e studiare le caratteristiche di una serie temporale.

1.5.2 Funzione di Autocorrelazione Parziale (PACF)

La funzione di autocorrelazione parziale (PACF) è usata per misurare il grado di associazione tra Xt e Xt-k al netto dei ritardi intermedi Xt+1, Xt+2, …, Xt+k-1 in quanto è possibile che

presentino una correlazione significante. In una serie storica infatti può essere presente una correlazione significante tra 𝑌𝑡 e 𝑌𝑡−1 come tra 𝑌𝑡−1 e 𝑌𝑡−2. Di conseguenza è probabile

che vi sia una correlazione anche tra 𝑌𝑡 e 𝑌𝑡−2 poiché entrambi sono correlati con 𝑌𝑡−1 e per

misurare questa correlazione è necessario rimuovere gli effetti di 𝑌𝑡−1.Questo è quello che

avviene attraverso l’autocorrelazione parziale.

Il coefficiente di autocorrelazione di ordine k è definito 𝛼𝑘 e può essere calcolato attraverso

la seguente relazione:

X𝑡= 𝑏0 + 𝑏1X𝑡−1 + 𝑏2X𝑡−2 + … + 𝑏𝑘X𝑡−𝑘

1.5.3 Scomposizione di una Serie Storica

Un ruolo significativo nell’ambito dei modelli di previsione è la possibilità di tener conto degli andamenti caratteristici di una serie temporale separando la componente casuale da ciò che ne rappresenta l’andamento caratteristico. La capacità di rimuovere dalla serie tutte quelle informazioni “casuali o randomiche” permette ai vari modelli di effettuare previsioni più accurate. Per quanto concerne le serie temporali relative alle acquisizioni, la scomposizione di una serie indica la capacità di isolare i dati caratteristici della serie dalle sue quattro componenti principali (trend, stagionalità, ciclicità e errore). Spesso si tende a

(23)

23

considerare il ciclo-trend come un’unica componente, in termini sintetici, possiamo rappresentare la scomposizione mediante la seguente formula:

𝑌 = 𝑋 + 𝜀 = 𝑓(𝑐𝑖𝑐𝑙𝑜 − 𝑡𝑟𝑒𝑛𝑑, 𝑠𝑡𝑎𝑔𝑖𝑜𝑛𝑎𝑙𝑖𝑡à, 𝑒𝑟𝑟𝑜𝑟𝑒)

Dove 𝜀 rappresenta la parte residuale o irregolare della serie. In letteratura vi sono diversi approcci e metodologie per procedere con la scomposizione della serie nelle sue componenti, l’idea comune è quella di identificare per prima la componente di trend e ciclicità ed in seguito la componente stagionale.

Componente Tipologia Descrizione Possibili Cause Ciclo Sistematica Un movimento o oscillazione

originato dal presentarsi di condizioni più o meno favorevoli, di espansione e contrazione, del contesto nel quale si colloca il fenomeno in esame

Interazioni di fattori economici dovuti probabilmente alle campagne di marketing

Trend Sistematica Incremento o decremento dei valori della serie nel lungo periodo

Espansione della società dovuto soprattutto all’aumento delle iscrizioni mediante i canali digitali Stagionale Sistematica Fluttuazioni periodiche

regolari che si ripetono nell’arco dell’anno

Causata principalmente dal fatto che le persone tendono a giocare di più in determinati periodi dell’anno

Residuale Non Sistematica Fluttuazioni della serie che si determinano una volta eliminate le componenti sistematiche

Variazioni nei dati come conseguenza del caso o di eventi di carattere straordinario (promozioni, problemi al sito internet, ecc..)

Tabella 1: Componenti Serie Temporali

Per quanto riguarda la componente residuale è da assumere che sia casuale e quindi non prevedibile, come accennato precedentemente, trattasi del cosiddetto White Noise ovvero rumore di fondo che non dovrebbe contenere in alcun modo dati relativo alla serie e quindi un processo stazionario con media e varianza prossima allo zero.

Il Trend (detto anche componente tendenziale) di una serie temporale descrive l’andamento medio della stessa riferito ad un’opportuna scala temporale. Quando si parla

(24)

24

di trend, nella maggior parte di casi, ci si riferisce ad un trend lineare su tutto l’intervallo di osservazione della seria facendo sì che la componente ciclica e la media abbiano valori nulli. La Stagionalità (o componente stagionale) è costituita da quelle oscillazioni di un fenomeno che si ripetono in maniera analoga nel medesimo periodo (anno). Un esempio potrebbe essere rappresentato dalle festività natalizie o dalle vacanze estive che in qualche modo potrebbero influenzare la serie temporale.

La Ciclicità (o componente congiunturale) è formata dai movimenti (fluttuazioni) legate all’espansione o contrazione di un fenomeno. La differenza con la stagionalità è che la stagionalità fa riferimento ad un periodo più lungo, spesso di molti anni, mentre la ciclicità si riferisce ad un periodo più breve come un mese, un quarto o al più un anno.

I Residui rappresentano la parte randomica della serie storica, ovvero quella componente di serie non prevedibile a causa dell’aleatorietà delle variabili. Essi vengono rilevati dopo aver decomposto la serie e rimosso Trend, Stagionalità e Ciclicità da essa. Se la decomposizione è stata effettuata correttamente si rilevano nei residui dei valori che non sono in alcun modo correlati con la serie stessa.

Il concetto che sta alla base della scomposizione [10] di una serie storica è che la serie può essere espressa mediante una relazione funzionale degli elementi che la compongono:

𝑌𝑡 = 𝑓(𝑆𝑡, 𝑇𝑡, 𝐸𝑡)

Dove, Yt, St, Tt ed Et rappresentano rispettivamente i valori della serie, la componente

stagionale, quella di ciclo-trend e la parte residuale. In particolare, esistono due forme principali di scomposizione: quella additiva e quella moltiplicativa. Le formule sono le seguenti:

𝑌𝑡 = 𝑆𝑡 + 𝑇𝑡 + 𝐸𝑡

𝑌𝑡 = 𝑆𝑡 × 𝑇𝑡 × 𝐸𝑡

La scomposizione additiva è indicata nel caso di fluttuazioni stagionali non correlate alle variazioni del livello della serie, quella moltiplicativa è indicata qualora le fluttuazioni stagionali crescano o decrescano proporzionalmente alla serie. Una soluzione alla scelta di

(25)

25

una tra le due scomposizioni è quella di applicare una trasformazione logaritmica ai valori della serie in modo da ridurre la varianza e l’effetto della stagionalità sui dati.

𝑌

𝑡

= log 𝑆

𝑡

∗ 𝑙𝑜𝑔𝑇

𝑡

∗ 𝑙𝑜𝑔𝐸

𝑡

Figura 1-8: Scomposizione Serie Storica

La decomposizione della serie è stata effettuata mediante l’algoritmo STL (Seasonal Trend

decomposition using Loess) sviluppato da Cleveland, McRae e Terpennin nel 1990 [11]. La

chiave dell’approccio STL è il livellamento LOESS (LOcal regrESSion). Per un insieme di misurazioni yi e xi, Loess fornisce una stima uniforme g(x) per y a tutti i valori di x, non solo

ai valori xi per i quali è stata misurata y. Per calcolare g, viene scelto un numero intero

positivo q: maggiore sarà tale numero, maggiore sarà il livellamento. L’algoritmo è stato confrontato con la funzione decompose di R. Quest’ultima, una volta scelto il tipo di decomposizione (additiva o moltiplicativa), non è in grado di individuare correttamente la stagionalità, soprattutto nel modello moltiplicativo, conservando nella serie informazioni che non dovrebbero essere presenti.

(26)

26

1.5.4 Processi Stocastici e Stazionarietà

Possiamo definire un processo stocastico continuo come un insieme di variabili casuali continue descritte da un parametro t che appartiene ad un insieme parametrico T. Le variabili sono rilevate ad intervalli regolari ed equi-spaziati assumendo valori in un intervallo reale. Conoscere un processo stocastico significa conoscere la probabilità di ciascuna combinazione delle sue variabili; questo rende evidente l’enorme difficoltà teorica e pratica nello studio di un qualsiasi processo stocastico dato che nella pratica si ha a disposizione un campione finito del processo stesso. Un aspetto particolarmente utile ai fini della trattazione dei processi stocastici nell’analisi delle serie storiche riguarda il comportamento, rispetto al tempo, della famiglia delle variabili casuali che compongono il processo. Tale assunzione si basa sul fatto che la distribuzione Xt sia uguale per ogni t

giustificandola con la circostanza che molti processi possiedono una distribuzione di equilibrio per t→∞. Diremo quindi che un processo stocastico è stazionario, in senso stretto, quando la distribuzione multivariata delle variabili casuali, che compongono il processo, non dipende dal tempo.

La stazionarietà individua una condizione molto restrittiva in quanto tutte le possibili variabili casuali multiple che caratterizzano il processo stocastico devono verificare una certa “stabilità”. Un concetto meno restrittivo è quello della stazionarietà in senso debole nel quale un processo stocastico è caratterizzato da un valore medio costante e da una funzione di auto-covarianza che dipende soltanto dal lag5 temporale che separa le variabili

casuali. Nella stazionarietà in senso debole, il vincolo riguarda solo l’esistenza dei momenti fino al secondo ordine senza nessuna condizione riguardo le funzioni di densità multivariate che identificano il processo.

Per verificare la stazionarietà della serie temporale, vengono utilizzati due test statistici principali che sono:

1. Il test di Augmented Dickey-Fuller (ADF)

2. Il test di Kwiatkowsky, Phillips, Schmidt, Shin (KPSS)

(27)

27

Il test ADF [12], detto anche test di radice unitaria, serve a spiegare quanto la serie temporale è dipendente dal trend, infatti si è visto come una serie per essere stazionaria, deve avere media e varianza costante. In particolare, viene definita l’ipotesi H0 chiamata

anche ipotesi nulla, la quale testa la presenza di radici unitarie nella serie. La presenza di una o più radici indicano la presenza di trend e quindi classificano la serie

come non stazionaria.

L’ipotesi alternativa H1, indica invece l’assenza di radici unitarie classificando la serie come

stazionaria. In dettaglio, l’ipotesi viene letta dal valore del p-value (test di verifica dell’ipotesi) il quale presenta le seguenti caratteristiche:

1. Se il p-value è inferiore o uguale a 0.05 significa che il test ha rifiutato l’ipotesi nulla e ha indicato l’assenza di radici unitarie classificando la serie temporale come stazionaria.

2. Se il p-value è maggiore di 0.05 significa che il test non è riuscito a rifiutare l’ipotesi nulla a causa della presenza di radici unitarie nella serie temporale. In questo caso, la serie viene classificata come non stazionaria.

Il secondo test è il KPSS [13] il quale ha un funzionamento simile all’ADF, ma i risultati vanno letti al contrario, vale a dire che un p-value inferiore a 0.05 indica la non stazionarietà della serie mentre un valore più alto ne indica la stazionarietà.

1.5.5 Misure di Errore

In questa sezione verranno illustrati quelli che sono gli errori di previsione considerati per i modelli analizzati. In particolar modo, verranno prese in esame le seguenti metriche di errore:

• MSE: indica la media fra i valori quadrati dei dati osservati ed i valori predetti. • RMSE: penalizza maggiormente grandi errori rispetto ai piccoli perché prima li eleva

al quadrato; è approssimabile alla deviazione standard degli errori se la media degli errori è vicina a zero.

(28)

28

• MAE: è la media dei valori assoluti degli errori, più tollerante a grandi errori occasionali poiché non vengono elevati al quadrato

• MAPE: indica la media aritmetica dei rapporti tra il valore assoluto degli errori di previsione e la domanda effettiva verificatasi in n intervalli (tutti di uguale durata) fino ad arrivare al periodo t rispetto al quale è stata effettuata la previsione; • R2: Coefficiente di determinazione

• AIC: Fornisce una misura della qualità della stima di un modello statistico tenendo conto sia della bontà di adattamento che della complessità del modello.

Il MAE e il MAPE hanno il vantaggio di essere compresi più facilmente anche da non specialisti. Queste misure sono meno sensibili all’effetto di grandi outliers e così potrebbero fornire una migliore stima della grandezza di un errore medio quando la distribuzione degli errori non è approssimabile da una normale [14]. In particolare, il MAPE è una misura di accuratezza che non è legata alla scala della serie storica, per cui può essere utilizzato per comparare metodi previsionali basati su serie storiche con scala diversa. La distorsione del MAPE è dovuta al fatto che tale misura non è simmetrica, ovvero scambiare 𝑦𝑡 con 𝑦̂𝑡 non porta allo stesso risultato, nonostante il fatto che l’errore assoluto 𝐴𝐸𝑡 non cambia dopo questo scambio; l’asimmetria è dovuta al denominatore della formula dove scambiare 𝑦𝑡 e 𝑦̂𝑡 porta a un differente risultato [15]. Proprio a causa di questa asimmetria, il MAPE penalizza maggiormente le sovrastime rispetto alle sottostime. Ciò è evidenziato dal range di valori che il MAPE può assumere, ovvero i valori compresi tra ( -100%, +∞). Infine, l’RMSE, è una misura di accuratezza che si basa sulla scala dei dati analizzati, ed è quindi poco indicata per confrontare serie storiche su scale diverse. L’RMSE ha il vantaggio di essere una misura ideale e rappresenta un fattore affidabile al fine di prendere decisioni aziendali, infatti è semplice interpretarlo: un valore inferiore dell’RMSE solitamente implica un risultato migliore. Inoltre, l’RMSE è una buona misura per confrontare modelli in cui la media dell’errore non sia nulla, perché penalizza le distorsioni derivanti da quest’ultima.

Va notato come l’RMSE fosse la misura di accuratezza storicamente maggiormente utilizzata prima dell’introduzione del MAPE, nonostante la popolarità riscossa tra gli accademici non rispecchia l’efficienza nello scegliere il metodo di previsione migliore.

(29)

29

Le misure di valutazione dell’errore di previsione possono essere utilizzate per scegliere le migliori combinazioni di parametri numerici di ciascun modello tali per cui potranno essere cambiati fintanto che l’errore di previsione risulti il più basso ottenibile.

(30)

30

2 CASO DI STUDIO

Come specificato nell’introduzione, il contesto in cui si opera è il gambling. Il progetto di tesi è stato svolto durante il tirocinio aziendale presso l’azienda Integris S.p.A e riguarda la previsione di acquisizioni di clienti per l’azienda X-Bet.

Lo scopo è quello di effettuare analisi di tipo quantitativo e qualitativo sui clienti cercando quindi di prevedere se e quando un cliente verrà acquisito. A tale fine, vengono considerati i tre canali di acquisizione principali ovvero il canale tradizionale, diretto e digitale. Il canale Tradizionale indica le acquisizioni provenienti da un negozio fisico, indica quindi la maniera classica di acquisizione di clienti mentre il canale Diretto indica le acquisizioni provenienti dalla pagina web principale. Il canale Digitale, invece, indica sempre acquisizioni provenienti dalla rete, ma da terze parti, cioè si tratta di clienti che sono stati reindirizzati da siti esterni tramite sponsorizzazioni o link. Spesso molti siti o compagnie esterne guadagnano una parte della remunerazione sulla base delle affiliazioni, ovvero dal numero di clienti che vengono acquisiti. Il canale digitale si è dimostrato essere in forte crescita, soprattutto tra i giovani, i quali utilizzano principalmente lo smartphone o il pc per connettersi alla rete. Tuttavia, il 2018 è stato l’anno dell’approvazione di un decreto che ha provocato un gran malcontento nel mondo del gioco online e delle scommesse sportive: il

Decreto Dignità6. Tale decreto, è stato approvato dal Consiglio dei Ministri in data 2 luglio

2018 ed è entrato in vigore il 12 agosto. Lo scopo principale del decreto, firmato Luigi Di Maio, è la lotta al precariato ed è articolato in quattro punti fondamentali. Ciò che colpisce in maniera diretta gli operatori di gioco online e scommesse sportive è l’ultimo punto, nel cui testo si legge che è vietata “qualsiasi forma di pubblicità, anche indiretta, relativa a

giochi o scommesse con vincite di denaro, comunque effettuata e su qualunque mezzo, incluse le manifestazioni sportive, culturali o artistiche, le trasmissioni televisive o radiofoniche, la stampa quotidiana e periodica, le pubblicazioni in genere, le affissioni ed internet”.

Il quarto punto del Decreto Dignità impedisce agli operatori di gioco online di stipulare accordi pubblicitari per promuovere il gioco d’azzardo su qualsiasi mezzo di comunicazione.

(31)

31

Niente più annunci per pubblicizzare il gioco d’azzardo né sui giornali, né in tv e né sul mezzo più usato del momento, ovvero il dispositivo mobile, primo fra tutti lo smartphone. Il decreto, comunque, ha validità solo sui nuovi accordi, quindi gli accordi già in vigore continueranno a valere fino alla data di scadenza prefissata. Il quarto punto del Decreto Dignità è stato ideato con lo scopo di combattere la ludopatia, cercando di ridurre la partecipazione al settore del gioco online e delle scommesse sportive che, negli ultimi anni, ha riscontrato un trend in forte aumento in termini di nuovi iscritti e volume di gioco. Con benefici per le casse dello Stato, poiché i dati di cui parliamo riguardano il gioco legale. Si fa riferimento, dunque, alle attività di gioco esercitate su siti autorizzati, che operano sotto licenza fornita dall’Agenzia Dogane e Monopoli.

Tutto ciò, come verrà visto più avanti, influenzerà in modo sostanziale i canali di acquisizioni per l’anno 2018. Si vedrà come il canale diretto subirà un’impennata di acquisizioni subito dopo l’approvazione del Decreto Dignità, a dimostrazione del fatto che la normativa non riesca a combattere il fenomeno della ludopatia e che il settore risulta comunque in crescita.

(32)

32

3 DATA UNDERSTANDING

È fondamentale, in qualsiasi attività di analisi di dati, è saper leggere i dati. I grafici consentono di visualizzare molte caratteristiche dei dati, inclusi schemi, osservazioni insolite, cambiamenti nel tempo e relazioni tra variabili. Le funzionalità visualizzate nei grafici dei dati devono quindi essere incorporate, per quanto possibile, nei metodi di previsione da utilizzare. Il tipo di dati determina quale metodo di previsione utilizzare e determina, altresì, quali grafici risultano essere appropriati. Per lo studio dei dati, è stato utilizzato principalmente il software R [16] per quanto concerne la creazione dei modelli mentre Python [17] e Knime [18] per la fase di ETL.

La fase di Data Preparation consiste nell’elaborazione dei dati al fine di renderli utilizzabili per le varie analisi. Nel corso della sezione verranno illustrati i vari passi che sono stati utilizzati per creare la serie temporale finale mediante i seguenti passaggi:

• Gestione Missing Values e Outliers • Creazione variabili esterne aggiuntive

3.1 Il Dataset

I dati relativi alle acquisizioni sono stati accuratamente estratti dal DataWarehouse aziendale cercando di mantenere l’anonimato dei clienti e criptando il più possibile le informazioni sensibili. Esso si compone di 62 tabelle che contengono sia dati utili per lo studio delle acquisizioni sia dati secondari relativi ai vari settori del gambling (calcio, casinò, ecc..). Pertanto, sono state estratte solamente le tabelle contenenti le informazioni relative all’acquisizione dell’utente come, ad esempio, la tabella relativa all’anagrafica, una sul canale di acquisizione, una sulla localizzazione geografica e un’altra sul tipo di pagamento. Mediante il linguaggio SQL, esse sono state unite (join) in un’unica base dati contenente tutte le acquisizioni a granularità giornaliera presentandosi infine come un’unica tabella aggregata e filtrata contenente le seguenti colonne:

(33)

33

Colonna Tipo

Consenso Comunicazioni Marketing Bool

Regione Varchar

Sesso Char

Data di Acquisizione Date

Età Int

Canale Principale di Acquisizione Varchar Metodo di Pagamento Varchar

Totale Int

Figura 3-1: Il Dataset

Le acquisizioni fanno riferimento ad un periodo che va dal 1° gennaio 2006 al 31 Dicembre 2018 contenenti in totale 1043226 records, in seguito verranno mostrati in dettaglio gli attributi:

Consenso Comunicazioni Marketing: indica se in fase di iscrizione l’utente ha dato il

consenso all’invio di comunicazioni di marketing

• Regione: indica la regione di acquisizione del cliente. In particolare, sono presenti tutte le regioni italiane con l’aggiunta del valore “estero” che indica le acquisizioni provenienti da paesi stranieri.

• Sesso: indica il sesso del cliente (M o F).

• Data di Acquisizione: data di acquisizione nel formato YYYY-MM-GG. • Età: valore decimale che indica l’età media dei clienti per il mese corrente.

• Canale di acquisizione: indica la provenienza del cliente sulla base dei tre canali di acquisizioni principali:

1. Canale Tradizionale 2. Canale Diretto 3. Canale Digitale

I dati di acquisizione di ogni canale sono stati trattati come serie temporali distinte, ognuna possiede caratteristiche diverse dall’altra dovute principalmente alla “tipologia” di cliente acquisito.

(34)

34

• Metodo di pagamento: indica il metodo di pagamento tramite cui il cliente ha effettuato il primo deposito. I metodi di pagamento accettati sono:

1. Paypal (in vigore da Gennaio 2011) 2. Skrill

3. Bonifico Bancario 4. Carta di Credito

• Totale: indica la somma delle persone acquisite mensilmente da tutti i canali di acquisizioni nonché la classe che vogliamo predire per il 2018.

3.2 Gestione Missing Values e Outliers

In questa sezione vengono illustrate le tecniche utilizzate per la gestione dei valori mancanti e dei missing values sui dati estratti.

Da una prima analisi si evince che i dati che vanno dal 2006 al 2010 presentano molte informazioni mancanti, spesso intere settimane, soprattutto tra il 2006 e il 2007. Inoltre, mancano informazioni sui pagamenti, sul consenso all’invio di informazioni di marketing o il canale di provenienza. Per tale motivo, visto che i modelli di previsione su serie temporali continue soffrono molto la mancanza di intervalli temporali, si è scelto di eliminare l’intero periodo dal dataset per non creare modelli erroneamente addestrati su dati inesatti. I dati che vanno invece dal 2010 al 2018 non presentano particolari anomalie, fatta eccezione per l’anno 2010 dove non è presente come sistema di pagamento Paypal7, i cui

valori nulli, sono stati sostituiti con il valore 0 poiché nessuno ha utilizzato il suddetto sistema di pagamento.

In fase di aggregazioni dei dati, si è visto che diverse giornate presentano dati mancanti relativi ai canali di acquisizione. Essendo comunque presenti le informazioni relative alle acquisizioni totali e dei restanti canali di acquisizioni si è scelto di rimpiazzare tali valori con la differenza fra il totale delle acquisizioni e i canali rimanenti. Non si è mai verificato che mancasse più di un dato sulla singola riga rendendo quindi più semplice la costruzione del

(35)

35

dataset. Per quanto riguarda gli outliers, non sono state individuate particolari criticità visto che la fase di estrazione dei dati è stata revisionata preventivamente sul DataWarehouse.

3.3 Creazione Variabili Derivate

I modelli di regressione lineare che verranno analizzati non riescono ad individuare correttamente la stagionalità. In realtà, la funzione tslm utilizzata su R permette di indicare al modello lineare sia il trend che la stagionalità. Il trend e la stagionalità sono parte del valore delle acquisizioni che si vogliono predire dando origine a quello che viene definito

overfitting [19]. In effetti, indicando solamente la componente di trend o stagionalità, si

ottiene un R2 prossimo ad 1 ad indicare che il modello si basa eccessivamente ai dati del

training set. Per ovviare al problema, sono state create 12 colonne dummies aggiuntive che contengono l’informazione booleana sul mese corrente. Per esempio, se viene analizzato Aprile 2014, sulla colonna dummy di aprile si avrà il valore 1 mentre per tutti gli altri mesi risulterà uguale a 0. Questo potrebbe aiutare sia l’algoritmo di regressione lineare multipla D, ma anche modelli multivariati come Sarimax che verranno presi in esame più avanti.

3.4 Creazione Variabili Aggiuntive

Al fine di migliorare i modelli di regressione multivariati, sono state ideate ulteriori colonne aggiuntive che possono fornire informazioni utili per migliorare ulteriormente i risultati ottenuti:

• Ritardo Annuale: la colonna Ritardo Annuale contiene il valore delle acquisizioni per ogni mese dell’anno precedente. Questo potrebbe tornare utile alla regressione per individuare una stagionalità nei dati, visto che, come vedremo più avanti, sarà presente.

• Festività: indica il numero di giorni festivi in un mese, vengono quindi individuati tutte le festività principali (Natale, Capodanno, Pasqua, ecc..). Quest’informazione potrebbe essere utile per capire se il numero di acquisizioni mensili dipende anche

(36)

36

dalle festività, vale a dire se la gente tende a usare i suddetti servizi durante periodi di ferie e festività. Dimostreremo che quest’informazione risulterà particolarmente utile agli algoritmi di regressione migliorando notevolmente le previsioni.

• Campagna Marketing: indica se nel periodo preso in esame era in corso, o meno, una campagna di marketing. In effetti, tra settembre 2015 e aprile 2016, l’azienda ha avviato una vasta campagna di marketing, sia per i canali fisici che digitali, facendo sì che il numero delle iscrizioni aumentasse vertiginosamente. A partire da maggio 2016 in poi si vede come il numero di acquisizioni tende a tornare nella norma, ma comunque sempre con un trend in crescita.

• Europei: indica se nel mese in corso vi sono gli europei di calcio. Come i mondiali, gli europei si svolgono ogni quattro anni, a due anni di distanza dai mondiali: gli europei di calcio hanno avuto luogo nell’anno 2012 e nel 2016.

• Mondiale: indica se nel mese in corso vi è un mondiale di calcio. I mondiali di calcio si svolgono ogni quattro anni, nel mese di giugno, quindi nel dataset si avrà la presenza dei mondiali per l’anno 2010, 2014 e per l’anno 2018, l’anno che si prenderà in considerazione per le previsioni. Quest’informazione, probabilmente, è quella che risulterà più utile in quanto, solitamente, nei mesi estivi, il numero di acquisizioni tende a diminuire per poi tornare nella norma da luglio in poi. Negli anni in cui ci sono stati i mondiali, si nota invece una tendenza inversa, soprattutto nel 2014, dove il numero di acquisizioni in estate è più alto rispetto alla media. Considerato che nell’anno 2018 vi è stato il mondiale di calcio in Russia l’informazione relativa alla presenza del mondiale sarà di fondamentale importanza.

Le colonne sono state ottenute mediante l’utilizzo di Python [17] e di alcune sue librerie specifiche. Alcune colonne a granularità giornaliera (come il giorno della settimana) non sono state utilizzate in quanto ritenute poco utili. In particolare, è stato possibile individuare i giorni festivi, su base mensile, al fine di comprendere se esiste una correlazione tra il numero di clienti acquisiti e tali festività.

(37)

37

3.5 Il Dataset Finale

Come strumento principale per la creazione e valutazione dei modelli è stato utilizzato il software R mentre, come accennato nel paragrafo precedente, per la creazione delle variabili derivate e la pulizia dei dati sono stati utilizzati sia Python che Knime [18].

Il dataset finale contiene 108 osservazioni corrispondenti ai 9 anni in esame, aggregati a livello mensile per canale di acquisizione con l’aggiunta delle variabili derivate ed esterne. Le serie temporali richiedono che i dati abbiano una certa frequenza, ad esempio, oraria, giornaliera, mensile o annuale. Nel caso di studio, l’orizzonte temporale è su base annuale (h=12) per tutti i canali di acquisizione.

3.6 Tecniche di Validazione

In questa sezione verranno discussi alcuni strumenti generali che sono utili per molte situazioni di previsione. Verranno descritte due differenti tecniche di validazione per la suddivisione del dataset in Training Set e Test Set: Hold-Out e Cross-Validation.

Tutti i modelli sono stati implementati con entrambe le tecniche di validazione in modo da poter confrontare i risultati ed eleggere la procedura migliore per ogni algoritmo. Per quanto riguarda la procedura hold-out, il dataset è stato suddiviso in training set a partire dal 1° gennaio 2010 al 31 Dicembre 2017 e test set dal 1° gennaio 2018 al 31 Dicembre 2018. I modelli sono stati addestrati sul training set e valutati sul test set. La funzione di previsione utilizzata proviene dalla libreria Forecast di R e permette di effettuare una previsione all’interno di un orizzonte temporale prendendo come input il modello appena creato. I dati di previsione ottenuti sono stati confrontati con i dati reali di acquisizione del 2018 calcolando le varie metriche e misure di errore.

(38)

38

3.6.1 Hold-Out

La validazione Hold-Out è la procedura più diffusa in letteratura per la creazione di modelli statistici. Essa consiste nel dividere il dataset in due parti fisse: una chiamata Training Set che solitamente copre circa i due terzi del dataset, usata per “addestrare” i modelli, ed una detta Test Set, che serve a verificare i risultati di predizione dei modelli per verificarne la correttezza. Nel caso specifico si è scelto di dividere il dataset in:

• Training Set: contiene i dati da gennaio 2010 a dicembre 2017 • Test Set: contiene i dati relativi all’anno 2018

In questo modo i dati antecedenti al 2018 verranno utilizzati per l’addestramento dei vari modelli che verranno successivamente testati sui dati reali del 2018.

3.6.2 Cross Validation on Rolling Origin

La validazione Hold-Out funziona bene sulla maggior parte degli algoritmi di machine learning, tuttavia quello che accade spesso è che si va incontro al problema di overfitting8.

Per risolvere questo problema e per provare ad ottenere risultati migliori per gli algoritmi di previsione utilizzati, è stata implementata una tecnica di validazione chiamata Evaluation

on Rolling Origin [20].

In questa procedura, il dataset viene diviso in una serie di test sets in cui ognuno consiste di una singola osservazione. Il corrispondente training set consiste nelle sole osservazioni verificatesi prima dell’osservazione che costituisce il test set, pertanto, nessuna osservazione futura può essere utilizzata per costruire la previsione. Il seguente diagramma mostra il funzionamento della tecnica in cui le osservazioni blu corrispondono ai training test mentre quelle rosse formano i test set.

(39)

39

Figura 3-2: Cross-Validation9

L’errore di previsione si ottiene calcolando la media degli errori di ogni singolo modello. Questa proceduta è conosciuta come “evaluation on a rolling forecast origin” dato che la tecnica prende in considerazione le previsioni successive quindi l’”origine” su cui si basa la previsione si sposta nel tempo. La seguente tecnica è stata utilizzata con tutti gli algoritmi analizzati e confrontata con la procedura standard Hold-out.

3.7 Analisi Statistiche di Base

In questa sezione vengono mostrate quelle che sono le caratteristiche del dataset finale. In particolare, osserviamo come il fenomeno del gambling online sia cresciuto anno dopo anno.

(40)

40

Figura 3-3: Acquisizioni per Anno

Si nota, come dal 2010 ad oggi, il settore sia cresciuto di oltre il 300% dando inizio ad un fenomeno mai visto prima e che continua a crescere sempre più rapidamente. La crescita è dovuta maggiormente all’aumento di acquisizioni provenienti dal canale digitale, sconosciuto fino a diversi anni fa, ma che ultimamente sta attirando sempre più persone di qualsiasi fascia di età anche grazie alla diffusione dei nuovi mezzi di telecomunicazione e alla facilità di accesso alla rete. Si nota, inoltre, come l’effetto della campagna di marketing verificatasi tra il 2015 e il 2016 abbia fatto sì che il numero di clienti raddoppiasse rispetto al 2014.

La difficoltà nel prevedere l’anno 2018 dipende da diversi fattori:

1. Presenza della Campagna di marketing che “distorce” in parte quelli che sarebbero stati i valori reali sui dati del training set.

2. Presenza del Mondiale di calcio nei mesi estivi. 3. Tendenza in crescita sulle acquisizioni.

La presenza di stagionalità nei dati è fortemente influenzata dal fatto che fattori esterni, come i mondiali o gli europei di calcio, interferiscano enormemente sul numero di clienti iscritti in un determinato mese: in media, infatti, le iscrizioni durante i mesi estivi sono di gran lunga inferiori rispetto agli altri mesi.

(41)

41

Figura 3-4: Andamento Mensile Acquisizioni

Come si evince dalla Figura 3-4, esiste una certa distribuzione di frequenza mensile nelle acquisizioni di nuovi clienti. I mesi con il maggior numero di acquisizioni sono quelli dell’ultimo quarto dell’anno con una crescita maggiore nei mesi di ottobre e novembre, mentre quelli con il minor numero di iscritti sono i mesi estivi, ed in particolar modo il mese di luglio; in ferie o in vacanza e si dedica minor tempo ad altre attività, compreso il gambling. Le mensilità di ottobre e novembre sono quelle in cui spiccano il maggior numero di iscrizioni, mentre per il resto dei mesi abbiamo una media costante.

(42)

42

Figura 3-5: Percentuali Acquisizioni per Regione

La figura 3-5 indica la regione di provenienza dei clienti e la percentuale con cui sono distribuiti. I clienti provengono da tutta Italia, in particolar modo dalla Campania e dalla Sicilia costituendo circa il 44% delle acquisizioni totali, in più è presente anche l’indicazione “Estero” per indicare acquisizioni provenienti da altre parti del mondo.

Il grafico mostra che la maggior parte delle iscrizioni proviene dal centro-sud Italia ovvero dalla Campania (31%), seguita da Sicilia (15%) e Puglia (12%). Si ha una infima percentuale di acquisizioni provenienti dal Trentino (0.34%), Molise (0.47%) e Friuli (0.80%). Da notare come la distribuzione delle acquisizioni cambi da regione a regione interessando soprattutto le regioni meridionali rispetto a quelle settentrionali.

(43)

43

Figura 3-6: Percentuale Consenso Comunicazioni Marketing

La figura 3-6 viene rappresentata la percentuale di persone che hanno dato il consenso all’invio di comunicazioni di marketing.

In media le persone preferiscono ricevere comunicazioni di marketing, ciò probabilmente è dovuto al fatto che i bookmakers, dietro consenso del cliente, promettono promozioni e offerte vantaggiose.

(44)

44

La figura 3-7 indica la percentuale totale di uomini e donne iscritte al servizio. Si evince come la maggior parte delle acquisizioni è rappresentata da clienti maschili, si registra, tuttavia, una crescita costante della controparte femminile, soprattutto da quando il canale digitale ha iniziato a prendere piede.

Figura 3-8: Media Iscrizioni per Età

La colonna Età indica invece l’età media degli acquirenti che varia dai 18 anni (età minima per effettuare l’iscrizione) ai 102 anni. La maggior parte degli iscritti è di età compresa tra i venti e i quarant’anni d’età, con un picco tra i venticinque e i ventisei anni. Si noti come dopo i quaranta si registri un sensibile calo nella percentuale di iscrizioni.

Riferimenti

Documenti correlati

Nel sermone Dixit Dominus ad Moysen, attraverso l’uso di alcuni episodi della sua biografia, Francesco viene indicato come colui dalle cui scelte derivano le

In the present work a matheuristic solution approach is proposed for minimizing the total (or average) completion time in a 2-machine flow shop problem (F 2 | | ∑ Ci.. in the

attorno al modello possono essere individuate due fasce di ampiezza

Il metodo della Regressione Lineare (o metodo di stima ai Minimi Quadrati) si occupa di individuare, all’interno di un certo ambito di funzioni, una relazione fra le

Supponiamo ora di avere una differente incertezza per ciascuna misura sulle y e che non esista incertezza sulla misura dell’osservabile x. La nuova relazione non è altro che

Wear thresholds 1 to 5 were calculated using regression on those indi- viduals with incomplete dental development. The mean values for thresholds so estimated are then treated

È importante sottolineare che XML non può essere posto sullo stesso pia- no dello HTML, il linguaggio correntemente utilizzato per la realizzazione delle pagine web. Come si è