• Non ci sono risultati.

Prediction of Customer Churn: The Benefits of Machine Learning for a Gambling Company

N/A
N/A
Protected

Academic year: 2021

Condividi "Prediction of Customer Churn: The Benefits of Machine Learning for a Gambling Company"

Copied!
108
0
0

Testo completo

(1)

UNIVERSITÀ DI PISA

DIPARTIMENTO DI INFORMATICA

C

ORSO DI

L

AUREA

M

AGISTRALE IN

D

ATA

S

CIENCE AND

B

USINESS

I

NFORMATICS

Prediction of Customer Churn: The Benefits of

Machine Learning for a Gambling Company

Relatore

Candidato

Giovanna ROSONE

Davide INCORVAIA

(2)

Indice

ABSTRACT ... 5

INTRODUZIONE ... 6

1 CASO DI STUDIO ... 9

2 CHURN ANALYSIS: STATO DELL’ARTE ... 11

2.1 KNOWLEDGE DISCOVERY DATA ... 12

2.2 APPLICAZIONI ... 15

2.3 CRISP-DM ... 17

2.4 CUSTOMER RELATIONSHIP MANAGEMENT ... 20

2.5 CHURN ANALYSIS ... 22

3 CLASSIFICAZIONE ... 25

3.1 TIPI DI ATTRIBUTI ... 25

3.2 TRAINING,VALIDATION E TEST ... 26

3.3 VALUTAZIONE ... 28

3.3.1 Accuracy ... 28

3.3.2 Area Under the Curve ... 29

3.3.3 F-measure ... 30

3.4 PROBLEMI COMUNI NELLA CLASSIFICAZIONE ... 32

3.4.1 Class Imbalance ... 32 3.4.2 Curse of Dimensionality ... 34 3.5 MODELLI ... 35 3.5.1 Regressione Lineare ... 36 3.5.2 Regressione Logistica ... 40 3.5.3 Alberi di Decisione ... 43 3.5.4 Random Forest ... 43 3.5.5 Boosting ... 51 3.5.6 Reti Neurali ... 56

4 BUSINESS E DATA UNDERSTANDING ... 61

4.1 PROBLEMA ED OBIETTIVI ... 62

4.2 DATA WAREHOUSE ... 64

4.2.1 Esplorazione e selezione dei dati ... 65

4.3 CREAZIONE DEL DATASET ... 66

(3)

4.6 CLASS IMBALANCE ... 75

5 MODELLI A CONFRONTO ... 77

5.1 SELEZIONE DELLE VARIABILI ... 78

5.2 REGRESSIONE LOGISTICA ... 83 5.3 ALBERI DI DECISIONE ... 88 5.4 RANDOM FOREST ... 91 5.5 BOOSTING ... 94 5.6 RETI NEURALI ... 95 5.7 CONFRONTO ... 101 6 CONCLUSIONI ... 105 BIBLIOGRAFIA ... 107

(4)
(5)

Abstract

La tesi si pone l’obiettivo di descrivere il tema della churn prediction e di trovare il miglior modello previsionale per l’azienda committente. Il Churn è inteso come l’abbandono da parte del cliente o il loro spostamento da un’azienda all’altra. La churn prediction si colloca nell’ambito del Customer Relationship Management (CRM) ed è indispensabile per identificare sia i clienti che abbandonano la piattaforma di scommesse sia quelli più esposti al passaggio ad un’altra compagnia. È un argomento molto importante che riguarda tutte le aziende di tutti i settori in quanto, date le risorse limitate di cui tutte le imprese dispongono, è indispensabile identificare i clienti che stanno per abbandonare in modo tale da mettere in atto strategie di fidelizzazione. In questo elaborato saranno presentate le varie fasi di modellazione da seguire per ottenere una buona previsione del churn del cliente. Si descriveranno le varie tecniche maggiormente utilizzate tra cui la regressione, gli alberi di classificazione e le reti neurali. I modelli utilizzati per la predizione verranno di seguito valutati al fine di trovare quello migliore per l’azienda di gambling.

(6)

Introduzione

Gambling è il termine inglese con cui si definisce il gioco d’azzardo diventato impropriamente, nell’accezione d’uso italiana, sinonimo di “gioco d’azzardo patologico”. Con l’espressione “gioco d’azzardo” si intende qualsiasi attività ludica basata su una scommessa e, quindi, un investimento d’aspettativa che potrebbe fornire ricompensa economica.

L’origine del gioco d’azzardo è piuttosto antica: si ritrovano testimonianze di gioco nei diversi reperti archeologici di tutte le epoche e delle diverse società. Nell’era babilonese si usavano ossa animali per giocare e la loro funzione era essenzialmente quella del dado. Seguono poi testimonianze ludiche nelle società egizie, greche e romane e tracce del gioco d’azzardo nella cultura cinese, germanica e indoariana. Solo dal Medioevo in poi il gioco ha iniziato ad assumere una connotazione negativa: era visto infatti come fonte di peccato e venne ostacolato attraverso l'istituzione di regole, spesso imposte dalla Chiesa cattolica e dallo Stato. Risale al 1350 l’introduzione del gioco delle carte che durante il 1400 ha assunto sempre più successo nonostante le numerose condanne di magistrati e predicatori. La Lotteria era in quegli anni l'unica forma di gioco ufficialmente accettata poiché garantiva entrate per il clero e lo Stato e, di conseguenza, forniva somme ingenti destinate a riempire le casse ed a soddisfare le spese pubbliche (ad esempio la ristrutturazione del ponte di Londra). In Italia il gioco d’azzardo ha avuto origine con il Lotto il quale, già famoso a Genova nel XVI secolo, si espanse a livello nazionale. Risale al 1638 l’apertura del Ridotto di Venezia, la prima casa da gioco gestita dallo Stato. Queste “case” nel tempo si sono moltiplicate fino ad arrivare, nel 1800, ad un numero cospicuo ovvero 136. Il primo riferimento legislativo in merito lo si può trovare nell’era napoleonica, quando venne approvato che i giochi d’azzardo non venissero più puniti dalla legge, a patto di essere svolti all’interno di locali adibiti a questo scopo, ovvero i casinò. Dal 1870 in poi il gioco si diffuse anche in Europa. Il target di allora era composto maggiormente da militari e diplomatici americani presenti nel vecchio continente. Schenk, ambasciatore americano, presentò proprio in quegli anni alla Regina Vittoria il

(7)

divenne uno dei maggiori temi anche in ambito pittorico-letterario, come testimoniano le opere di Fedor Dostoevskij e di Jules Verne.

Il circuito del gioco d’azzardo durante il 2017 ha raggiunto la cifra record di 101,8 miliardi1 di euro nel nostro Paese e la spesa generata su Smartphone e Tablet ed in generale dal Gambling è aumentata del 50%. Si tratta della somma delle parti che includono ogni segmento relativo al gioco: lotterie, gratta e vinci, macchinette slot, ippica, scommesse sportive, tra cui ovviamente il calcio, gioco. Una spesa imponente soprattutto se rapportata ai dati che tra il 2014 e il 2016 sono passati da 84,5 miliardi di euro fino a 97,6 per il 2016. Proprio per questo, secondo le previsioni di AAMS2 per i prossimi anni, c’è da aspettarsi che il trend positivo continui anche in considerazione degli investimenti delle società del settore al fine di ottimizzare ed implementare le piattaforme di gioco proponendo casinò virtuali sempre più simili a quelli reali. Un trend perfettamente in linea con i dati che provengono dall’estero: secondo il rapporto “Online Gambling Quarterly” della MECN Consulting3 il 2018 si chiuderà con un +5% per le scommesse e +4% per i casinò e per le lotterie. E, se la crescita più sostanziale si attende in Asia e Stati Uniti, l’Europa si conferma come il primo mercato globale nel settore del gambling. Possiamo notare come il settore del Gambling sia un settore in forte crescita destinato ad aumentare ancora nei prossimi anni e dato che i loro principali clienti sono gli utenti finali ed il mercato è fortemente concorrenziale, molte aziende del settore stanno investendo nella Customer Relationship Management4. Nel contesto del Customer Relationship Management (CRM) il Customer Churn indica spostamento, turn-over, switch dei clienti da un’azienda all’altra.

La Customer Churn Prediction è la previsione dei clienti che stanno per terminare la loro relazione con l’azienda, quindi il Churn Management si riferisce alla gestione del turnover dei clienti, all’identificazione di quelli più esposti al passaggio ad un’altra compagnia e alle strategie per evitare le perdite di tali clienti. La churn prediction è un fattore cruciale che riguarda tutte le compagnie che incontrano sempre più difficoltà nel tentativo di fidelizzare i clienti. Infatti, i mercati saturi e in rapido movimento, la forte concorrenza, i

1 Avvisopubblico.it

2 Agenzia Doganale Monopoli, è l’ente che permette, la totale trasparenza tra l’utente e le piattaforme dei giochi

d’azzardo, e tra lo stato e le piattaforme stesse.

3 Azienda privata che offre consulenza strategica ai principali operatori del mercato e autorità di regolamentazione in

vari settori.

(8)

clienti sempre più esigenti ed informati, richiedono che le imprese siano agili e reattive. Il CRM aiuta i manager a concentrarsi su quei clienti che maggiormente contribuiscono ai profitti delle loro aziende. Questo problema è di particolare interesse perché è sia difficile che costoso allontanare i clienti dalla concorrenza: la churn prediction può essere molto meno costosa del suo opposto, vale a dire dell’acquisizione di nuovi clienti, perciò è ormai necessario che le aziende capiscano quali clienti sono a rischio di abbandono, per indirizzare loro azioni di trattenimento e fidelizzazione. La migliore strategia di marketing per sopravvivere nel proprio settore è quella di riuscire a mantenere i clienti esistenti. Nella tesi verranno descritte le tecniche maggiormente utilizzate in ambito churn prediction: la regressione, gli alberi di classificazione, le reti neurali, ecc. in modo da classificare i clienti come Churner o non Churner. Per qualunque modello di churn prediction occorre prima di tutto disporre di dati che contengano informazioni sui clienti. È fondamentale però fare attenzione alla qualità dei dati: la pulizia e la preparazione dei dati costituiscono un processo molto delicato e dispendioso ma importante per il buon esito di ogni modello. I dati che generalmente si utilizzano nei modelli di churn prediction sono quelli che contengono le informazioni sui comportamenti d’acquisto e quelli sociodemografici dei clienti. La selezione del modello e delle variabili da utilizzare rappresentano i fattori più importanti che influiscono sull’accuratezza predittiva dei modelli di churn prediction.

Il Capitolo 1 introduce il caso di studio aziendale. Nel Capitolo 2 verrà analizzata la letteratura inerente alla metodologia Knowledge Discovery in Database concentrandoci sulla Customer Relationship Management e più in dettaglio sul Churn Management. Nel Capitolo 3 verranno trattate le varie metodologie per la classificazione, focalizzandoci sugli attributi, la divisione del dataset, valutazione dei modelli, problemi della classificazione e dei modelli utilizzati per la churn prediction. Nel Capitolo 4 si descriverà il problema, gli obiettivi e la modellazione dei dati effettuata per ottenere il dataset utile all’analisi. Nel Capitolo 5 saranno mostrati e confrontati i risultati ottenuti dai diversi modelli. Nel Capitolo 6 saranno tratte le conclusioni sul lavoro svolto illustrando possibili scenari per ricerche future.

(9)

1 Caso di Studio

Il settore di analisi è quello del gambling, nel quale lavora l’azienda di scommesse che per motivi riguardanti la privacy chiameremo da qui in avanti Bet-One. È una delle più grosse imprese in Italia operante in questo specifico settore ed oltre alle scommesse sportive offre poker, casinò e giochi on-line. Inoltre, è presente da più di vent’anni nel territorio italiano e proprio per questo è uno dei principali player operanti nel territorio. L’Italia rappresenta un punto strategico per l’azienda in quanto possiede una popolazione di 60.483.9735 abitanti (31 dicembre 2017), è il quarto paese dell'Unione europea (dopo Germania, Francia e Regno Unito) ed il 23º al mondo per numero di abitanti. Il Paese ha, inoltre, una densità demografica di 200,71 abitanti per chilometro quadrato, più alta della media europea.

Il circuito del gioco d’azzardo durante il 2017 ha raggiunto la cifra record di 101,8 miliardi di euro nel nostro Paese e la spesa generata su Smartphone e Tablet ed in generale dal Gambling è aumentata del 50%. Si tratta della somma delle parti che includono ogni segmento relativo al gioco: lotterie, gratta e vinci, macchinette slot, ippica, scommesse sportive, tra cui ovviamente il calcio, gioco. Una spesa imponente, soprattutto se si considera che tra il 2014 e il 2016 si è passati da 84,5 fino a 97,6 miliardi di euro. Proprio per questo, secondo le previsioni di AAMS, per i prossimi anni è previsto che il trend positivo continui soprattutto grazie agli investimenti che le società del settore stanno effettuando al fine di ottimizzare ed implementare le piattaforme di gioco online, proponendo casinò virtuali sempre più simili a quelli reali. Questi numeri fanno capire come sia di vitale importanza per l’azienda continuare a lavorare in questo settore.

Il progetto di tesi, svolto durante il tirocinio aziendale presso l’azienda Integris S.P.A., riguarda la Customer Churn Prediction per l’azienda di gambling Bet-One, ovvero la previsione di quei clienti che stanno per terminare la loro relazione con l’azienda e, quindi, più in generale del Churn Management. Il campo di applicazione del churn management è la gestione del turnover dei clienti e consiste nell’identificare i soggetti che potrebbero abbandonare la piattaforma di gioco o quelli più esposti al passaggio ad

(10)

un’altra compagnia fino ad individuare le strategie per evitare la perdita di tali clienti. La churn prediction è un fattore cruciale che riguarda tutte le compagnie e che incontrano sempre più difficoltà nel fidelizzare i clienti. Infatti, i mercati saturi e in rapido movimento, la forte concorrenza, i clienti sempre più esigenti ed informati, richiedono che le imprese siano agili e reattive.

Nel reparto di data science aziendale esistono diversi team di lavoro alcuni dei quali si occupano di prevedere il numero di acquisizioni di nuovi clienti mentre altri studiano il fenomeno dell’abbandono. L’azienda sta impiegando molte risorse in questi ambiti per diverse ragioni: in primis, la concorrenza nel settore è diventata più elevata ed il numero di aziende italiane ed estere che operano in Italia è in forte crescita; in secondo luogo, lo stato italiano, con l’emanazione del Decreto-legge n. 87 del 2018 sta lottando contro il gioco d’azzardo patologico. Il 2 luglio 2018 è stato approvato dal Consiglio dei Ministri il decreto-legge “Disposizioni urgenti per la dignità dei lavoratori e delle imprese”: il testo normativo è suddiviso in cinque capitoli ed il terzo è dedicato alla lotta contro il disturbo da gioco d’azzardo, DGA. In particolare, l’articolo 9 “Divieto di pubblicità giochi e scommesse”, vieta qualsiasi forma di pubblicità, anche indiretta, relativa a giochi o scommesse, nonché al gioco d’azzardo, comunque effettuata e su qualunque mezzo. Proprio per questi motivi l’azienda Bet-One richiede lo sviluppo di un modello che riesca a prevedere, in maniera abbastanza accurata, il numero dei potenziali clienti che sono in procinto o che potrebbero abbandonare la piattaforma di scommesse. È infatti di minore impatto economico inviare delle promozioni e delle offerte specifiche a clienti mirati piuttosto che iniziare una campagna promozionale destinata a tutti e della quale non è possibile conoscere a priori i risultati.

(11)

2 Churn Analysis: Stato dell’Arte

La crescente disponibilità di dati nell'attuale società dell'informazione ha evidenziato la necessità di disporre di adeguati strumenti per la loro analisi, infatti l’abbondanza di dati costituisce un notevole potenziale informativo che, compreso e valorizzato, può permettere di intraprendere migliori decisioni ed azioni. In tale contesto il data mining6 si pone come processo di selezione, esplorazione e modellazione di grandi quantità di dati, al fine di scoprire regolarità o relazioni non note a priori e di ottenere un risultato chiaro ed utile al proprietario del database. Il data mining non è una semplice analisi statistica ma si presenta piuttosto come un processo che impiega una o più tecniche di apprendimento computerizzate per analizzare ed estrarre automaticamente delle informazioni utili dai dati contenuti in un database. Gli sforzi compiuti per la creazione di queste tecniche hanno portato alla nascita di una nuova area di ricerca, nota come Data

Mining e Knowledge Discovery Data [1]. Questi due termini sono spesso usati come

sinonimi sebbene la differenza sia significativa: la Knowledge Discovery Data è infatti una metodologia di analisi costituita da più fasi mentre il Data Mining rappresenta lo strumento utilizzato in una di esse. Il data mining è una strategia di apprendimento di natura induttiva che costruisce modelli per identificare pattern7 nascosti nei dati attraverso l'applicazione di uno specifico algoritmo. Il modello che si ottiene è una generalizzazione concettuale dei dati ed i concetti (insiemi di oggetti, simboli o eventi che vengono raggruppati in base a specifiche caratteristiche comuni) sono l'output di una sessione di data mining. La generalizzazione ottenuta può assumere la forma di un albero, di una rete, di un'equazione o di un insieme di regole. Risulta quindi evidente la profonda differenza tra data mining e data query: mentre il secondo può aiutarci a trovare risposte a domande che ci poniamo rispetto alle informazioni immagazzinate nei dati, il primo ci offre risposte a domande che non avremmo mai pensato di porci. I dati sono caratterizzati da un insieme di informazioni di input, organizzate in tabelle secondo il formato attributo-valore, in base alle quali viene creato un modello che rappresenta i dati e che consente di predire il valore di un attributo di output. Anche con un dataset ridotto

6 insieme di tecniche e metodologie che hanno per oggetto l'estrazione di informazioni utili da grandi quantità di dati,

attraverso metodi automatici o semi-automatici e l'utilizzo scientifico, aziendale/industriale o operativo delle stesse.

(12)

è fondamentale avere informazioni relative all'importanza dei singoli attributi ed alle possibili relazioni fra di essi in assenza delle quali potrebbe essere difficile per noi sviluppare una rappresentazione generale adeguata. Fortunatamente appositi strumenti di data mining, come gli algoritmi di apprendimento supervisionato, riescono a svolgere questo compito al nostro posto. Il data mining è utilizzato per costruire modelli generalizzati che rappresentano dati non strutturati.

2.1 Knowledge Discovery Data

Il Knowledge Discovery Data [2] è una procedura interattiva e iterativa che cerca di estrarre dai dati informazioni implicite, sconosciute a priori e potenzialmente utili. Tale processo si articola in sette fasi, esse sono state identificate da Usama Fayyad, Piatetsky-Shapiro e Smith8 (Figura 2-1).

(13)

Andiamo ad analizzare ora le singole fasi:

1. Selezione: In questa fase deve essere selezionato l'insieme iniziale dei dati da sottoporre ad analisi. I dati grezzi vengono segmentati e selezionati secondo criteri specifici al fine di pervenire ad un sottoinsieme di dati che rappresenta il nostro target data o dati obiettivo. Questa fase è importante in quanto molto spesso il database può contenere diverse informazioni inutili per il caso di studio in esame. I dati target sono estratti da risorse primarie quali un data warehouse9, uno o più database transazionali o uno o più flat file10. Se i dati originali sono collocati in un flat file, la creazione del target risulta molto semplice. I sistemi di gestione dei database immagazzinano e manipolano dati transazionali consentendo così ai sistemi informatici, relativi a tali sistemi, di fare aggiornamenti e di estrarre informazioni in modo rapido. Ciò è dovuto alla strutturazione dei dati tramite modelli relazionali il cui scopo è ridurre la ridondanza dei dati tramite la decomposizione di singole tabelle in più strutture relazionali ed accelerare l'accesso alle informazioni. Del resto, lo scopo del data mining è proprio utilizzare la ridondanza dei dati per reperire la conoscenza, ecco perché è necessario ricomporre le strutture relazionali. Si intuisce quindi che è stretto il legame tra Data Mining e Data Warehouse, il cui scopo è non scomporre ma mettere insieme i dati al fine di sfruttarne la ridondanza. Spesso può essere necessario mettere insieme informazioni estratte da più fonti e ciò rende la fase di selezione ancora più complessa: per evitare che l’analisi risulti di scarsa utilità, occorre trasformare i dati in modo da assicurarne l'omogeneità in quanto, ad esempio, la codifica dei dati deve essere uguale per tutti i record dei dati target.

2. Pre-elaborazione: Generalmente il target data disponibile non deve essere analizzato interamente ma basta estrarne un campione opportuno, eseguendo poi un'analisi su base campionaria. Inoltre, i dati devono essere preprocessati, cioè "puliti", trattando in maniera opportuna i dati anomali e mancanti. Vanno individuati i valori errati delle variabili e trovare gli errori nei dati categorici

9 una collezione o aggregazione di dati strutturati, provenienti da fonti interne operazionali (DBMS) ed esterne al

sistema informativo aziendale

(14)

diventa un problema quando si analizzano dataset molto grandi. I dati devono essere anche semplificati: queste tecniche di data smoothing sono mirate alla riduzione del numero di valori per una variabile numerica. Alcuni classificatori, come le reti neurali, utilizzano funzioni che effettuano la semplificazione durante il processo di classificazione, eseguendo così un data smoothing interno. Due semplici tecniche di semplificazione sono il calcolo e l'arrotondamento dei valori medi. Lo smoothing del valore medio è appropriato quando si usa un classificatore che non supporta i dati numerici e si desidera avere un'informazione grossolana sui valori delle variabili numeriche; in tal caso tutti i valori delle variabili numeriche sono sostituiti con la media della classe. La presenza di dati mancanti può essere affrontata in diversi modi ed è in genere indicativa di informazioni perse. Alcune tecniche di data mining sono in grado di trattare direttamente i valori mancanti tuttavia molti classificatori richiedono variabili che non abbiano valori nulli: sarà necessario in questi casi scartare tutti i record contenenti valori mancanti oppure, per valori reali, sostituire i valori che mancano con la media della classe oppure con valori rilevanti.

3. Trasformazione: Questa fase può assumere varie forme e può essere necessaria per varie ragioni. Si possono convertire tipi di dati in altri o definirne di nuovi attraverso l'uso di operazioni matematiche e logiche sulle variabili, eseguire delle normalizzazioni (scalamento decimale, normalizzazione min-max o con lo z-score) o addirittura eliminare delle variabili. In genere, infatti, se i dati contengono una grande quantità di variabili, gli algoritmi di Data Mining non lavorano in modo efficiente e non sono in grado di prevedere la classe di appartenenza del record in modo corretto; si rende quindi utile una ricerca ed una successiva eliminazione delle variabili ridondanti e "inutili" per il problema in questione. A volte le variabili con poco potere previsivo possono essere combinate con altre per formare nuove variabili con un alto grado di capacità previsiva.

(15)

obiettivi che si vogliono raggiungere a dare un'indicazione sul tipo di tecnica/algoritmo che deve essere applicata.

5. Interpretazione e valutazione: Scopo di questa fase è determinare la validità del modello ottenuto con il Data Mining. Non è sufficiente interpretare i risultati, è fondamentale capire in che misura ed in che modo il modello od il risultato ottenuto possa essere utilizzato per gli scopi aziendali. L'obiettivo ultimo consiste nell'utilizzare ciò che è stato appreso attraverso la creazione di un report o un rapporto tecnico su ciò che è stato scoperto e cercando di capire in che modo sfruttare queste informazioni.

Sia la fase di pre-elaborazione che la fase di trasformazione si avvalgono di tecniche e strumenti software ai quali si fa riferimento con il termine processo di ETL11.

2.2 Applicazioni

Ci sono varie applicazioni del data mining in ambito aziendale ed in ogni contesto è possibile trarre vantaggio da una tecnica o più tecniche diverse. In tal modo sono stati individuati diversi ambiti applicativi ai quali ci si riferisce con una particolare terminologia identificativa del problema.

Di seguito alcuni di essi:

✓ Scoring system (predictive modelling): è un approccio di analisi incentrato sull’assegnazione ai singoli clienti (prospect) della probabilità di adesione ad una campagna commerciale. La finalità è quella di classificare i clienti o gli eventuali prospect in modo tale da attuare azioni di marketing diversificate a seconda dei target individuati. L’obiettivo è quello di costruire un modello predittivo in modo da individuare una relazione tra una serie di variabili comportamentali e una variabile obiettivo che rappresenta l’oggetto di indagine. Il modello dà come risultato un punteggio (score) che indica la probabilità di risposta positiva alla campagna (il cliente aderisce o non aderisce alla campagna promozionale).

11 espressione in lingua inglese che si riferisce al processo di estrazione, trasformazione e caricamento dei dati in un

(16)

✓ Credit scoring: è un particolare caso di scoring system che valuta il cliente sulla base di variabili che meglio esprimono il comportamento di pagamento. Viene calcolato lo score (valore numerico) che rappresenta la misura della sua dignità di credito. Da ciò si può decidere se concedere o meno un prestito o un fido, in base alla classe di rischio cui appartiene il richiedente.

✓ Segmentazione della clientela (customer profiling): è un’applicazione di tecniche di clustering atte a individuare gruppi omogenei calcolati secondo variabili comportamentali o sociodemografiche. L’individuazione delle diverse tipologie permette di effettuare campagne di marketing mirate e di customer care. Si può determinare il valore presente e futuro del cliente (assegnazione ad una fascia di redditività) al fine di gestire l’allocazione dei canali di customer service, la finalizzazione di schemi di incentivi e sconti, la priorità dei contatti di vendita, le modalità di gestione di ritardi nei pagamenti.

✓ Market basket analysis (affinity analysis): è l’applicazione di tecniche di associazioni a dati di vendita per individuare quali prodotti vengono acquistati insieme. Utile per la disposizione dei prodotti sugli scaffali per invogliarne la vendita ma anche per rendere più efficaci le azioni di marketing e merchandising (cross-selling, up-selling, scelta delle modalità espositive dei prodotti, pianificazione delle campagne promozionali, schedulazione degli approvvigionamenti di magazzino, ecc.).

✓ Rilevazione di frodi (fraud detection): è la creazione di profili finalizzati alla valutazione della propensione alla frode/morosità da parte di nuovi clienti in fase di sottoscrizione di contratti/transazioni ed all’identificazione di clienti a rischio per la concessione di crediti/mutui. Una società che gestisce carte di credito può rilevare quali transazioni d’acquisto possono essere state effettuate con carte rubate o falsificate e decidere di bloccare quelle carte.

✓ Liquidazione dei sinistri: un’assicurazione potrebbe essere interessata ad analizzare i sinistri denunciati per decidere quali sono i fattori che possono ridurre il tempo necessario per liquidare un sinistro. Consiste nell’individuazione di dati, comportamenti, eventi anomali rispetto alla norma (valori attesi), finalizzati alla riduzione di perdite dovute a comportamenti non omogenei, procedure non

(17)

✓ Analisi degli abbandoni (churn analysis): consiste nella identificazione di clienti a rischio di abbandono e permette alle funzioni di marketing e customer care di progettare azioni di fidelizzazione mirate (campagne promozionali, azioni pubblicitarie), di supportare il processo di definizione di nuovi prodotti/servizi e di valutare correttamente il valore del cliente.

✓ Text mining: è l’applicazione di tecniche di data mining a dati documentali che risiedono su file di testo, quali articoli, verbali, brevetti, cartelle cliniche, relazioni, questionari, e-mail, forum di discussione, call centre, reclami. Frequenti le applicazioni di clustering al fine di individuare gruppi omogenei di documenti in termini di argomento trattato; consente di accedere più velocemente all’argomento di interesse e di individuarne i legami con altri argomenti.

2.3 Crisp-Dm

Ci concentreremo ora su metodologie mirate esclusivamente al Data Mining e che puntano ad ottimizzarne il processo. È stato precedentemente discusso il knowledge discovery data come procedimento generale per estrarre conoscenza ma nella pratica aziendale sono stati sviluppati e messi in atto altri modelli più idonei. L'approccio più utilizzato per risolvere un problema di Data Mining è tuttora il modello di processo CRISP-DM [3] (CRoss Industry Standard Process for Data Mining) che sarà quello da prendere in considerazione da qui in avanti (Figura 2-2). Il processo si divide in 6 fasi:

1. Business Understanding 2. Data Understanding 3. Data Preparation 4. Modeling 5. Evaluation 6. Deployment

(18)

Figura 2-2: Modello CRISP-DM

Tali fasi sono eseguite in maniera sequenziale ma, a seconda della qualità dei risultati ottenuti, da un passo potrebbe essere necessario tornare indietro al fine di perfezionare e revisionare nuovamente una fase già eseguita ed ottenere così dei risultati deferenti; questo procedimento (o parte di esso) viene quindi reiterato fino al raggiungimento del risultato voluto. La maggior parte di queste fasi ricalcano ed inglobano quelle già presenti anche nel knowledge discovery data, altre invece vengono aggiunte o ulteriormente sviluppate. Analizziamo ora le singole fasi:

• Business Understanding: è opportuno che in un progetto di Data Mining si conosca il settore di affari in cui si opera. In questo senso il Data Mining non deve né può sostituire il compito dei manager tradizionali ma rappresenta uno strumento aggiuntivo di supporto alle decisioni. Avendo chiare le idee sul settore di affari in cui si opera, si procede alla conversione di questa conoscenza di settore nella definizione di un problema di Data Mining e quindi alla stesura preliminare di un piano prefissato per raggiungere gli obiettivi stabiliti

(19)

la fase successiva prevede una iniziale raccolta dei dati e una serie di operazioni sui dati stessi che permettono di acquisire maggiore familiarità con essi, di identificare problemi nella qualità dei dati stessi, nonché scoprire le prime informazioni che a volte si possono ricavare dal semplice calcolo delle statistiche di base (medie, indici di variabilità, ecc.). È chiaro inoltre come le prime due fasi siano collegate tra loro in quanto rappresentano l’individuazione dei fini e dei mezzi di un progetto di Data Mining.

• Data Preparation: tale fase copre tutte le attività che portano alla costruzione dell’insieme finale di dati a partire da quelli grezzi e dunque dall’insieme di dati cui applicare le tecniche di Data Mining. Essa comprende tra l’altro la selezione di tabelle, di record e di attributi come anche, se necessario, la trasformazione e la pulitura dei dati.

• Modelling: in questa fase vengono selezionate e applicate varie tecniche che permettono di ricavare dei modelli. Alcune di esse, per poter essere applicate, necessitano di specifiche richieste rispetto alla forma dei dati, per cui è spesso opportuno tornare indietro alla fase di preparazione dei dati per modificare il dataset iniziale e adattarlo alla tecnica specifica che si vuole utilizzare.

• Evaluation: prima di procedere all’impiego del modello o dei modelli costruiti, è molto importante valutare il modello ed i passi eseguiti per costruirlo, accertarsi che attraverso tale modello si possano veramente raggiungere obiettivi di business, capire se qualcosa di importante non è stato sufficientemente considerato nella costruzione del modello.

• Deployment: è la fase finale che prevede l’utilizzo del modello o dei modelli creati e valutati che possono permettere il raggiungimento dei fini desiderati. Le fasi descritte sembrano ricalcare nella sostanza le fasi del più generale processo di estrazione di conoscenza dai database. In realtà questo progetto di Data Mining ingloba al suo interno le fasi del processo Knowledge Discovery Data e dimostra quanto già affermato in precedenza riguardo al sempre più diffuso accostamento del Data Mining al processo Knowledge Discovery Data. D’altro canto, uno studio anche di base delle tecniche di data mining non può assolutamente escludere le fasi che non riguardano la specifica applicazione di tali tecniche.

(20)

2.4 Customer Relationship Management

Il progetto di tesi mira all’identificazione dei churner, ossia gli utenti che abbandonano la piattaforma di gioco dell’azienda. All’interno di un’organizzazione la gestione dei clienti avviene tramite il Customer Relationship Management [4] (CRM), ovvero la gestione delle relazioni con i clienti, acquisiti o potenziali, dell’azienda. L’idea di base che ha dato origine ad applicativi CRM è nata dalla necessità delle aziende, di possedere uno strumento efficace e di facile utilizzo capace di raccogliere e gestire in modo appropriato le conoscenze relative ai diversi clienti. Questo strumento permette infatti di avere le informazioni sulle attività svolte e da svolgere sui clienti e le relative tempistiche, consentendo quindi al management aziendale di tenere sotto controllo il lavoro di dipendenti e collaboratori e di coordinare i passaggi e le interazioni tra l’ufficio marketing, il back office amministrativo, i fornitori dei servizi e i clienti. Inoltre, l’insieme delle richieste e quindi delle necessità dei singoli clienti o di gruppi di clienti, può essere favorevolmente utilizzata da chi si occupa del marketing aziendale per pensare a proposte mirate ed individuare nuove classi di contatti sulla base dei clienti già acquisiti. Il risultato è un aumento dei profitti con il minor investimento di risorse economiche, personale e tempo. In altre parole, il CRM, se ben organizzato e gestito, fornisce una buona misura dell’efficacia operativa dell’azienda ed è un valido aiuto all’incremento della Customer Satisfaction. Il concetto di Customer Relationship Management è legato al concetto di fidelizzazione dei clienti. Il cliente, infatti, riveste un ruolo determinante all’interno dell’impresa e, senza aver paura di esagerare, lo si potrebbe definire come il fulcro principale di un’azienda. L’impresa, il cui obiettivo non è solo quello di sopravvivere sul mercato ma, in primis, vincere la concorrenza per arrivare al successo, deve cercare di soddisfare al meglio il proprio cliente. Il Customer Relationship Management nasce dalla considerazione che mantenere relazioni commerciali con i clienti acquisiti costa meno che acquisire nuovi clienti e stabilisce un nuovo approccio al mercato che pone il cliente, non il prodotto, al centro del business.

La gestione del ciclo di vita del cliente, chiamata anche pianificazione dei rapporti con il cliente, consiste nel rilevare i dati del cliente che aiutano a definirne i comportamenti in

(21)

vendita ed al mantenimento di rapporti di lungo termine con il cliente stesso. Il ciclo di vita del cliente12 è una questione strategica e, sebbene organizzare le attività, le tecnologie ed i canali di contatto con il cliente possa non essere facile, creare e mantenere relazioni redditizie e continuative con i clienti rappresenta l’elemento cardine per la costruzione di un vantaggio competitivo all’interno dei nuovi mercati globali. Il CRM comprende tutti i processi aziendali messi in atto da un’organizzazione con il fine di identificare, selezionare, acquisire, sviluppare e conservare i propri clienti per massimizzare la fidelizzazione ed il grado di soddisfazione della clientela ed incrementare la redditività dell’impresa. Tali finalità sono raggiunte attraverso un affinamento continuo della conoscenza sviluppata all’interno dell’impresa rispetto ai bisogni, ai comportamenti ed ai valori dei clienti. Un’azienda che decide di implementare un sistema di CRM lo fa con i seguenti obiettivi:

1) Customer Satisfaction

2) Gestione efficacie del business

3) Identificazione e maggiore conoscenza de i propri clienti 4) Acquisizione di nuovi clienti

5) Aumento delle vendite 6) Fidelizzazione dei clienti

Ogni azienda vuole che i propri clienti siano soddisfatti: clienti soddisfatti sono più propensi a fare ulteriori acquisti ed è più probabile che promuovano il brand13 e facciano una buona pubblicità all’azienda attraverso il passaparola. Quando un soggetto decide di acquistare un prodotto vive un’esperienza d’acquisto che, se soddisfacente, lo farà sicuramente ritornare. L’utilizzo del CRM permette alle società una maggiore interazione tra le varie funzioni aziendali e fa sì che si sviluppino migliori processi di lavoro, in particolare con i dipartimenti come il Customer Service. Un sistema di Customer Relationship Management permette di profilare i propri clienti in diversi target con diversi livelli di valore. Conoscendo questi segmenti l’azienda può decidere su quali clienti concentrarsi ovvero può scegliere di cercare di aumentare il valore dei clienti che stanno

12 Il ciclo di vita del cliente è il “viaggio” ipotetico che il tuo cliente affronta dal momento in cui entra in contatto con la

tua realtà professionale fino a quando la relazione si conclude.

13 Brand – dall’inglese “marca” si intende un’entità concettuale caratterizzata da un’identità ben definita e complessa in

(22)

spendendo meno oppure può concentrarsi maggiormente sui clienti che spendono di più. Acquisire nuovi clienti, così come mantenerli successivamente, è un compito molto difficile e questo approccio al cliente può aiutare le aziende a ricavare informazioni dal customer database dell’azienda e permette di individuare eventuali lacune da colmare. Da queste informazioni, si possono capire le ragioni per cui una vendita non si è realizzata, correggere eventuali errori e cercare di non commetterli con i nuovi clienti. Con un mercato competitivo come quello attuale, è importante che le aziende continuino ad innovarsi e ad offrire nuovi prodotti e servizi ai loro clienti, migliorando il modo in cui il cliente interagisce con il business aziendale e proponendo strategie di marketing efficaci. Così facendo l’azienda può migliorare la brand reputation14, attrarre nuovi clienti e garantire che quelli esistenti tornino ad acquistare. Tutto ciò aumenterà i profitti e aiuterà l’azienda ad avere dei vantaggi competitivi rispetto ai concorrenti.

2.5 Churn Analysis

Nelle ultime decadi, l’evoluzione del rapporto tra clienti e aziende dovuto ai cambiamenti economici e sociali, ha portato quest’ultime a rivedere e migliorare le loro tecniche analitiche e di marketing. Tra queste l’identificazione di clienti potenzialmente defezionari è permeata sempre più all’interno di diverse realtà, con l’obiettivo di veicolare azioni di retain15 per cercare di mantenerli.

Nonostante la maggior parte delle realtà di marketing aziendali siano al corrente di come l’acquisizione di nuovi clienti abbia un costo molto superiore rispetto ai costi di retain, solo un numero esiguo delle aziende focalizza il proprio marketing nella customer retention. Gli studi a riguardo [5] indicano come la probabilità di vendita ad un cliente effettivo si aggiri tra il 60-70% mentre quella di vendita ad un nuovo cliente potenziale solo tra il 5 e il 20%. Inoltre, comparati ad un nuovo cliente, i clienti effettivi hanno il 50% di possibilità in più di comprare nuovi prodotti. Un altro punto di fondamentale importanza da tenere in considerazione è dato dal fatto che è stato registrato come un

(23)

semplice incremento del 5% nella customer retention arrivi a tradursi in un incremento dei profitti compreso tra il 25% e il 95%.

Nel settore delle telecomunicazioni [6] ci si riferisce al churn come al cambiamento di operatore telefonico e l’applicazione a questo contesto è ad oggi la più utilizzata in questo tipo di analisi. Nel settore finanziario, nel quale operano ad esempio banche e assicurazioni [7], il fenomeno di churn viene associato alla chiusura di un conto mentre nel settore dei servizi con sottoscrizione di abbonamento un esempio può essere rappresentato dal mancato rinnovo del servizio (pay-tv, sottoscrizioni editoriali, ecc.) [8]. L’identificazione dei clienti è un processo chiave nella gestione del ciclo di vita del cliente. La Figura 2-3 mostra i processi di gestione del ciclo di vita del cliente.

Figura 2-3: Ciclo di Vita del Cliente

Basandosi sull’identificazione del cliente, i potenziali clienti possono essere targettizzati ed alcuni di essi diventeranno nuovi clienti che seguiranno il processo:

nuovi clienti → clienti esistenti → vecchi clienti

Durante questo processo, il churn può avvenire in ciascun passo e gli utenti che hanno effettuato il churn diventeranno a loro volta dei potenziali clienti. Attraverso l’identificazione dei consumatori, la compagnia dovrebbe non solo identificare le caratteristiche dei più preziosi segmenti di clientela da targettizzare ma anche escludere i potenziali clienti che hanno tipiche caratteristiche di churn che possono essere ottenute dai risultati di previsione del churn.

(24)

Il churn del cliente può essere diviso in tre categorie:

1 Churn involontario: riguarda i clienti che smettono di pagare durante il loro

contratto a cui sono legalmente vincolati poiché essi non possono più permettersi il servizio. Questo avviene quando ad esempio degli abbonati non riescono a pagare per il servizio e come conseguenza di ciò il provider termina il servizio. Anche l’interruzione del servizio per furto o utilizzo fraudolento viene classificato in questo ambito.

2 Churn inevitabili: questo si verifica nei casi di clienti deceduti o trasferiti in maniera

permanente in altri luoghi.

3 Churn volontari: si verifica quando i clienti scelgono di non rinnovare il contratto alla

scadenza dello stesso. In questa categoria rientra il cliente che interrompe il servizio a favore di un altro più conveniente.

È difficile identificare l’esatto momento in cui i clienti rendono discontinua la loro relazione: non è possibile individuare un preciso momento temporale in cui viene rivelata l’intenzione di sospendere il rapporto e non è possibile richiedere loro di comunicare tale intenzione. Inoltre, la fase precedente l’abbandono è spesso caratterizzata da una discontinuità comportamentale e di acquisto dovuta alla ricerca ed alla scelta di una nuova azienda cui fidelizzarsi. Lo studio di questo fenomeno si basa sull’analisi comportamentale dei clienti per un certo periodo di riferimento, che porta alla modellazione di un classificatore che si adatti al riconoscimento del comportamento di clienti defezionari che verrà utilizzato ed applicato nel periodo successivo a quello di training del modello.

(25)

3 Classificazione

Il data mining è uno strumento utile per molte attività diverse. In questo capitolo definiamo il compito della classificazione16 che verrà usata per modellare il problema della previsione di churn e alcune tecniche comuni per valutarla. La classificazione [9] è un'attività predittiva, il che significa che viene utilizzata per modellare i problemi di previsione e fare previsioni. In particolare, la classificazione presuppone che l'evento che vogliamo prevedere sia rappresentato da un dominio finito e discreto di possibili valori di risultato, cioè classi. In caso contrario, il problema diventa un'attività di regressione. Definizione di attività di classificazione:

Dato un set di dati T = {t1, t2, ..., tN} di N record, in cui ogni ti ∈ T è costituito dagli attributi m A1, ..., Am con i domini D1, ..., Dm (cioè t (Aj) ∈ dj mf inv ∀j = 1 ... m) e un attributo di classe C, tale che ti (C) ∈ Γ (il dominio discreto e discreto delle classi), il compito delle classi è costruire una funzione f: D1 × D2 × ... × Dm → Γ, che si chiama modello di classificazione o classe.

Se Γ è un dominio continuo, il problema si chiama Regressione ti è di solito chiamato record, esempio o istanza. Aj si chiama attributo, funzione o predittore. C si chiama classe, attributo target o categoria.

3.1 Tipi di Attributi

Gli attributi sono informazioni correlate alla classe da stimare. Possono assumere varie forme ma in genere sono classificate in quattro tipi. Il tipo di attributo dipende dalle proprietà differenti, come illustrato nella tabella 3-1. Gli attributi nominali forniscono solo informazioni sufficienti per distinguere un oggetto da un altro (= ≠). I valori di un attributo ordinale forniscono un numero sufficiente di informazioni per ordinare gli oggetti (< >). Per le caratteristiche a intervalli, la differenza tra i valori ha un significato, ossia esiste una

(26)

unità di misura (+/−). Per gli attributi ratio, sia le differenze che i rapporti sono significativi (×/÷).

=≠ < > +/− ×/÷ Esempi

Nominali x Sesso, Stato Civile

Ordinali x x Prezzo (basso, medio, alto)

Intervalli x x x Data, Temperatura

Ratio x x x x Lunghezze

Tabella 3-1: Proprietà degli Attributi

Gli attributi nominali e ordinali sono denominati categorico o qualitativo, mentre gli attributi Intervallo e Ratio sono denominati numerico o quantitativo. Questa categorizzazione è esplicativa ed infatti la gestione dei dati dipende fortemente dal tipo di attributo.

3.2 Training, Validation e Test

Dato un insieme di dati storici, è possibile costruire un modello statistico su di esso, usando un algoritmo specifico. Questa fase è chiamata “fase di addestramento” e forma un classificatore per i dati (ovvero l'insieme di addestramento). In questa fase, i modelli solitamente ottimizzano una funzione di perdita, che rappresenta empiricamente l'incapacità del modello di impostare il training. Sebbene in fase di training sia auspicabile ottenere un buon punteggio, questo valore non è indicativo di una buona capacità predittiva del modello che potrebbe infatti aver appreso sia da schemi utili che da rumore. Un modello che ottiene un errore basso sul set di allenamento e non riesce a fare buone previsioni si dice che sia in overfitting17. Ci sono molte ragioni che causano un

eccesso di informazioni, come dati rumorosi o dimensioni ridotte del set di allenamento. Esistono diversi approcci per riconoscere se un modello è in overfitting. La procedura comune valuta le previsioni del modello su nuovi dati che non sono stati utilizzati nella fase di addestramento. Se l'errore commesso su nuovi dati è paragonabile all'errore di

(27)

addestramento, il modello ha appreso con successo alcuni schemi non casuali. Altrimenti, se l'errore commesso su nuovi dati si discosta drasticamente dall'errore di addestramento, il modello ha memorizzato i record e non riesce a generalizzare. L'errore di addestramento è sempre più piccolo dell'errore commesso su nuovi dati: il modello viene addestrato sul training set, quindi è stato ottimizzato su questi dati. Tutto ciò evidenzia l'importanza di tale procedura, che consente di stimare le prestazioni del modello reale. Questa fase è chiamata fase di validazione. Un altro scopo fondamentale di questa fase è la regolazione dei parametri. L'ottimizzazione dei parametri consiste nell'impostare correttamente i parametri del modello, al fine di ridurre al minimo l'errore. La stima dell'errore non dovrebbe essere eseguita utilizzando il set di training, poiché ciò darebbe un feedback parziale. Invece, la stima dell'errore dovrebbe essere eseguita utilizzando un set di validazione per ottenere una stima affidabile delle prestazioni del modello.

Tipici approcci di validazione sono il metodo Holdout e la K-Fold Cross Validation [10]. Il primo metodo divide casualmente i dati iniziali in training e validation set. Il set di training viene quindi utilizzato per costruire un modello valutato sul set di validazione. Il secondo metodo, invece, suddivide i dati iniziali in k insiemi disgiunti (pieghe). Le pieghe (Fold) k-1 vengono quindi utilizzate come set di training e il resto come validation set. Iterando questa procedura k volte, ogni piega viene utilizzata esattamente una volta per la convalida e k-1 volte per l'addestramento del modello. Le prestazioni del modello vengono quindi stimate con la media degli errori k.

Se il validation set viene utilizzato per ottimizzare i parametri del modello o per scegliere il miglior classificatore per il problema, l'errore stimato sarà ottimistico. Pertanto, dovrebbe essere disponibile un altro set di nuovi dati per stimare le prestazioni del modello reale, ovvero il set di test. Il test set non deve essere utilizzato per effettuare scelte o ottimizzazioni.

È importante notare che un eccesso di adattamento non è l'unica causa di previsioni errate. Anche il fenomeno dell’underfitting porta a previsioni errate in quanto è presente un minor numero di dati sui quali addestrare il modello determinando così l’impossibilità

(28)

di catturare la tendenza dei dati. In questo caso, è necessario aggiungere nuove funzionalità o utilizzare diversi classificatori, al fine di evitare underfitting.

3.3 Valutazione

Nella sezione precedente abbiamo discusso il fenomeno di overfitting ed underfitting dei modelli di classificazione e la loro ricaduta sulle previsioni. Per specificare cosa si intende per previsioni errate, è necessario introdurre alcune metriche formali che misurano le prestazioni di un classificatore. Per ottimizzare un classificatore è importante specificare all'inizio quale metrica verrà utilizzata, al fine di fissare l'obiettivo di ottimizzazione per l'intera analisi. A volte la metrica è data da specifiche di progettazione, a volte no. Se la metrica non viene fornita, saranno coloro che dovranno analizzare i dati a scegliere la metrica corretta in base al problema.

3.3.1 Accuracy

L’accuratezza (Accuracy) è una delle metriche più comuni utilizzate [11], grazie alla sua intuitività e semplicità. L’accuratezza misura il numero di record predetti correttamente dal classificatore. La formula è molto semplice ed è anche facilmente applicabile a problemi multi-classe.

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑝𝑟𝑒𝑑𝑖𝑧𝑖𝑜𝑛𝑖 𝑐𝑜𝑟𝑟𝑒𝑡𝑡𝑒 𝑛𝑢𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙𝑒 𝑑𝑖 𝑟𝑒𝑐𝑜𝑟𝑑

Questa formula evidenzia che l'accuratezza attribuisce la stessa rilevanza a ciascuna classe. Se alcuni risultati sono più rilevanti di altri, ovvero siamo più interessati a prevedere correttamente alcune classi piuttosto che altre, allora l’accuratezza non fornisce una metrica affidabile delle prestazioni del modello.

(29)

3.3.2 Area Under the Curve

L'Area Under the Curve (AUC) è un'altra metrica utilizzata nell'apprendimento automatico e nel data mining. È applicabile solo per compiti di classificazione binaria (ovvero il risultato ha solo due valori possibili). Le due classi sono generalmente chiamate classi positive e negative. È possibile definire alcuni valori in base alla classe prevista ed a quella reale, come mostrato nella Tabella 3-2. In particolare, definiamo:

𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑅𝑎𝑡𝑒 = 𝑇𝑃 𝑃 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑅𝑎𝑡𝑒 = 𝑇𝑃 𝐹 = 𝑇𝑃 𝐹𝑃 + 𝑇𝑁

Il true positive rate misura la frazione di record positivi correttamente classificati dal modello. Invece, il false positive rate misura la frazione di record negativi erroneamente classificati come positivi.

Positive (attuale) Negative (attuale) Positive (previsto) True Positive (TP) False Positive (FP) Negative (previsto) False Negative (FN) True Negative (TN)

Tabella 3-2: Matrice di Confusione Binaria

L'AUC misura l'area sotto la curva ROC (Receiver Operating Characteristic, anche nota come Relative Operating Characteristic in Figura 3-1), curva creata tracciando il true positive rate rispetto al false positive rate, con varie impostazioni di soglia. Intuitivamente, l'AUC indica quanto un classificatore è in grado di discriminare le due classi [12]. L'AUC svolge un ruolo importante nei set di dati non bilanciati, ovvero quando le due classi non sono presenti in ugual misura. Ad esempio, un set di dati sbilanciato

(30)

contiene il 95% di record negativi e il 5% di record positivi, rappresenta un problema ben noto nell'apprendimento automatico e verrà affrontato nella sottosezione 3.4.1.

L'AUC dà informazioni circa la capacità del modello di individuare correttamente la classe positiva, difficile da prevedere data la sua scarsità. Al contrario, l'accuratezza fornisce uno scarso feedback sulle prestazioni del modello: a causa della scarsità della classe positiva, un classificatore può ottenere un'accuratezza molto elevata semplicemente ignorando la classe positiva, ovvero classificando tutti i record come negativi.

Figura 3-1: Curva ROC

3.3.3 F-measure

Un'altra importante metrica di valutazione è la F-measure (nota anche come F-score o

(31)

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃

𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑅𝑎𝑡𝑒 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁

Un'alta precision, significa che è molto probabile che tutti i record positivi previsti siano positivi: il modello commette pochissimi errori sulla classe positiva. Un recall elevato invece, indica che il modello è in grado di classificare correttamente molti record positivi, ma probabilmente fa degli errori nel catturare tutti i possibili record positivi (Figura 3-2).

Figura 3-2: Recall e Precision

Queste considerazioni suggeriscono che precision e recall sono inversamente correlati; un'alta precision implica un basso recall e un alto recall implica una bassa precision. Dal momento che è auspicabile avere una buona precision e recall, possono essere uniti in un'unica metrica, per rendere più chiaro e semplice il processo di ottimizzazione. In effetti, è più intuitivo massimizzare una funzione piuttosto che avere due o più obiettivi di ottimizzazione. Questa metrica è la F-measure, la quale indica la media armonica di precision e recall, in particolare, date r = recall e p = precision, la formula della metrica è:

(32)

𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 = 2𝑟𝑝 𝑟 + 𝑝

Si noti che la F-measure assume valori alti se e solo se, sia la precision che la recall hanno valori alti.

3.4 Problemi comuni nella classificazione

In questa sezione parleremo di due problemi che spesso si verificano nel data mining ed alcune soluzioni per affrontarli.

3.4.1 Class Imbalance

Il Class Imbalance (Classi squilibrate), in Figura 3-3, è un problema comune nel data mining. In letteratura, viene definito nel contesto di classificazione binaria. Il problema di Class Imbalance si verifica quando il set di dati utilizzato per l'analisi è sbilanciato, il che significa che il numero di record negativi è molto più alto del numero di record positivi o viceversa. Questa sproporzione porta i classificatori a ignorare la classe rara, cioè classificare tutti i record come negativi (o positivi), e ciò implicherebbe un'alta accuratezza. Questo problema è molto più rilevante se la classe rara è più importante rispetto a quella con maggior frequenza.

(33)

Figura 3-3: Classe Bilanciata e Classe Sbilanciata

In effetti, la classe con maggior frequenza di solito ha scarso interesse ad essere prevista, mentre la classe rara rappresenta spesso un evento molto significativo. Ciò significa che il costo dell'errata classificazione di un record positivo è superiore al costo di altri errori. Inoltre, la classe rara è più difficile da prevedere data la sua la scarsità. Tutto ciò rende difficile l'apprendimento su set di dati non bilanciati. Molte soluzioni sono state proposte in letteratura, ma possono essere riassunte in tre gruppi importanti:

• Undersampling • Oversampling

• Synthetic Minority Over-sampling Technique (SMOTE)

3.4.1.1 Undersampling

La tecnica di Undersempling (sotto campionamento) consiste nel rimuovere casualmente alcuni record negativi dall'insieme di dati, al fine di bilanciare la proporzione delle classi. Ciò consente di ridurre le dimensioni del set di dati e di conseguenza il tempo di calcolo, ma può portare a un set di dati non rappresentativo, poiché molte informazioni vengono eliminate. Per ridurre la perdita di informazioni, è possibile creare N diversi set di dati

(34)

sotto campionati, al fine di coprire tutti i dati iniziali, su cui costruire N modelli. Quindi le previsioni dei modelli N potranno essere unite attraverso la scelta di alcuni criteri.

3.4.1.2 Oversampling

La tecnica di Oversampling (sovra campionamento) affronta il problema degli squilibri di classe replicando i record positivi, al fine di dare loro maggiore importanza. L'aggiunta di record porta a un set di dati più grande, quindi aumenta il tempo di calcolo. Inoltre, se il set di dati ha alcuni valori anomali, il sovra campionamento amplifica il loro effetto.

3.4.1.3 Smote

SMOTE18 è una tecnica più sofisticata rispetto al sovra campionamento e al sotto campionamento. In particolare, SMOTE crea esempi artificiali della classe di minoranza basandosi sulla similarità nello spazio delle feature tra quelli esistenti. Inoltre, SMOTE applica anche il sotto campionamento alla classe negativa per bilanciare la proporzione senza generare troppi record artificiali. In pratica, SMOTE è molto potente e riduce la possibilità che un modello overfitti la classe rara.

3.4.2 Curse of Dimensionality

La Curse of Dimensionality è un altro problema conosciuto nel data mining. Man mano che aumentiamo il numero di funzionalità19 (Attributi del dataset) per descrivere il fenomeno di interesse, il numero di record necessari per riempire lo spazio delle funzionalità aumenta esponenzialmente. Ciò significa che, per ottenere buone previsioni con un set di dati ad alta dimensione, abbiamo bisogno di molti dati. Inoltre, il concetto di distanza euclidea svanisce nello spazio ad alta dimensione, perché le istanze tendono ad

(35)

essere molto sparse. È anche più difficile fare ipotesi ed analisi di dati quando il numero di funzionalità (attributi) è troppo elevato. Sebbene sia molto comune avere molte funzionalità, a volte solo un sottoinsieme è rilevante, quindi è possibile ridurre il numero delle funzionalità al fine di migliorare le prestazioni complessive. Questa idea è il concetto di base che motiva lo sviluppo di algoritmi di selezione delle caratteristiche, che cercano di evitare la Curse of Dimensionality, rimuovendo al contempo il rumore dai dati.

3.4.2.1 Random Subset Feature Selection

Uno degli algoritmi più semplici per la selezione delle funzionalità più importanti è la tecnica di selezione delle funzionalità casuali basato sull’algoritmo Random Forest20. In particolare, questa procedura consiste nella selezione casuale di un sottoinsieme di funzioni, che viene quindi utilizzato per addestrare un classificatore. Il modello appena addestrato viene valutato sul set di validazione, al fine di stimarne le prestazioni.

Questa procedura viene ripetuta più volte, con diverse opzioni casuali, al fine di selezionare il sottoinsieme di attributi più promettente. Una volta scelto un determinato sottoinsieme, è anche possibile “bloccare” le variabili selezionate e aggiungere in modo incrementale un'ulteriore funzione casuale, cercando di migliorare i risultati appena ottenuti.

3.5 Modelli

Nelle sezioni precedenti abbiamo descritto l'attività di classificazione e i suoi problemi tipici ma non abbiamo ancora mostrato come costruire un classificatore. Questa sezione descrive alcune comuni tecniche di classificazione che verranno utilizzate in questa tesi.

20 classificatore d'insieme ottenuto dall'aggregazione tramite di alberi di decisione,Tin Kam Ho AT&T Bell Labs., Murray

(36)

3.5.1 Regressione Lineare

Il modello di regressione lineare semplice stima i valori della variabile Y con una funzione lineare della variabile X:

Date le osservazioni {(x1, y1), ..., (xn, yn)} appartenenti al training set il valore stimato è

quindi:

mentre per una osservazione della quale si conosce soltanto il valore x0 della variabile X il

valore stimato della variabile Y è:

L’equazione di regressione è l’equazione di una retta, dove a è l’intercetta21 e b è il coefficiente angolare22 della retta. Intuitivamente, il modello stima Y come proporzionale a X: si parte da un valore base a e si sommano b unità di Y per ogni unità di X. L’adattamento si può misurare con la somma dei quadrati degli errori, la cosiddetta

devianza23 dei valori stimati rispetto ai valori reali della Y nel training set:

(37)

dove e sono le medie di X e Y, cov(X, Y) è la covarianza di X e Y e var(X) è la varianza di X. Si può pensare a Y come una variabile casuale che dipende in modo deterministico da X ma risente dell’effetto di un “rumore” che è una variabile casuale:

per le osservazioni {(x1, y1), ..., (xn, yn)} appartenenti al training set il valore stimato è

quindi:

dove le ei sono variabili casuali distinte, una per ciascun valore della X. Il modello della

regressione lineare (Figura 3-4) con il criterio dei minimi quadrati (la minimizzazione della devianza), può essere applicato in modo rigoroso se sono soddisfatte alcune condizioni sulle variabili ei:

• non sono correlate fra loro; • hanno distribuzioni normali; • la media di ciascuna è 0;

• la varianza è la stessa per tutte.

(38)

In pratica, di regola queste condizioni non sono verificate, almeno non in pieno, ma la regressione lineare riesce ugualmente a dare spesso ottimi risultati. Tuttavia, anche se si può tenere al riguardo un atteggiamento pragmatico, non si deve sottovalutare l’importanza di una verifica della sussistenza almeno approssimativa di queste condizioni. Intuitivamente, si può avere una idea della validità di queste ipotesi analizzando la distribuzione dei residui:

se e nella misura in cui le ipotesi valgono, i residui non mostrano tendenze sistematiche. Sono cioè distribuiti in modo casuale, oscillando uniformemente intorno allo 0 e tendenzialmente si compensano fra loro. Questo significa che i valori stimati si collocano casualmente un po’ sopra e un po’ sotto la retta di regressione. Se le variabili ei mostrano

tendenze sistematiche e non appaiono distribuite secondo una curva normale, si deve prendere in considerazione la possibilità di scegliere un modello di regressione diverso, con più variabili indipendenti oppure di forma non lineare. Se le variabili ei mostrano

varianze diverse, di nuovo si deve scegliere un modello non lineare, oppure limitare l’applicazione del modello di regressione a un dominio limitato di valori. Riguardo la bontà di adattamento vale la seguente relazione:

la varianza di Y si può scomporre nella somma della varianza di Ŷ, la stima di Y e nella devianza fra Y e la sua stima. In sintesi:

Questo a rigore è vero se sono vere le ipotesi alla base del modello di regressione, dalle quali si deduce che la media della variabile stima coincide con la media di Y (è una conseguenza delle ipotesi). Si definisce coefficiente di determinazione la grandezza:

(39)

Il coefficiente di determinazione è il quadrato del coefficiente di correlazione lineare e pertanto assume valori compresi fra 0 e 1.

In particolare, vale 0 quando la retta di regressione è costante ( ) e vale 1 quando gli errori sono nulli e quindi l’adattamento è perfetto ( ). Vale anche la relazione:

che misura in quale grado l’errore di previsione si riduce passando dalla previsione con il modello “banale”:

alla previsione con il modello di regressione:

Il coefficiente di determinazione è il principale e più intuitivo indice della bontà dell’adattamento di un modello di regressione lineare ma non garantisce che il modello abbia buona capacità di generalizzazione, non garantisce cioè che non ci sia overfitting.

3.5.1.1 Regressione Lineare Multipla

Quanto detto per il modello di regressione lineare semplice, si generalizza nel modello di regressione lineare multipla nel quale la variabile dipendente è stimata usando più variabili indipendenti:

Anziché una retta di regressione abbiamo qui un iperpiano di regressione a n dimensioni. Il coefficiente bi rappresenta la variazione di Y in risposta a una variazione unitaria della

variabile Xi se le altre variabili indipendenti restano fissate. Restano valide (generalizzate a

più dimensioni) le considerazioni sulle ipotesi teoriche, le proprietà dei residui e il coefficiente di determinazione.

(40)

3.5.2 Regressione Logistica

La regressione logistica è un modello di classificazione rientrante nella famiglia degli algoritmi di apprendimento supervisionato ed è stata sviluppata per estendere il modello di regressione lineare. Sebbene la regressione lineare possa essere adattata per l'attività di classificazione, fornisce scarsi risultati. Pertanto, i ricercatori hanno sviluppato il modello di regressione logistica grazie al quale è possibile generare un risultato che, di fatto, rappresenta una probabilità che un dato valore di ingresso appartenga ad una determinata classe. Come tutte le analisi di regressione, la regressione logistica è un’analisi predittiva che viene utilizzata per misurare la relazione tra la variabile dipendente (ossia ciò che vogliamo prevedere) e l’una o più variabili indipendenti (le nostre caratteristiche), stimando delle probabilità tramite una funzione logistica (Figura 3-5).

Figura 3-5: Funzionamento Regressione logistica

L'intuizione alla base della regressione logistica è piuttosto semplice: poiché è necessario ottenere un risultato binario, prima vengono mappate le previsioni di regressione lineare con valori 0 e 1, successivamente si interpreta il nuovo risultato ed infine si prevede 1 se la probabilità è maggiore di una soglia scelta, si prevede 0 in tutti gli altri casi.

(41)

Figura 3-6: Regressione Logistica

Ciò rende la regressione logistica (Figura 3-6) un potente classificatore, poiché consente di specificare la precisione dell'algoritmo attraverso la soglia di probabilità. In particolare, l'impostazione di una soglia alta porta a prevedere 1 solo se siamo molto fiduciosi. Al contrario, una soglia bassa riduce la precisione. In genere, se il problema ha classi ugualmente rilevanti, la soglia è impostata su 0,5. Di solito, la funzione utilizzata per mappare le previsioni di regressione lineare in 0 oppure 1, è la funzione logistica, chiamata anche Sigmoid. Questa funzione è stata scelta principalmente per le sue caratteristiche peculiari. La funzione Sigmoid è la seguente:

𝑆𝑖𝑔𝑚𝑜𝑖𝑑(𝑧) = 1 1 + 𝑒−𝑧

La trasformazione sigmoide modifica la rappresentazione del modello, pertanto è necessario definire una particolare funzione di perdita (Logistic Loss) per addestrare la regressione logistica. In particolare, la funzione di perdita restituisce un piccolo errore se il sigmoide mostra la probabilità di essere 1 per un'istanza, coerentemente con la classe di record reale, altrimenti restituisce un errore elevato. Ad esempio, se il risultato reale è 0, la funzione di perdita restituisce un errore elevato mentre la sigmoide tende ad 1. La

Riferimenti

Documenti correlati

The second approach, in turn, can lead to two dierent solutions: the rm can use an untargeted strategy oering promotions to all the customers (incur- ring more costs) or it

Da questo punto di vista il Dash Button potrebbe essere visto come una vera e propria leva del CRM, poiché aiuta ad accrescere il valore della relazione con i clienti (già

1 Customer Relationship Management (CRM) Market Analysis By Deployment, By Enterprise Size, By Application (BFSI, Retail, Healthcare, Telecom &amp; IT, Discrete Manufacturing),

“Tādēļ Latvija iestājas par Eiropas Savienību kā spēcīgu nacionālu valstu savienību, kura gan cieši sadarbojas jomās, kas ir tās dalībvalstu un visas savienības

[r]

Department of Preventive Medicine, School of Medicine Gyeongsang National University, South Korea, 4 Department of Internal Medicine, Bundang CHA Medical Center, CHA

Results – We start the discussion of our results from the case with no self-generation, namely a case in which waves are only injected at some scale k −1 0 in the disc of the Galaxy

 Al contrario, qualora questa operazione di recupero venga effettuata direttamente dalla Contabilità Premi, si avrà il pareggio della partita nel conto generico D/C