• Non ci sono risultati.

Il ruolo del data mining nel controllo di gestione. Teoria e studio di un caso

N/A
N/A
Protected

Academic year: 2021

Condividi "Il ruolo del data mining nel controllo di gestione. Teoria e studio di un caso"

Copied!
126
0
0

Testo completo

(1)

UNIV

DIPARTIM

Stra

IL RU

RELATORE:

Prof. Nicola Ciarame

NIVERSITÀ DEGLI STUDI DI PISA

TIMENTO DI ECONOMIA E MANAGEME

Corso di Laurea Magistrale in

Strategia, Management e Controllo

L RUOLO DEL DATA MINING NEL

CONTROLLO DI GESTIONE

Teoria e studio di un caso

amella

Elisa

Anno Accademico 2015/2016

ISA

EMENT

EL

CANDIDATA:

Elisabetta De Vito

(2)
(3)

Ai miei genitori e a Marco

(4)
(5)

INDICE

Introduzione

1. DATA MINING: PRESENTAZIONE E TECNICHE ………..………

1.1 Definizioni e concetti 1.2 La teoria delle decisioni 1.3 Modelli di data mining

1.3.1 Classificazione

1.3.2 Alberi di classificazione 1.3.3 Regressioni e serie temporali 1.3.4 Regressione logistica

1.4 Il processo di data mining e le best practices

1.5 Non solo data mining: accenni all’On-Line Analytical Processing (OLAP)

p.01 p.01 p.07 p.10 p.21 p.28

2. IL CONTROLLO DI GESTIONE: UNA RISPOSTA ALL’INCERTEZZA DEGLI EVENTI……

2.1 Nozioni e strumenti

2.2 Il processo di budgeting e il budget delle vendite 2.3 L’analisi degli scostamenti

2.4 L’importanza del report

2.4.1 La creazione di un report di qualità 2.4.2 Il report di controllo su budget

p.31 p.31 p.37 p.44 p.48 3. INTELLIGENT BUDGETING………...

3.1 Il data mining suggerisce, il business decide 3.2 l’azienda e le serie temporali

3.3 La gestione del rischio attraverso il data mining 3.4 I requisiti dei software di data mining

p.55

p.55 p.58 p.61 p.64

4. CASE STUDY: ANALISI EMPIRICA DELLE VENDITE DI UN’AZIENDA PRODUTTRICE DI CAFFÈ ………...……...………...

4.1 Descrizione del data warehouse 4.2 Preparazione dei dati

p.69

p.69 p.72

(6)

4.3 Analisi degli scostamenti

4.3.1 Creazione di una tabella riassuntiva attraverso una Macro 4.3.2 Creazione di un grafico Waterfall con Excel

4.3.3 Analisi degli scostamenti per prodotto 4.3.4 Analisi degli scostamenti per area 4.4 Analisi dell’andamento delle vendite

4.4.1 Introduzione ad Orange Canvas

4.4.2 Applicazione di un modello di regressione lineare 4.4.3 Applicazione di modelli di autoregressione di ordine n 4.4.4 Applicazione di modelli a media mobile

4.5 Risultati e analisi p.75 p.88 p.107 Conclusioni Ringraziamenti p.111 Bibliografia

(7)

i

INTRODUZIONE

Oggigiorno le aziende devono confrontarsi con una domanda fortemente incerta, con un livello di differenziazione dei prodotti molto maggiore rispetto al passato e con standard qualitativi altissimi. I tempi di risposta al mercato devono essere contemporaneamente i più brevi e i meno costosi al fine di conciliare al massimo i requisiti di efficienza e efficacia richiesti alle imprese. In questo scenario le attività di pianificazione e controllo di gestione, come budgeting e controllo costi, sono necessari per fare delle previsioni il più possibile vicine alla realtà. L’obiettivo finale è quello di sfruttare al meglio le risorse aziendali affinché le attività siano allineate agli obiettivi e gestire al contempo i possibili mutamenti ambientali nel minor tempo possibile.

L’aziende si evolvono per adattarsi all’ambiente competitivo e di conseguenza anche il controllo di gestione si evolve per adattarsi alle nuove sfide che le aziende si trovano a fronteggiare. È per questo motivo che si va oltre gli strumenti tradizionali di valutazione economico e finanziaria e si aggiungono nuovi metodi per il monitoraggio di tutti i fattori critici di successo e per la creazione di report riguardo agli aspetti rilevanti della gestione. Amministrare un’azienda in questo scenario è un compito complesso, incerto e in continuo cambiamento e il modo più naturale per affrontare al meglio un’operazione del genere è sicuramente quella di affidarsi a delle soluzioni che coordinino le diverse variabili in modo dinamico e flessibile.

In questo lavoro, la cui struttura è schematizzata in figura i, cercheremo di inquadrare il contributo che possono dare la business intelligence e il data mining ai sistemi di pianificazione e controllo, in modo da migliorare il flusso di informazioni, da renderlo più tempestivo e selettivo. Vedremo in teoria e con un esempio pratico i vantaggi che si possono raggiungere con l’utilizzo di algoritmi nelle operazioni di budgeting. Seguirà quindi a quest’introduzione un capitolo descrittivo sul data mining (capitolo 1), con il quale si cercherà di dare una visione d’insieme su questo campo dell’informatica che si occupa dell’esplorazione e dell’analisi di grandi quantità di dati al fine di scoprire pattern significativi. Questa parte comprende alcune

(8)

ii

definizioni introduttive, una breve principali modelli, l’esposizione accenno alla metodologia OLAP.

Il capitolo 2 tratta invece del con non vuole essere esaustivo m pianificazione è fondamentale pe scopo di indurre comportamenti obiettivi strategici. I vari meccan predittivi di tipo forecast con misu pre-azione) servono quindi com economico. Questa parte compre gestione e un successivo paragraf descrizione del budget delle vend dei vantaggi che derivano dal f paragrafo incentrato sull’attività d

Al centro del lavoro vedremo co all’azienda. Il risultato di una fusi con il concetto di intelligent quotidianamente alle aziende, la

Figura i: Rappresentazione

reve esposizione della teoria delle decisioni, una de ne del processo di data mining nelle sue 11 fasi

controllo di gestione e ne fornisce un quadro intr

o ma strumentale alla trattazione successiva. e per la sopravvivenza dell’azienda e il controllo di g

nti individuali e organizzativi in linea con il raggiung ccanismi di feedback (budget e report), feedforw misurazione dei risultati in corso) e simulazione (tip

come supporto alle scelte funzionali alla creazio prende quindi un’introduzione alle nozioni relative a grafo sul processo di budgeting, che conterrà nello endite. Il capitolo proseguirà con la descrizione dell’ al fare l’analisi degli scostamenti, per poi passa ità di reporting.

concretamente come la business intelligence può fusione metaforica dei primi due capitoli si trova n

ent budgeting. Nello scenario mutevole che

e, la business intelligence deve essere uno strume

one schematica del lavoro di tesi: interazione fra i capitoli

a descrizione dei fasi e infine un

introduttivo che iva. Una buona di gestione ha lo iungimento degli forward (modelli (tipo di controllo azione di valore ive al controllo di ello specifico una dell’importanza e assare all’ultimo

può essere utile va nel capitolo 3 he si prospetta umento valido di

(9)

iii supporto al controllo di gestione, che assume così il richiesto carattere di dinamicità e flessibilità adatto a fronteggiare le sfide dell’ambiente competitivo. L’approccio tradizionale non è più sufficiente e le aziende richiedono delle piattaforme intelligenti e applicazioni facili da usare per analizzare le grosse quantità di dati aziendali in maniera tempestiva e efficace. Grazie agli strumenti che fornisce la business intelligence si possono fare delle analisi accurate, si possono interpretare le informazioni, simulare i valori ragionando sui dati passati e facendo emergere i trend. Lo scopo finale è quello di migliorare la performance aziendale con un processo decisionale reso a sua volta migliore dall’alta qualità delle informazioni, dalla velocità e dalla potenza di calcolo e dalla disponibilità di aggiornamenti dei dati in tempo reale. Nello specifico questo capitolo comprende un paragrafo d’inquadramento del contesto in cui le aziende sono immerse per capire l’importanza del supporto di certe metodologie. Poi verranno presentate le serie temporali come elemento fondamentale per l’analisi di alcuni fenomeni aziendali, si proseguirà con il contributo del data mining nella gestione del rischio aziendale e infine verranno esposti i requisiti dei software di business intelligence affinché siano un valido supporto al processo decisionale.

Questi primi tre capitoli sono la base necessaria su cui si fonda il capitolo 4 che prevede

un’applicazione pratica dei modelli di data mining al controllo di gestione. Sarà preso in esame

un dataset di 4.249record relativi ai prodotti di un’azienda di caffè con i relativi valori a budget e a consuntivo. Per lo studio dell’andamento delle vendite verrà usato Orange Canvas, un pacchetto software gratuito per la classificazione, la visualizzazione e il mining dei dati. Questo software è dotato di un’architettura a più strati adatta per diversi tipi di utenti: dai principianti inesperti ai programmatori che preferiscono accedere allo strumento attraverso la sua interfaccia di scripting. A seguito di una descrizione del data warehouse a nostra disposizione sarà esposto il processo di preparazione dei dati. Si poi applicherà un’analisi degli scostamenti attraverso il grafico Waterfall costruito con Excel e successivamente un’analisi dell’andamento delle vendite, tramite Orange, con diversi modelli di regressione lineare, di autoregressione di vari ordini e con modelli a media mobile. Il capitolo si completa con un confronto e un’analisi dei risultati ottenuti.

La tesi si conclude con le riflessioni finali sul lavoro svolto e con uno sguardo sulle prospettive future di sviluppo.

(10)
(11)

- 1 -

CAPITOLO 1.

DATA MINING: PRESENTAZIONE E TECNICHE

La globalizzazione, il mercato sempre più volatile, i cambiamenti legislativi e i progressi tecnici che si verificano ogni giorno hanno un impatto significativo sull’ambiente economico e sulla maggior parte delle industrie. Come conseguenza le aziende e le organizzazioni si ritrovano a dover maneggiare enormi quantità di dati, che sono talmente utili allo svolgimento dell’attività di business da essere entrati a far parte a pieno titolo delle risorse aziendali: la capacità di poterne trarre beneficio è essenziale per il successo dell’azienda e per il suo vantaggio competitivo. Per questo motivo la memorizzazione, l’accesso a dati attendibili e i nuovi meccanismi tempestivi di decision-making sono fondamentali in questo contesto mutevole. Il lavoro inizia perciò con un capitolo descrittivo sui concetti di Business Intelligent e data mining a supporto delle decisioni strategiche e dell’organizzazione aziendale, per poi passare ad un paragrafo sulla teoria delle decisioni, ad uno che presenti le principali soluzioni applicative e le tecniche che possono essere di supporto allo sviluppo aziendale. Verrà poi descritta la

metodologia di data mining in tutte le sue 11 fasi e infine si presenterà un accenno all’approccio OLAP.

1.1 DEFINIZIONI e CONCETTI

Le informazioni sono necessarie all’azienda per scopi direzionali interni e per il controllo di gestione. Si parte dalla raccolta dati, per passare all’elaborazione e infine all’utilizzo vero e proprio da parte del livello direzionale: in questo stadio si cerca di capire l’andamento delle performance dell’azienda, si generano stime previsionali e si ipotizzano scenari futuri e future strategie di risposta. Il termine Business Intelligence allude ad un campo molto ampio di attività, sistemi informativi aziendali e tecnologie informatiche finalizzate a supportare processi di misurazione, controllo e analisi di risultati e di performance aziendali e infine come supporto ai processi di decision-making in condizioni variabili di incertezza. I meccanismi operativi del processo di controllo in cui la business intelligence può essere utile sono i classici controlli post-azione (feedback e analisi degli scostamenti) sia su risultati generali che su

(12)

- 2 -

periodi intermedi, controlli in corso di marcia (feedforward e modelli predittivi) e controlli pre-azione (simulazioni di tipo goal seeking, what if e impact analysis). 1

Nel 1996 il gruppo Gartner, una società per azioni leader mondiale nella consulenza strategica, nello studio e nella ricerca nel campo dell'Information Technology, affermò che «l’analisi dei dati, l’attività di reporting e gli strumenti di interrogazione dei dati sono elementi che possono aiutare gli attori aziendali a navigare nel mare di dati disponibili ed a ricavarne le informazioni utili e di valore. Questi strumenti ricadono in un’unica categoria chiamata business intelligence». Da questa definizione in poi tutte le compagnie che si occupavano del supporto all’organizzazione aziendale adottarono tale termine e ricondussero tutti i loro strumenti di Data Warehouses, di Data Marts, l’Online-Analytical Processing (OLAP) e di data mining sotto la grande ala del termine business intelligence. Ci sono voluti anni per stabilire una comprensione comune di questa attività nella ricerca (effettivamente la business intelligence) e nella pratica (performance management).2

Cerchiamo di fare chiarezza e iniziamo col dire che la business intelligence è lo strumento chiave che conduce ad una gestione sempre più efficace e strategica delle informazioni. Le condizioni di contesto in cui operano le aziende, la maggiore o minore apertura all’innovazione e la complessità delle risorse umane e delle tecnologie a disposizione hanno determinato un processo evolutivo del sistema informativo aziendale articolato in vari stadi.3

Figura 1.1: Architettura della BI - FONTE: Business Intelligence And Performance Management

1 MARASCA S., MARCHI L., RICCABONI A., Il Controllo di Gestione: metodologie e strumenti, Knowita, 2013, pp. 105-106

2 P. RAUSCH, A.F. SHETA, A. AYESH, Business Intelligence And Performance Management, Springer-Verlag London, 2013: p.4

(13)

- 3 - La figura 1.1 mostra una tradizionale architettura della Business Intelligence. Alla base si possono trovare sia fonti esterne che interne come Supply Chain Management (SCM), sistemi E-procurement, sistemi di Enterprise Resources Planning (ERP) e di Customer Relationship Management (CRM).

Salendo di livello possiamo vedere che l’architettura vera e propria è formata da tre strati:

1. Supporto dati: in questo primo stadio si crea il database, ovvero il responsabile della memorizzazione dei dati strutturati o non strutturati che servono per supporto alle decisioni. Si individuano, raccolgono e integrano i dati provenienti da fonti primarie (sistemi ERP o altri sistemi operazionali) e da fonti secondarie (documenti non strutturati, dati personali e dati acquisiti esternamente). L’obiettivo è quello di raccogliere più elementi possibili dalle organizzazioni con cui l’azienda interagisce quotidianamente.

2. Generazione, stoccaggio e distribuzione delle informazioni: in questo secondo strato si vogliono rendere utili al processo decisionale i dati che abbiamo raccolto in precedenza e perciò vengono analizzati e la conoscenza che ne deriva viene distribuita ai vari livelli aziendali. La funzionalità di analisi di questo strato include OLAP e i modelli di data mining, la generazione di report, di analisi ad hoc e la Balanced Scorecard. I documenti strutturati vengono stoccati negli Operational Data Stores (ODS), nei data warehouses e nei data-marts (anche detti database decisionali). I dati vengono estratti dalle fonti primarie, opportunamente trasformati e immagazzinati nei database preposti alle analisi di business intelligence mediante strumenti detti ETL (Extract, Transform, Load). Per spiegarla meglio, il data warehouse è il serbatoio dei dati che provengono dalle fonti primarie e secondarie, che subiscono un processo di trasformazione a seguito della loro estrazioni, prima di essere caricati all’interno di questo deposito. Questo perché per essere utili alle analisi di business intelligence i dati devono essere puliti, omogeneizzati e raccolti secondo un senso temporale. Stiamo parlando di una sorta di grande magazzino integrato di dati aziendali riorganizzati in modo funzionale alla loro condivisione e alla riutilizzabilità nei vari processi operativi. Il data warehouse è suddiviso in vari sottoinsiemi, detti data mart ovvero dei piccoli serbatoi specializzati per dipartimento, area, funzione aziendale.

3. Accesso all’informazione: nel terzo stadio i dati vengono infine estratti dai data warehouse e data mart per alimentare i modelli matematici e le metodologie

(14)

- 4 -

analitiche di business intelligence. In quest’ultimo caso si possono attuare i seguenti studi: analisi multidimensionale (OLAP), analisi esplorative, analisi di serie storiche, modelli di apprendimento inferenziale (data mining), modelli di ottimizzazione. Si possono analizzare sia la performance aziendale attuale, sia prevedere quella futura e presentare i risultati di queste analisi alla direzione, che li utilizza per maturare le decisioni chiave della vita dell’azienda. Di solito questo livello è realizzato con un interfaccia software in modo da rendere tutto più armonizzato e intuitivo per l’utente finale.4

Oggigiorno le aziende hanno spesso un business secondario affiancato a quello principale e di conseguenza si trovano a gestire processi produttivi che sono sostanzialmente diversi fra di loro. Risulta ancora una volta chiaro come le vecchie soluzioni che andavano bene per le aziende monoprodotto siano ormai obsolete. Le soluzioni moderne di business intelligence consistono infatti in un set di differenti Data Storing Systems che interagiscono fra di loro, con differenti procedure ETL (Extract, Transform, Load), adeguati strumenti di analisi e adeguati modelli di processo che siano in grado di soddisfare tutte le sfide per un efficace supporto alla vita aziendale.

Un termine che si sovrappone parzialmente a quello appena trattato di business intelligence e che attrae l’attenzione della scienza e delle industrie è il concetto più moderno di Performance Management. Questo sta ad indicare quell’insieme di attività che assicurano che gli obiettivi dell’azienda siano raggiunti in maniera efficace e efficiente. Si può riferire sia alla performance di un’intera organizzazione, di una singola funzione aziendale, oppure di un impiegato o di un singolo processo. Non c’è una chiara e univoca definizione da parte della letteratura per questo concetto, ma forse quella più chiara è ad opera degli studiosi Geishecker e Rayner: «il performance management è l’insieme di metodologie, metriche, processi e sistemi che sono usati per monitorare e gestire la performance di un business». L’idea che sta alla base di queste attività può essere illustrata più chiaramente in figura 1.2:

4

P. RAUSCH, A.F. SHETA, A. AYESH, Business Intelligence And Performance Management, Springer-Verlag London, 2013: pp.3-6

(15)

- 5 -

Figura 1.2 Cicolo chiuso del performance management - FONTE: Business Intelligence And Performance Management

Il performance management fa da ponte fra il livello strategico e quello operativo e si occupa dell’orientamento dei processi, a differenza della business intelligence che è più incentrata sull’aspetto tecnologico.

Mentre il livello operativo si occupa di monitorare, controllare e ottimizzare i processi, il livello

strategico definisce gli obiettivi e i Key Performance Indicators (KPIs). Il punto di partenza è

l’analisi del business, successivamente si definiscono egli obiettivi e come ultimo passo si impostano i KPIs. A livello operativo invece i processi devono essere pianificati. Nel caso di processi automatizzati, l’esecuzione può essere monitorata da strumenti di Business Activity Monitoring (BAM). Naturalmente è possibile anche aggiungere e raccogliere dati in maniera manuale. I dati raccolti sono poi processati dagli strumenti per il reporting che permettono l’analisi della performance in paragone agli obiettivi prefissati. I dati chiave per il livello operativo sono monitorati e analizzati con cadenza regolare e le analisi fanno sì che la performance reale sia visibile a tutti. A seguito di questo si possono intraprendere delle azioni correttive, come ridefinire gli obiettivi, adeguare le risorse da attribuire oppure attuare modifiche sui vincoli da rispettare e sulle leve economiche da attribuire. In una situazione ideale i problemi sono identificati in anticipo, prima che si verifichino. Gli effetti negativi o positivi di questi aggiustamenti sono misurati nella successiva iterazione e un nuovo ciclo inizia. I risultati che sono raggiunti dal livello operativo hanno naturalmente un impatto sul livello strategico.

(16)

- 6 -

Come già menzionato, i tre livelli dell’architettura della business intelligence includono alcune funzionalità per implementare i concetti di performance management, che in questo contesto il può essere visto come un’estensione della business intelligence. Mentre le applicazioni di questa sono incentrate su raccolte automatizzate di dati e su analisi con strumenti come il data mining o le tecniche OLAP, il performance management si concentra sui processi di monitoraggio e sul controllo degli obiettivi per livelli differenti di management (operativo, direzionale e strategico). L’intenzione è quella di raggiungere il vantaggio competitivo con il miglioramento continuo dei processi secondo le condizioni dettate dalla strategia aziendale.5

Ecco che da questo mare di termini emerge il data mining, ovvero l’esplorazione e l’analisi di grandi quantità di dati allo scopo di scoprire modelli e associazioni (patterns) o sequenze ripetute nascoste nei dati. In questo contesto il pattern indica una struttura, un modello. Il data mining viene inquadrato in senso stretto come una delle numerose tecnologie a disposizione per gestire i vari ambiti dell’azienda. In un’accezione più ampia è un’attitudine basata sul fatto che le azioni aziendali dovrebbero fondarsi sull’imparare (learning), che le decisioni che si basano sulle informazioni sono meglio delle decisioni non informate e infine che misurare i risultati porta beneficio al business. Il data mining è un processo e una metodologia: affinché sia efficace è necessario che si verifichino tutti i presupposti. Per esempio, per impostare una relazione con il cliente dalla quale si possono apprendere elementi utili allo sviluppo del rapporto bisogna che l’azienda noti il loro comportamento, che ricordi le loro scelte, che impari da quello che ha immagazzinato e infine agisca affinché la conoscenza acquisita si traduca in un profitto maggiore per il business. È necessario che ci sia un sistema di elaborazione delle transazioni, un data wharehouse che immagazzini tali informazioni, il data mining che traduca i comportamenti passati in piani per azioni future e infine una strategia di customer relationship management che metta il tutto in pratica.

Ogni interazione con il cliente è un’opportunità di apprendimento: ogni chiamata al centro assistenza, ogni transazione in un punto vendita, ogni ordine di un catalogo, visita sul sito aziendale, e così via. Ma imparare richiede uno sforzo molto maggiore rispetto al semplice immagazzinare i dati. È necessario che tutto quello che si può ricavare dai record di fatturazione, da dati scannerizzati, da form di registrazioni, applicazioni, registri di chiamate, riscatti di buoni omaggio e questionari siano immagazzinati insieme e organizzati in maniera utile e coerente. Ecco il significato del data warehouse. I modelli di comportamento dei clienti

5

P. RAUSCH, A.F. SHETA, A. AYESH, Business Intelligence And Performance Management, Springer-Verlag London, 2013: pp.6-8

(17)

- 7 - diventano sempre più evidenti con il passare del tempo, perciò il data warehouse deve supportare i dati storici affinché siano accurati e ben strutturati di modo che il data mining possa cogliere i trend di comportamento. È come se il data warehouse fornisse all’azienda una memoria che però non serve a nulla se non usata con intelligenza. Bisogna perciò esaminare la memoria creata, evidenziare i possibili patterns, escogitare delle regole, farne derivare delle idee, farsi le giuste domande e infine fare delle predizioni sul futuro. Fare data mining significa usare una serie di strumenti e tecniche per aggiungere intelligenza al data warehouse ed è l’unico modo di sfruttare la vastità di dati generati dall’interazione dell’azienda con i vari attori aziendali per provare a rispondere ad una serie di domande sul futuro: chi più probabilmente rimarrà un cliente fedele? Chi è più probabile che abbandonerà il business dei nostri concorrenti? Quale fornitore consegnerà nei tempi giusti la merce? Quale prodotto dovrebbe essere venduto a quali segmenti di clientela?

Il nocciolo della questione del data mining per l’azienda (e in generale) è che i dati del passato contengono informazioni che son utili nel presente per pianificare il futuro. Lo scopo finale di questa tecnica è di trovare un modello ricorrente nei dati storici che getti luce su tutti quegli aspetti necessari alla gestione aziendale: preferenze dei consumatori, andamento dei prezzi, settori in crescita, situazione dei mercati, etc... ll data mining ha il ruolo fondamentale di separare i segnali dal rumore e riconoscere così i giusti percorsi in un mare di variazioni apparentemente casuali. 6

1.2 TEORIA DELLE DECISIONI

Lo scopo di questa tesi è quello di riuscire ad individuare i vantaggi che possono avere le aziende nell’organizzare i dati a loro disposizione e ad analizzarli con le tecniche di data mining affinché l’enorme mole di informazioni diventi uno strumento utile al processo decisionale. Questo è fondamentale per la gestione aziendale perché è attraverso l’assunzione delle decisioni che i responsabili delle aree funzionali possono determinare le modalità e i contenuti delle operazioni e contribuire allo sviluppo del business.

6

M. J. A. BERRY, G. S. LINOFF, Data Mining Techniques for Marketing, Sales, and Customer Relationship Management, Wiley Publishing, Inc., 2004: pp: 2-8

(18)

- 8 -

In generale spesso nella vita reale dobbiamo prendere delle decisioni senza avere le informazioni necessarie: in questi casi non si può fare la decisione giusta ma solo la più razionale e la decisione migliore ci porterà alle conseguenze migliori. Ed è di questo che si occupa la teoria delle decisioni, ovvero quell’insieme dei modelli statistico-matematici adottati nello studio del processo di scelta della decisione ottimale in condizioni di incertezza o d’informazione incompleta. La teoria delle decisioni include per esempio la nota teoria dei giochi.

Un caso molto usato per introdurre questa teoria è quello della scuola israeliana per generali e diplomatici, in cui viene chiesto di dare una risposta in breve tempo al seguente quesito: come bisogna comportarsi se un aeroplano non identificato entra in un nostro spazio protetto e si avvicina ad un impianto militare segreto? Si cerca di abbatterlo o lo si lascia passare, considerando che non conosciamo la tipologia dell’aereo e che può essere, per quanto ne sappiamo, o civile o militare.

In questa situazione vorremo avere più informazioni possibili sulle ipotesi, perché ci troviamo in uno stato d’incertezza. Il metodo classico per affrontare questa situazione è cercare di dedurre ogni implicazione da ciascuna ipotesi. Bisogna considerare che esistono una serie di azioni da intraprendere, una serie di risultati (cosa accade dopo aver preso la decisione) e di conseguenze (il valore di quello che succede, che va oltre il valore economico). Inoltre bisogna aggiungere oltre ai due fronti un terzo attore, estraneo e imprevedibile, che viene identificato con il termine natura e del quale conosceremo le mosse sono alla fine: questo giocatore non è intelligente, non pianifica le sue mosse e agisce senza un motivo preordinato.

Nell’esempio dell’aereo non identificato abbiamo tre possibili scenari: l’aereo trasporta civili, l’aereo è di tipo militare ma in missione di ricognizione oppure l’aereo ha intenzioni offensive e vuole distruggere l’impianto. In tutti e tre gli scenari noi possiamo fare due tipi di azione: o non facciamo nulla oppure proviamo ad abbattere l’aereo. Queste azioni combinate ai vari scenari hanno delle conseguenze, ovvero a seconda di cosa succede la conseguenza è una stima del risultato non solo di tipo economico, ma anche politico, morale, etico e relazionale. Per aver più chiaro questo concetto di conseguenza introduciamo la nozione di valore atteso definito come sommatoria del prodotto del valore di un evento se si verifica (E), moltiplicato per la probabilità (p) che esso si verifichi effettivamente.

(19)

Concettualmente è come calcolassimo la media dell media delle conseguenze. schematizzare il problema descrivono la presa di decis

Figura 1

Una volta impostato questo sono ovvie o comunque so centrare il bersaglio quindi dell’esito: si tratta in ques etiche e politiche e ottener nel calcolo del valore atteso

La cosa più giusta da fare

comparazione, che è mol

dalla figura 1.4 a basse pro decrementa: il peggior scen a bordo. Il punto di interse valore atteso di far fuoco del punto di indifferenza, confidenza se la probabilità

me se dividessimo il punto di osservazione in un dell’esperimento ripetuto per ogni possibile esito

. Possiamo a questo punto fare un modello di a ma proposto come in figura 1.3. In questo tipo di n ecisione mentre gli ovali indicano cosa è successo.

1.3: Rappresentazione dell'albero decisionale del problema

esto modello possiamo dare delle stime di probabi e sono ragionevolmente ipotizzabili (sappiamo qu indi possiamo stimare p1 e p2) e possiamo dare delle

uesto caso di sommare metaforicamente le conse enere una somma di soldi, che è concettualmente sb

teso.

fare a questo punto è convertire il problema di va olto più semplice da impostare e risolvere. Com probabilità che l’aereo sia un aereo civile, il valor scenario si ha nel caso in cui si abbatta un aereo con ersezione fra le due curve (*) rappresenta il punto d

e il valore atteso di lasciar passare. Adesso che c , possiamo risolvere il problema perché conosci ilità dell’evento è superiore o inferiore ad essa.

- 9 - n un’infinità di cloni e sito. Otteniamo così la di albero decisionale e di notazione i quadrati

o.

ma

babilità (pi), che spesso

quanto siamo bravi a elle stime circa il valore onseguenze finanziarie, te sbagliato ma ci aiuta

i valutazione in uno di ome possiamo vedere alore atteso di sparare con dei passeggeri civili

to di indifferenza fra il

he conosciamo il valore osciamo con una certa

(20)

- 10 -

Figura 1.4: Analisi di sensitività del problema dell'aeroplano

Questo genere d’impostazione per la soluzione di problemi è molto utile in infiniti ambiti, soprattutto funziona come supporto alle decisioni di tipo strategico, ogni qualvolta che la decisione è intesa fra due scelte alternative le cui conseguenze non sono certe.

1.3 MODELLI DI DATA MINING

Sicuramente il data mining è uno strumento e come ogni strumento da solo non è sufficiente: è necessario sapere bene come funziona e come usarlo per ottenere i giusti risultati. Per capire l’importanza e la versatilità di questa tecnica vale la pena di ricordare che anche se noi la stiamo usando nell’ambito dell’economia aziendale con il fine di supportare le decisioni di business, queste tecniche e strumenti sono applicati in ogni tipo di settore: dalla sicurezza pubblica alla radioastronomia, alla medicina o al controllo di processi industriali. La maggior parte degli algoritmi di data mining non sono stati inventati per motivi commerciali ma vengono comunque presi in prestito dalla statistica, dal mondo dell’information technology e dall’intelligenza computazionale (machine learning). La scelta di un algoritmo rispetto ad un altro dipende dai dati, dallo scopo della ricerca e dalle preferenze e capacità di colui che effettua l’analisi (data miner).

(21)

- 11 - Il data mining è in genere maggiormente coinvolto nella costruzione di modelli, ovvero degli algoritmi, un insieme di regole che connette un gruppo di input (nel nostro esempio saranno in forma di campi del database aziendale scelto) verso uno specifico obiettivo. La regressione,gli alberi decisionali e la maggior parte delle altre tecniche di data mining di cui discuteremo sono tecniche per la creazione di modelli. Essi possono fornire delle spiegazioni sui risultati oppure possono produrre dei punteggi (scores). Un punteggio è un modo di esprimere i risultati di un modello in un singolo numero, il che può rivelarsi utile alla creazione di una graduatoria dei clienti dal più al meno leale o dal più al meno incline ad accettare un’offerta o ancora dal più o meno probabile ad essere inadempiente ad un credito.

Molti problemi di interesse intellettuale, economico e aziendale possono essere formulati in termini delle seguenti 6 attività: classificazione, stima, predizione, raggruppamento per familiarità (affinity grouping), clustering, descrizione e profiling. I primi tre sono esempi di data

mining diretto in cui lo scopo è trovare il valore di una variabile target in particolare. Affinity

grouping e clustering sono attività di data mining indirette il cui scopo è scoprire strutture nei data senza però seguire nessuna variabile nello specifico. Il profiling è un compito descrittivo che può essere sia diretto che indiretto.7

I modelli più importanti e più usati sono:

- Classificatori, che consentono di derivare un modello per la classificazione di dati secondo un insieme di classi assegnate a priori;

- Alberi decisionali, ovvero particolari classificatori che permettono di identificare in ordine d’importanza un insieme di classi assegnate a priori;

- Regole associative, che consentono di determinare le regole di implicazione logica presenti nella base di dati e quindi di individuare gruppi di affinità tra oggetti;

- Clustering, che raggruppa gli elementi di un insieme a seconda delle loro caratteristiche in classi non assegnate a priori;

- Regressione e serie temporali, che permettono l’individuazione di pattern ricorrenti o atipici in sequenze temporali complesse di dati.

Analizziamo nelle prossime sezioni alcuni di essi.

7

M. J. A. BERRY, G. S. LINOFF, Data Mining Techniques, for Marketing, Sales, and Customer Relationship Management, Wiley Publishing, Inc., 2004: pp: 8-12

(22)

- 12 -

1.3.1 Classificazione

Iniziamo con il descrivere il modello di classificazione: data una collezione di record (training set) ogni record sarà composto da un insieme di attributi, di cui uno esprime la classe di appartenenza del record. Infatti questo tipo di modelli cerca di predire un attributo target categorico: a partire da un insieme di osservazioni riferite al passato, per le quali è nota la classe di appartenenza, si genera un modello che consente di effettuare predizioni su un nuovo elemento del training set.

Nello specifico i classificatori Bayesiani rappresentano un approccio probabilistico per risolvere questo genere di problemi. In molte applicazioni la relazione tra i valori degli attributi e quello della classe non è deterministico a causa del rumore dei dati o della presenza di caratteristiche non modellate dagli attributi o ancora a causa della difficoltà nel quantificare certi aspetti del fenomeno.

I modelli di classificazione sono molto usati nell’individuazione di frodi, negli studi sul grado di soddisfazione del cliente oppure nel direct marketing, dove si cerca di ridurre il costo della pubblicità definendo l’insieme dei clienti che con maggior probabilità compreranno il prodotto. Dal momento che offrire qualcosa a qualcuno è sempre un costo, ottimizzare la probabilità delle proposte che vanno a buon fine è sicuramente una cosa positiva per l’azienza.

Nella pratica la classificazione può essere spiegata attraverso un caso di vendita di un nuovo

prodotto: analizziamo i dati raccolti per il lancio di prodotti simili e secondo uno schema

compra-non compra, assegniamo un attributo di classificazione. Lo scopo finale è quello di predire la domanda e immaginiamo ogni possibile consumatore come una macchina che ha due soli output: compra, non-compra. Questi output si verificano con una certa probabilità, una sorta di legge interna del consumatore che noi non conosciamo a priori. Non sappiamo con quale probabilità il cliente risponderà l’uno o l’altro però possiamo osservare la loro attitudine a comprare basandoci sui dati passati. Immaginiamo infatti di avere a disposizione un database aziendale con alcuni nostri clienti, con 5 variabili ciascuno. Useremo la regola di

Bayes per predire il valore di un nuovo consumatore sconosciuto. Assumeremo implicitamente

che lui o lei derivino dalla stessa popolazione del database, altrimenti la regola salta. Ipotizziamo di voler predire il genere del nuovo consumatore: questo è esattamente un problema di classificazione, in quanto abbiamo un gruppo di classi e vogliamo mettere il nuovo cliente in una di esse. Per questo attributo esistono due sole classi: uomo o donna.

(23)

- 13 - In genere nei database abbiamo a disposizione due tipologie di attributi: demografici, ovvero genere, età, cittadinanza, livello di studi, e comportamentali, che descrivono quello che una persona ha fatto, ovvero per esempio se ha reagito positivamente ad una promozione precedente di altri prodotti simili. Immaginiamo di conoscere questo tipo di attributi e di voler predire il genere con una probabilità ragionevole. Potremmo basarci su una persona presente nel nostro database che si è comportata nello stesso modo e vedere se è uomo o donna e trasporre il genere sul nuovo cliente. In questa maniera però non siamo abbastanza sicuri. Per questo ci rivolgiamo ad un metodo più sofisticato fornito dall’approccio Bayesiano. Ricordiamo a tal proposito che per Bayes la probabilità è una questione soggettiva. Si arriva a conseguenze razionali partendo da stime probabilistiche e modificandole via via quando c’è dell’informazione disponibile: si può credere quello che si vuole ma quando c’è una nuova informazione si devono cambiare le nostre credenze in maniera razionale e coerente. Questo è il senso dell’imparare.

Formuliamo due ipotesi: il nuovo cliente è maschio o il nuovo cliente e femmina. Controlliamo l’esito di un certo evento (per esempio: ha comprato una rivista per una precedente promozione) non sulla base di tutta la popolazione, ma sulla base di due sub-popolazioni: uomini e donne. In questo modo abbiamo segmentato il mercato. Con questo metodo stiamo sostituendo la probabilità con la frequenza. La formula ci dice: la probabilità che il cliente compri una rivista dal momento che è un uomo é…. Ma in realtà noi usiamo al posto della probabilità la frequenza, assumendo momentaneamente che il futuro sarà uguale al passato. Quindi la nostra metodologia è: abbiamo un dataset e un nuovo cliente parzialmente conosciuto (conosciamo solo i suoi attributi comportamentali):

1. calcoliamo la probabilità di ogni sesso dividendo la popolazione in due segmenti; 2. per ogni ipotesi applichiamo la regola di Bayes.

Ragioniamo con la probabilità che qualcuno compri la rivista dal momento che questo qualcuno è uomo (verosomiglianza), con la probabilità che il cliente sia un uomo (priore) e con la probabilità che un cliente in generale compri la rivista (riguarda tutta la popolazione). La formula che ne deriva è:

| = | ∙

La parte interessante è il significato della frazione: se per esempio risulta essere 2, allora significa che gli uomini sono due volte più propensi a comprare la rivista dell’intera

(24)

- 14 -

popolazione. In generale se il rapporto è maggiore di 1 allora l’evento avvalora l’ipotesi fatta, altrimenti, se è minore di 1, scredita tale ipotesi.

1.3.2 Alberi di classificazione8

Come abbiamo visto nel paragrafo 1.2 sulla teoria delle decisioni, un albero di decisione è un grafo di decisioni e delle loro possibili conseguenze, inclusi i relativi costi, risorse e rischi, utilizzato per creare un piano di azioni mirato ad uno scopo. Supponiamo di avere di nuovo il nostro database con 15 clienti, 5 attributi ciascuno (reddito, scelta sull’assicurazione per la vita, scelta sull’assicurazione sulla carta di credito, sesso e età). A questo punto scegliamo 4 variabili come predittori e 1 variabile che sarà il nostro output desiderato (l’assicurazione sulla vita).

Il nostro obiettivo non è individuare con quale probabilità il nuovo cliente comprerà la nostra assicurazione, ma piuttosto classificarlo come un successo o un fallimento, analogamente al compra-non compra della classificazione. Assumiamo ancora che il nuovo cliente provenga dalla medesima popolazione di quelli presenti nel nostro database.

Iniziamo con un’ipotesi iniziale (priore), facciamo una prova, osserviamo e cambiamo idea a seconda di cosa abbiamo imparato, secondo il metodo Bayesiano. Gli alberi di classificazione prevedono di procedere secondo una serie di modelli successivi: il primo, il più semplice, prevede di basare la previsione sulla frequenza dei sì (compra) e nel caso sia la maggioranza prevediamo un sì anche per il nuovo cliente.

Ogni volta che applichiamo un nuovo modello per classificare ne calcoliamo l’accuratezza, ovvero quante volte l’albero riesce a classificare correttamente i records nelle rispettive classi di appartenenza.

Un modello che si basi sul sesso del cliente aggiunge automaticamente una segmentazione del campione e per questo motivo è più informato rispetto al precedente. Si osservano i comportamenti degli uomini e delle donne e si predice di conseguenza sulla base di quello che è accaduto nel passato.

I modelli possono avere anche più regole: per esempio pensiamo ad un modello che aggiunge il reddito del cliente e che quindi divide la popolazione in 4 fasce e per ogni nodo predice

(25)

- 15 - l’output usando la regola della maggioranza vince. Se osserviamo attentamente, questo modello è basato su 4 regole. Ipotizziamo allora che risulti avere la stessa accuratezza del modello che si basava sul genere: in questo caso il migliore fra i due risulta essere il più semplice (il secondo) perché è anche quello che ha segmenti più grandi quindi più significativi.9

Quest’ultimo concetto si basa su un importante indicatore per i modelli, ovvero l’indice di

bontà che fonde l’esigenza di accuratezza con quella di semplicità. Si calcola come:

À =

Quando cambiamo modello e l’accuratezza rimane la stessa di un modello precedente significa che l’osservazione non è dipendente dall’obiettivo: non abbiamo ottenuto nessuna informazione aggiuntiva. Mettiamo caso che il modello che usa come predittore l’assicurazione sulla carta di credito abbia la stessa accuratezza del primissimo usato (la maggioranza vince). Ecco, in questo caso significherebbe che la scelta di fare l’assicurazione sulla carta di credito è indipendente a quella se farla sulla vita.

La scelta del miglior predittore dipende dalla quantità di potere previsionale data da un modello che riesca anche a mantenere la generalizzazione. Questa è una caratteristica fondamentale per un predittore perché se non è generalizzabile non funzionerà mai nel futuro. Nel machine learning generalizzare significa prendere le conclusioni dal passato e riusarle per predire il futuro.

La conclusione finale è la costruzione grafica dell’albero di decisione in cui partiamo dal miglior predittore ottenuto e applichiamo la segmentazione ad ogni nodo impuro, aggiungendo predittori in ordine decrescente di indice di bontà. L’impurità dipende dall’equilibrio delle risposte dei clienti all’interno del nodo. Questa misura è massima quando tutte le classi della variabile dipendente sono presenti nella stessa proporzione, mentre è minima quando il nodo contiene casi appartenenti ad un’unica classe: più semplicemente se sono equilibrate (per esempio ci sono 6 sì e 6 no) allora il nodo è impuro, altrimenti è puro (per esempio 12 sì e 0 no) e il ramo dell’albero si ferma senza dover applicare il successivo modello. Un nodo è puro quando tutti hanno risposto la stessa cosa all’unanimità.

9 Nel marketing più segmenti significano più strategie e più costi. C’è un trade-off fra segmentare e di conseguenza risultare più appetibile nei confronti del cliente e non segmentare troppo per ridurre i costi.

(26)

- 16 -

1.3.3 Regressioni e serie temporali

La regressione esprime il fatto che, data una media, gli individui tendono congiuntamente a lasciare tale media ma anche a tornarci. È un principio universale che regola i processi di ogni tipo altrimenti essi imploderebbero o collasserebbero. Quando abbiamo una lista di dati generalmente li codifichiamo in un equazione allo scopo di comunicarli, ma in questo modo è possibile ottenere una distorsione10 durante il processo di decodifica. La tecnica più usata per

misurare la distorsione è calcolare per ogni numero originale la distanza fra quel valore e la costante che vogliamo trasmettere. Poi facciamo la sommatoria al quadrato di ogni scarto, per evitare che errori positivi e negativi si compensino.11

=

!

−# $

Quel numero che minimizza la distorsione potrebbe essere per esempio media del mio database iniziale. Se abbiamo una tabella di dati, possiamo scegliere le variabili dipendenti e quelle indipendenti e un modello di calcolo che scelga il parametro che minimizzi la distorsione. Se riusciamo a trovare la giusta equazione di regressione possiamo inviare la prima colonna con gli attributi osservati e l’equazione così da ricostruire gli attributi comportamentali. Questo è molto utile per due motivi: se abbiamo un database molto numeroso allora possiamo mandare la metà dei dati più un’equazione di decodifica risparmiando in soldi, tempo e spazio. In secondo luogo questi modelli sono utili per generare delle predizioni.

La regressione lineare è molto utile per descrivere i fenomeni che aumentano nel tempo con una forma lineare del tipo: Y=aX+b. Y cambia proporzionalmente a X e in presenza di entrambi le variabili possiamo usare un semplice software di calcolo (come Excel o Orange) per calcolare l’equazione giusta. Vedremo un esempio pratico più avanti nel quarto capitolo.

Con i modelli di regressione lineare abbiamo un concetto simile a quello di indice di bontà visto per gli alberi di classificazione, ovvero il determinante lineare R2 che misura l’accuratezza del modello. Dire che un modello ha per esempio R2=66% significa dire che il 66% della variazione

10 J. H. STOCK, M. W. WATSON, Introduzione all'Econometria, Pearson, 2016, pp.53-54

11 Usiamo gli scarti al quadrato e non il valore assoluto perché la funzione del quadrato è differenziabile continuamente. Graficamente la distorsione può essere vista come una linea verticale che intercetta l’equazione della nostra funzione di regressione in un punto che è il valore che abbiamo predetto.

(27)

- 17 - del prezzo è spiegata da quell’equazione lineare e che il 34% non può essere spiegata da tale modello. Sono state assorbite 66 unità di errore, mentre con la semplice media si ottenevano 100 errori.

La differenza con il modello visto nel paragrafo precedente è che con gli alberi di classificazione si divide la popolazione in due gruppi e ogni segmento è indipendente dall’altro, ma con questo metodo abbiamo la stessa equazione per ogni punto: l’equazione predice il comportamento dei prezzi, non del singolo prezzo, ma di tutta la popolazione. La regressione è osservare, creare una legge, riutilizzarla per il futuro in una maniera che era simile al procedimento usato nel metodo bayesiano, nel quale però il pregiudizio era una probabilità, un numero. Nella regressione questo cambia perché il pregiudizio è la forma di tutta l’equazione. Imparare significa trovare a e b ottimali che minimizzino la distorsione dell’equazione.

Esistono anche altri tipi di regressione: quadratica, logaritmica e potenziale a seconda della forma del modello studiato. Esiste anche la regressione lineare multipla che è simile a quella lineare se non che usa almeno due predittori.

Non tutti i fenomeni però possono essere studiati secondo un modello che non consideri il

tempo. Per esempio, se analizziamo un database che ha per oggetto il salario mensile in

un’azienda, notiamo che c’è un incremento nel tempo, ma notiamo anche un comportamento inerziale, un trend nascosto, una specie di memoria per la quale se il dato è sopra la linea di regressione, allora molto probabilmente anche quello dopo lo sarà. Perciò quando prediciamo il punto successivo nella nostra serie dobbiamo tenere a mente questa combinazione di tempo e memoria del comportamento passato. Per isolare tale fenomeno ci sono due metodi, il primo dei quali prevede l’aggiunta di una colonna, che chiameremo ritardo e che corrisponde al salario del mese precedente. Per predire il salario del mese successivo non useremo il mese ma tale colonna. In questo caso avremo perciò il perditore che è il salario del mese precedente mentre il tempo diventa un fattore nascosto. Se i punti del grafico ottenuto con questo secondo modello sono sparpagliati in un modo più random allora significa che abbiamo rimosso il trend: adesso è più affidabile perché ci sono solo i veri dati e il rumore residuo.

Questo tipo di regressione tipica delle serie temporali si definisce autoregressione perché il segnale è regresso su sé stesso. Abbiamo una variabile e la variabile precedente dal punto di vista temporale (Yt e Yt-1) e possiamo predire Yt+1 come somma scalare o differenza fra le prime

(28)

- 18 -

due. Può essere di ordine 1 se usa la memoria di intervallo 1 mese o di ordine 2 se usa il ritardo di due mesi. Anche di questo modello vedremo un’applicazione pratica nel capitolo quarto.

I dati nelle serie temporali possono anche mostrare dei cicli stagionali. In questo caso l’autoregressione non è utile perche non abbiamo una linea ma un onda che si ripete ad ogni periodo. Un esempio classico sono le vendite annuali, che hanno due componenti:

- un trend del lungo periodo: per cui le vendite aumentano di anno in anno;

- un trend del breve periodo: è un trend infrannuale e non è un comportamento contingente.

Se vogliamo provare a rimuovere tale perturbazione per rendere i dati più affidabili, possiamo usare modelli a media mobile (sliding window) di ordine n, dove n è la lunghezza della finestra d’osservazione, un numero che rispecchia l’intervallo del ciclo: per esempio nel caso sia un ciclo trimestrale useremo una media mobile di ordine 4. Consideriamo che in una serie ci sia un trend e che ogni punto sia perturbato da qualcosa che non possiamo vedere (ovvero rumore dovuto da fattori esterni). Con questa tecnica assumiamo che ogni punto è simile al suo vicino precedente e successivo e in questo modo rimuoviamo la variazione ciclica.

Un secondo metodo per rimuovere il rumore nelle serie temporali è lo smorzamento

esponenziale e per applicare questa tecnica bisogna usare la seguente formula:

%&!= ' % + 1 − ' %

dove ' è la costante di livellamento che indica il tasso di apprendimento, la velocità con cui stiamo imparando. Più grande è e più velocemente sto imparando: sono aperto all’osservazione.

Il significato di questa formula è che il valore previsto per il futuro è una media pesata del valore che si è veramente verificato al tempo t e quello che io avevo previsto per il tempo t. Per capirne meglio il senso analizziamo i casi limite:

° Se α=1 significa che il valore previsto per domani è quello che si è veramente verificato oggi. Questa casistica funziona bene per ambiti come le previsioni metrologiche: eventi come le precipitazioni infatti si presentano in sequenza, senza passato né memoria. In termini Baesyani non abbiamo nessuna credenza a priori;

° Se α=0 significa che il valore previsto per domani è quello che io avevo previsto ieri per oggi. Questa è una dichiarazione di ferma conoscenza: sono convinto che nel lungo

(29)

- 19 - periodo le oscillazioni si compenseranno e il risultato sarà quello che prevedo costantemente;

° Se α=0,5 la mia previsione per domani è per metà quello che è successo oggi e per metà quello che ieri ho previsto per oggi. Ovvero sto bilanciando la vecchia previsione con l’evidenza: questo significa adattarsi.

Nella pratica di solito abbiamo un α basso (0,05; 0,10; …) ma il consiglio è quello di iniziare con una mente più aperta possibile (α alto) che significa essere veloci nell’apprendimento. Successivamente quando si inizia ad accumulare esperienza si può abbassare mano a mano in modo da mettere in pratica quello che stiamo imparando durante l’osservazione.

1.3.4 Regressione logistica

Non tutti i tipi di fenomeni si possono spiegare con la forma della regressione lineare. Per alcuni la forma lineare non va bene come per esempio gli investimenti in pubblicità: se non si investe per nulla abbiamo scarsa probabilità che qualcuno compri il nostro prodotto, ma con un piccolo sforza otteniamo un grande risultato. Quello che non rende quest’esempio adatto alla forma lineare è il fatto che più insistiamo più il ritorno diventa meno che proporzionale: se mostriamo la pubblicità alla stessa popolazione aumentiamo la probabilità ma non proporzionalmente perché verosimilmente si raggiungerà un punto di saturazione. Per questo genere di fenomeni è più opportuno usare il modello della regressione logistica. Se quella lineare assume la forma:

* = +! !+ +$ $+ ⋯ + + + -

La regressione logistica assume la forma:

.* = 1/ !, $, … 2 = +! !+ +$ $+ ⋯ + + + -

La parte sinistra dell’equazione è una probabilità condizionale e indica la probabilità che la variabile y assuma il valore 1 quando i predittori assumono specifici valori . Il problema principale è che il lato destro della formula va oltre al range di un modello binario a risposta [0,1] che reagisce a una scelta di tipo Sì-No, ma fornisce invece un risultato graduato del tipo, per esempio, 70% Sì e 30% No.

(30)

- 20 -

* = 1|3 =1 + 4456&756&7

Dove ax+c è il vettore che indica +! !+ +$ $+ ⋯ + + + -. Per capire perché usiamo questa formula analizziamo i casi limite:

- per x=0 allora * = 1|3 = 0,5 - per x=+∞ allora * = 1|3 = 1 - per x=-∞ allora * = 1|3 = 0

Figura 1.5: La funzione logistica

Come si può vedere anche graficamente dalla figura 1.5, la funzione logistica comprime la Y forzandola nell’intervallo [0;1] che è esattamente quello che vogliamo. La curva è simmetrica, c’è un punto centrale dove la combinazione lineare è 0 e la probabilità è 0.5.

A questo punto abbiamo la formula adatta al nostro problema e possiamo calcolare le stime usando la regressione lineare che non indica la probabilità, ma logit ovvero è una trasformazione di probabilità, un’applicazione del logaritmo naturale. Una volta che abbiamo il valore di logit possiamo predire la probabilità P(Y=1|X) con delle semplici operazioni algebriche. Useremo il rapporto:

ln !@ = > !|?= > !|? ) = ax+c

L’intuizione che sta dietro l’algoritmo per la regressione logistica è che noi osserviamo i dati passati e ci muoviamo per strade diverse per scegliere un coefficiente c che riproduca i dati storici con più accuratezza possibile.

La regressione logistica è molto utile in economia, infatti ci permette di calcolare il profitto atteso di una nostra azione, che sia una vendita o una promozione. Con la regressione lineare invece ottenevo soltanto una risposta di tipo sì o no. Adesso posso calcolare la probabilità come

(31)

- 21 - P > EFAGHBABCDB

Un fenomeno che può presentarsi in questo tipo di regressione è quello dell’overfitting, ovvero in ogni dataset io ho un segnale e il rumore. Il segnale, come la stagionalità, influisce sul numero di vendite, mentre il rumore è una variazione occasionale che non ha nulla a che fare con i nostri predittori. La nostra predizione sarà il più accurata possibile se si riesce a modellare più segnale possibile e meno rumore possibile. Invece l’overfitting di verifica quando il modello è perfettamente costruito per il training set ma non è generalizzabile e quindi inutile per future applicazioni.12

1.4 IL PROCESSO DI DATA MINING E LE BEST PRACTICES13

Abbiamo visto finora come il data mining sia il modo di imparare dal passato per prendere nel presente decisioni migliori per il futuro. Usare il data mining dal punto di vista pratico significa avere la capacità di tradurre i problemi di business in problemi di data mining: il circolo virtuoso che si instaura riguarda l’individuare il problema, trasformare i dati in informazioni, prendere le dovute azioni e misurare i risultati. È un processo iterativo in cui i vari step possono essere ripetuti più volte e nessuno deve essere saltato. Il fatto di trattare il data mining come un processo tecnico, avere una metodologia e delle best practices serve per evitare due insidie che possono verificarsi nel processo apprendimento:

- imparare cose non vere; - imparare cose vere ma non utili;

Per quanto riguarda il primo pericolo, i dati di per sé possono essere incorretti o non pertinenti, i pattern scoperti possono riguardare decisioni passate che non hanno nulla a che fare con il futuro, oppure la trasformazione dei dati potrebbe aver distrutto o nascosto importanti informazioni. La sfida dei data miners è quella di capire quali patterns sono predittivi e quali no. Come abbiamo visto nel paragrafo precedente, il termine tecnico per i pattern che finiscono con il generalizzare troppo poco è overfitting, che porta a modelli

12 F. PROVOST, T. FAWCETT, Data Science for Business, O’Reilly, 2013, pp. 111-113 13

M. J. A. BERRY, G. S. LINOFF, Data Mining Techniques, for Marketing, Sales, and Customer Relationship Management, Wiley Publishing, Inc., 2004: pp: 43-86

(32)

- 22 -

instabili che funzionano un giorno ma non in seguente. Si imparano cose non vere anche da modelli parziali (biased) e questo tipo di insidia è più difficile da evitare perché i clienti che rispondono alle mail sono diversi da quelli che le cestinano, chi risponde alle interviste ha un comportamento diverso da quelli che lo fanno, i records con tutti i valori riflettono una popolazione differente da quelli con informazioni mancanti. Ma non c’è modo di avere entrambi le parti, le analisi vengono fatte solo sui dati a disposizione e questo porta a modelli incompleti e quindi a imparare cose che non sono vere. Anche una segmentazione sbagliata può portare a una confusione dei risultati, perché per esempio il modo in cui i weekend e i giorni festivi capitano in un mese lo rende diverso a livello di vendite per un supermercato rispetto ad altri mesi che hanno una distribuzione più ordinaria.

Ovviamente anche il secondo tipo di problema va evitato: nell’imparare cose che sono vere ma non utili ricadono l’imparare cose che già si conoscono, oppure scoprire dati/informazioni che non possono essere usare.

Quando si segue il giusto percorso e si creano modelli basandosi sui dati allora si imparano cose nuove. Nel senso più generale un modello è una spiegazione o una descrizione di come qualcosa funziona che riflette la realtà abbastanza bene da poter essere usata per fare delle inferenze sul mondo reale. Anche senza rendersene conto l’essere umano crea automaticamente dei modelli mentali che lo aiutino ad analizzare la realtà.

Il data mining funziona come mostrato in figura 1.6: i modelli prendono una serie di input e producono un output. I dati usati per creare il modello si chiamano data set (come quello che useremo per un esempio pratico nel capitolo 4 della trattazione). Quando i modelli sono applicati a nuovi dati allora prendono il nome di score set.

(33)

- 23 - Le tecniche di data mining possono essere usate per costruire tre tipi di modelli che rispondono a tre tipi diversi di task: profiling descrittivo, profiling (diretto) e predizioni. Il primo tipo di modello descrive semplicemente quello che c’è nei dati e quindi l’output è uno o più grafici che spiegano l’andamento della situazione. Il profiling diretto e la predizione hanno invece al contrario uno scopo in mente mentre si crea il modello: nel modelli di profiling il target è contemporaneo all’input, mentre nei modelli predittivi il target deriva da uno stage successivo. Con le analisi predittive si vuole trovare un pattern nei dati che sia capace di spiegare dei possibili risultati in un periodo successivo. Questo ovviamente influenza la creazione del model set.

Il processo di data mining consta di 11 fasi:

1. tradurre il problema aziendale/di business in un problema di data mining; 2. selezionare i dati giusti;

3. analizzare i dati; 4. creare un model set;

5. risolvere tutti i problemi con i dati;

6. trasformare i dati per far emergere le informazioni; 7. costruire un modello;

8. valutare il modello; 9. implementarlo; 10. valutare i risultati; 11. iniziare da capo.

Questo non è necessariamente un processo lineare, in quanto anche se i vari step hanno un ordine naturale non è necessario finire completamente uno step prima di muoversi verso quello successivo. Inoltre le cose imparate negli step successivi possono causare una rivisitazione di quelli precedenti e questo lo rende sicuramente un processo non lineare.

Si parte dal primo step e si cerca di tradurre il problema aziendale nel linguaggio del data mining: non bisogna essere vaghi o parlare in termini generali. Bisogna impostare un progetto che sia misurabile.

Il data mining esiste se esistono dei dati, quindi al secondo step dobbiamo far in modo di selezionare dati appropriati. In un mondo ideale ogni azienda ha a disposizione nel suo data warehouse tutti i dati necessari, aggiornati e accurati dal punto di vista temporale. Questo non si verifica nella realtà quindi è auspicabile che dopo aver formulato il problema, si faccia una

(34)

- 24 -

lista dei dati desiderati, facendo attenzione alla quantità. Avere troppi dati può essere controproducente, perché porta a costi in termini di tempo e di elaborazione. Quanti dati sono sufficienti dipende dall’algoritmo usato, dalla complessità dei dati e dalla frequenza relativa dei possibili outcome. Se sono troppo pochi c’è il rischio che il data mining sia meno efficiente e perciò meno utile. Il livello desiderabile di dati si raggiunge quando il volume dei dati oscura il pattern che potrebbe essere rintracciabile in database più piccoli. Per quanto riguarda l’intervallo temporale, visto che il data mining usa i dati del passato per fare predizioni sul futuro, bisogna considerare che se c’è una stagionalità va scoperto ogni quanto si verifica e di conseguenza bisogna accertarsi che ci siano dati storici a sufficienza per catturare ciclicità questo tipo. Anche per quanto riguarda il tempo c’è una controindicazione, perché dati troppo vecchi potrebbero rispecchiare delle condizioni di mercato che oggi sono del tutto assenti e perciò inutili per la nostra ricerca. È auspicabile che i dati contengano almeno un esempi di tutti i possibili outcome che ci interessano.

Dal momento in cui si entra in possesso dei dati è buona norma farne un profilo: conoscere quello che stiamo maneggiando è quello che suggerisce il terzo step del processo e riguarda l’esaminare le distribuzioni presenti: il valore più alto e quello più basso sono ragionevoli? Quanto differisce la media dalla mediana? Quanti valori mancanti ci sono? Nel caso i dati sembrano non avere senso bisogna indagare sul motivo: provando a spiegare le discrepanze è probabile che si impari molto sul processo e sulle regole di business che sono dietro ai numeri riportati nei dati.

Il passo successivo (quarto step) riguarda il creare un model set in cui sono contenuti tutti i dati usati nella creazione del modello. Alcuni dati serviranno a trovare dei patterns significativi, altri a verificare che il modello sia stabile, altri ancora a verificare la performance del modello. Lo scopo principale di tutta la metodologia è creare dei modelli stabili, il che significa creare dei modelli che funzionino in ogni periodo dell’anno e anche nel futuro. Questo ovviamente è più probabile che succeda se i dati nel model set non provengono da un solo periodo dell’anno. L’idea è quella di generalizzare dal passato piuttosto che memorizzare quello che è successo in un particolare periodo, rischiando così di imparare delle cose che non sono generalmente vere. Un’altra questione riguardo l’intervallo temporale è che se il modello sarà usato per fare delle predizioni, anche se contiene più intervalli temporali, può sempre essere diviso in tre periodi dal punto di vista del tempo: passato, presente e futuro. Tutti e tre questi periodi dovrebbero essere presenti nel model set. Siccome tutti i dati provengono dal passato bisogna distinguere fra passato lontano, passato e passato recente, come mostrato in figura 1.7. I modelli predittivi sono costruiti in modo da trovare dei pattern nel passato lontano che spieghino quello

Riferimenti

Documenti correlati

(5 punti) Quali parametri costituiscono la tipica configurazione del software di rete di un host in una rete TCP/IP4. Spiegare, per ciascuno di essi, cosa sono e che

Quasi contemporaneamente, un gruppo di ricercatori statuni- tensi riportava i risultati del diabetes prevention program (DPP) 6. Gli oltre tremila soggetti con IGT e obesità

Il corso di lezioni persegue obiettivi formativi su la teoria generale del diritto pubblico, teoria dello Stato e della Costituzione, sulle fonti normative, sui diritti di

Dal tema delle fonti – e della loro incidenza all’interno degli ordinamenti degli Stati membri – al tema della tutela dei diritti fondamentali, passando per il ruolo delle

270 “Modifiche al regolamento recante norme concernenti l'autonomia didattica degli atenei, approvato con decreto del Ministro dell'università e della ricerca scientifica

FACOLTÀ DI BIOSCIENZE E TECNOLOGIE AGRO-ALIMENTARE E AMBIENTALE LUGLIO 2021 (A.A. MATRICOLA, DOMANDA DI LAUREA LUGLIO 2021 FACOLTA’ DI BIOSCIENZE E TECNOLOGIE AGRO-ALIMENTARE

(controllo ottimo) Esiste un controllo che mi fa atterrare in (controllo ottimo) Esiste un controllo che mi fa atterrare in modo soffice nel minor tempo

Dimostrare che un numero di Carmichael ha almeno tre fattori primi (Sugg... Cercare di rompere questo sistema e di decifrare e leggere