Progettazione e realizzazione di un sistema di advanced analytics e reportistica utilizzando i dati di una telco in un contesto commerciale.

(1)

UNIVERSITÀ DI PISA

Dipartimento di Informatica

Corso di Laurea Magistrale in Informatica per l’economia e per l’azienda

(Business Informatics)

TESI DI LAUREA

Progettazione e sviluppo di un sistema di advanced

analytics e reportistica utilizzando i dati di una telco in un

contesto commerciale

Relatori: Candidato:

Prof. Roberto Trasarti Tommaso Furlan

Dott. Elisa Turricchia

Correlatore:

Prof. Antonio Frangioni

(2)

(3)

L'intero progetto, denominato Filone dei Telco Shop, si è sviluppato lungo tre diversi flussi d'esecuzione con lo scopo di costruire una piattaforma di advanced analytics molto sofisticata per avere una visione passata - presente - futura di un contesto commerciale come quello di grandi shop sul territorio italiano.

Il flusso principale corrisponderà all’analisi sui KPI prescelti per ogni shop (KPI Analysis), ed un’analisi sul bacino d’utenza per ognuno di essi il quale si dividerà nei restanti due flussi con rispettivamente un punto di vista sulla situazione presente (Carto experimentation) e sulla situazione potenziale futura (Cluster netowork analysis).

Grande attenzione è stata data al rispetto delle norme sulla privacy e dell'anonimizzazione dei dati, essendo quelli di una telco altamente sensibili e per cui necessario utilizzare le migliori tecniche per salvaguardarli.

(4)

(5)

Introduzione...1

1 Concetti fondamentali……….………..………...5

1.1 Data warehousing………..………6

1.1.1 Modello multidimensionale………..…6

1.1.1.1 Elementi di un modello multidimensionale…………...…….6

1.1.1.2 Operazioni nel modello multidimensionale………...…….9

1.1.2 OLTP vs OLAP………...…10

1.1.3 Data Warehouse……….11

1.1.3.1 Caratteristiche di un DWH……….…11

1.1.3.2 Componenti di un DWH……….….12

1.1.3.3 Data Mart………...……….13

1.1.3.4 Ottimizzazione di un DWH………...……….…14

1.1.4 ETL………..………..………..15

1.2 Data mining for big data……….………16

1.2.1 Big data……….16

1.2.1.1 Map reduce……….………...……….17

1.2.1.2 Cloud computing & File system distribuiti………..17

1.2.2 Data mining………...………..18

1.2.2.1 KDD……….18

1.2.2.2 Algoritmi di data mining………...………...19

1.2.3 Clustering……….20

1.2.3.1 Algoritmi di clusterizzazione………...………...20

1.2.3.2 Misure di cluster validity………...……….24

1.2.4 Location intelligence………25

1.2.4.1 Sistemi GIS………...………25

1.2.4.2 Spatial data warehouse………...………25

(6)

2.1.1 Data monetization diretta/indiretta...………..……….28

2.1.2 Le fasi di sviluppo della monetization data……….30

2.1.3 Identificazione valore dati………..………33

2.1.4 Business model per la data monetization………..……….33

2.2 Data monetization for telco……….………35

2.2.1 Influssi monetizzazione interna/esterna………36

2.2.1.1 Interna……….37

2.2.1.2 Esterna……….………37

2.2.2 Risultati……….38

3 Telco Shop……….41

3.1 Iconsulting………41

3.2 Cliente telco………42

3.3 Descrizione progetto………...46

3.4 Stack tecnologico………...49

3.4.1 Oracle……….49

3.4.2 Indyco……….50

3.4.3 QGIS……….50

3.4.4 R……….50

3.4.5 Tableau……….51

3.4.6 Carto………51

3.4.7 Excel………52

3.5 Progettazione modello multidimensionale………53

3.5.1 Telco Shop (fase 2)………...53

3.5.1.1 Data mart principale………..53

3.5.1.2 Data mart co-visite………..57

3.5.2 KPI analysis (fase 4)………..58

3.5.3 Carto experimentation (fase 4)………62

3.5.4 Cluster network analysis (fase 4)………63

(7)

4.1.1 Elementi del loop delle procedure……….67

4.1.2 Partitioning……….70

4.2 Individuazione celle copertura………..71

4.3 Presenze………..……….75

4.4 Tempo permanenza………..78

4.5 Provenienza……….…80

4.6 Loyalty………...….82

4.7 Km percorsi………..…..84

4.8 Co-visite………....85

5 Network cluster mining………..89

5.1 Network clustering……….90

5.1.1 Il concetto di partizionamento………....90

5.1.2 Costruzione rete……….90

5.1.3 Modularity optimization approach………...92

5.1.4 Greedy agglomerative approach……….93

5.2 Telco network clustering………94

5.2.1 Tipologie di segmentazione clientela………..95

5.2.2 Sviluppo………96

5.2.2.1 Costruzione nodi e archi della rete (step 1)………...97

5.2.2.2 Algoritmo di clusterizzazione (step 2)………98

5.2.2.3 Output (step 3)………100

6 Reportistica………103

6.1 KPI analysis………103

6.1.1 Clienti italiani……….105

6.1.2 Clienti stranieri……….112

6.1.3 Rilasci………..115

6.2 Carto experimentation……….…116

6.2.1 Principali utilizzi CARTO………...….116

6.2.2 Bacino clientela………119

(8)

6.3 Network clustering analysis………..129

6.3.1 Riepilogo segmentazione………..129

6.3.2 Flussi utenti……….130

6.3.3 Risultati network analysis……….130

6.3.3.1 Traffico voce (CS)………...131

6.3.3.2 Traffico dati (PS)……….135

6.3.4 Rilasci………..144

7 Privacy & anonimizzazione……….145

7.1 Analisi giuridica………..145

7.2 Tecniche di anonimizzazione nelle telco………..146

7.2.1 Randomizzazione………...147

7.2.1.1 Aggiunta rumore statistico………....148

7.2.1.2 Permutazione………..149

7.2.2 Generalizzazione……….149

7.2.2.1 Aggregazione & K-anonimato………..150

7.2.2.2 L-diversità & T-vicinanza………..151

7.3 Gestione anonimizzatine Telco Shop……….153

7.3.1 Primo approccio………..154

7.3.2 Secondo approccio……….156

Conclusione e sviluppi futuri………....159

(9)

Introduzione

Dalla naturale competitività dell'attuale mercato nasce l’esigenza di utilizzare una generazione di tecniche e strumenti capaci di assistere gli utenti in modo intelligente ed automatico nell'analizzare queste "montagne" di dati allo scopo di trovare conoscenza utile.

Si pone quindi la necessità di creare un sistema di supporto alle decisioni in grado di fornire in tempi molto brevi informazioni strategiche all’utente finale in un formato di facile consultazione attraverso dashboard interattive e report.

A fronte di questa situazione, mi sono posto come obiettivo quello di creare in primis una sorta di metodologia per le procedure da seguire, dalla prima fase di raccolta dati e identificazione sorgenti, fino alla fase finale di reportistica. Per procedure si intenderà la precisa definizione di un modus operandi sia a livello di step da seguire e sia a livello di quali e come utilizzare i vari strumenti/tecnologie a nostra disposizione. Questo template avrà lo scopo di poter essere utilizzato, con le dovute modifiche fatte caso per caso, per una moltitudine di casi di business e permettere di rispondere con la massima reattività alle necessità dei vari clienti.

In questa tesi verrà descritto un progetto di advanced analytics utilizzando i dati dei clienti di una telco leader del settore delle telecomunicazioni con l'obiettivo di sfruttarli in un contesto commerciale come quello di alcuni grandi shop italiani.

Questo progetto, denominato filone dei Telco Shop, si è sviluppato lungo tre diversi flussi d’esecuzione. Quello principale (KPI1_{analysis) permetterà di evidenziare nel dettaglio il}

comportamento della clientela degli shop in base ad esempio al tempo di permanenza presso la struttura o circoscrivere la distanza di provenienza. L’importanza di questo flusso sarà dettata anche dalla necessità di effettuare con cadenza mensile un rilascio di un report che possa essere di grande supporto a chi ne prende visione, e quindi precisione, tempestività e innovazione assumeranno un ruolo fondamentale. Gli altri due flussi del filone tratteranno una stessa tematica ma con tecniche e punti di vista differenti, nello specifico si utilizzeranno per analisi sul bacino d’utenza di ognuno degli shop considerati. I due punti di vista saranno dettati dalle necessità di avere una visione presente e futura della situazione del parco clienti attuali e potenziali. Nel primo caso, verrà utilizzato un nuovo strumento per la location intelligence (CARTO) nell’ambito di una sperimentazione a cui ho preso parte all’interno di un team come tester. Questo strumento permetterà di avere una visione molto precisa di come si muovono i clienti residenti in una definita area (distanza, tempo percorrenza, etc) analizzando le zone di maggiore affluenza e il comportamento degli stessi nei confronti anche di competitors diretti/indiretti. Nel secondo caso invece verrà fatta una network cluster analysis sulla base di comportamenti comuni di clienti individuati attraverso il proprio traffico voce/dati fatto con il device durante i loro movimenti da una zona ad un’altra. Questo permetterà di individuare quali zone potrebbero avere delle potenzialità

(10)

per una eventuale futuro nuovo progetto di business, ma anche avere una panoramica ulteriore sulla situazione presente.

Un aspetto molto importante trattato lungo l’intero progetto e nella stesura di questa tesi, è stato quello della privacy e dell’anonimizzazione dei dati, poiché lavorando con i dati di una telco e quindi dati sensibili, sarà necessario salvaguardarli con le migliori e sicure tecniche.

Di seguito vengono presentati i capitoli che illustreranno l'intero lavoro in ogni sua fase, con l'ausilio anche di concetti teorici fondamentali.

• Capitolo 1 (Concetti fondamentali): in questo primo capitolo ci sarà una carrellata di tutti i concetti fondamentali legati alla business intelligence ed analizzati nello specifico. Si partirà con le peculiarità dei data warehouse e del modello multidimensionale, procedendo con le caratteristiche dei sistemi distribuiti e gestione dei big data, la clusterizzazione e le tecniche di data mining, concludendo con la location intelligence parte molto importante di questa tesi.

• Capitolo 2 (Data Monetization): nel contesto presente, il tema della data monetization è un topic molto importante vista la massiccia crescita del volume, varietà e velocità dei dati. Risulterà quindi fondamentale creare una strategia vincente per sfruttare la potenzialità di quelli in possesso o acquisibili, ed infatti nella prima parte del capitolo verrà fatta una veloce panoramica sulle principali metodologie da adottare, mentre nella seconda ci sarà una maggiore focalizzazione sul concetto applicato al contesto di una telco.

• Capitolo 3 (Telco Shop): si tratterà dell’introduzione vera e propria al progetto a cui ho partecipato, analizzando tutte le fasi di cui sarà composto e che saranno sviluppate nei capitoli seguenti. In esso troveremo inoltre i DFM (Dimension Fact Model) di ognuno dei tre progetti del filone dei Telco Shop con relative dimensioni, misure, attributi, etc.

• Capitolo 4 (Definizione e sviluppo dei KPI per l’Advanced Analytics): in questo capitolo si tratterrà della definizione dei KPI fondamentali per la creazione dei cruscotti finali per il supporto alle decisioni. L'obiettivo sarà quello di identificare la maggior parte degli indicatori che possano dare la più ampia visione possibile del contesto commerciale in cui si sta agendo. I KPI che verranno illustrati saranno con multi-granularità e distinti in base a clientela italiana e/o straniera.

• Capitolo 5 (Network Cluster Mining): verrà analizzata la mobilità della clientela della telco, suddividendola in vari cluster in base a determinate caratteristiche comuni negli spostamenti. I dati utilizzati saranno quelli del traffico voce (CS) e dati (PS) durante gli spostamenti da un comune ad un altro, il cui utilizzo per la clusterizzazione avrà lo scopo di segmentare la clientela per supporto alle decisioni per iniziative commerciali in ambito presente e futuro.

(11)

• Capitolo 6 (Reportistica interattiva): approfondimento degli strumenti utilizzati per la realizzazione della reportistica interattiva come supporto per le decisioni. Il capitolo verrà suddiviso nelle tre parti corrispondenti alle tre tipologie di analisi effettuate, dove avremo la KPI analysis, la sperimentazione di CARTO, ed infine la network clustering analysis.

• Capitolo 7 (Privacy & Anonimizzazione): capitolo che illustra la delicatissima questione sulla salvaguardia della privacy e anonimizzazione dei dati. Verranno illustrate le principali e più efficaci tecniche attuali, sottolineandone i vantaggi e svantaggi di ognuna per comprendere quale possa essere la più adatta per lo sviluppo del progetto. Il capitolo si concluderà con la spiegazione di quali tecniche sono state utilizzate e le motivazioni delle scelte, analizzando eventuali problematiche o lavoro di adeguamento per allinearsi con le norme correnti.

Il lavoro che ha ispirato questa tesi è stato svolto presso l'azienda bolognese ICONSULTING S.p.A. uno dei maggiori System Integrator indipendenti italiani specializzata in progetti di Data Warehouse, Big Data, Location Intelligence, Business Intelligence e Corporate Performance Management.

(12)

(13)

Capitolo 1

Concetti fondamentali

In questo primo capitolo verranno affrontati i principali concetti inerenti alla Business Intelligence, cercando di esporne le caratteristiche più importanti con l’obiettivo di avere poi in mano tutti gli strumenti per comprendere al meglio ciò che verrà fatta lungo tutta la tesi sia a livello teorico che pratico. Le tematiche saranno suddivise in tre macro categorie:

• Data Warehousing (Modello multidimensionale, DDS2_{, ETL}3₎

• Data Mining for Big Data (Big data, Data mining, Clustering, Location intelligence) • Reporting

Con il termine Business Intelligence ci si riferisce ad una serie di processi aziendali che ruotano intorno ai dati, con operazioni di raccolta – elaborazione – analisi, con lo scopo infine di produrre informazioni strategiche e quindi utili al supporto decisionale. Chiaramente con il termine BI si intendono anche le tecnologie utilizzate per realizzare questi processi, ma soprattutto anche i risultati prodotti e quindi le informazioni ottenute dall’elaborazione dei dati. Proprio i dati, come già detto in precedenza, sono il core delle attività ed essi tipicamente ricevuti allo stato ‘grezzo’, vengono poi elaborati per la costruzione dell’informazione ed il conseguente utilizzo in azienda.

Di seguito (figura 1) gli elementi che compongo un sistema di BI [fonte 1]

(Fig. – 1)

2_{Decision Support System} 3_{Extract – Transform - Load}

(14)

1.1 Data Warehousing

Il Data Warehousing è la collezione di metodi, tecnologie e strumenti di ausilio al knowledge worker (dirigente, amministratore, gestore, analista) per condurre analisi dei dati finalizzate all’attuazione di processi decisionali e al miglioramento del patrimonio informativo.

In questo sotto-paragrafo avremo una rapida panoramica sugli elementi fondamentali di un modello multidimensionale (misure, dimensioni, gerarchie, etc.) e sulle differenze fra gli strumenti OLAP (On-Line Analytical Processing) e OLTP (On-(On-Line Transaction Processing) con focalizzazione sulle differenti caratteristiche del modello relazionale e quello multidimensionale. Infine ci sarà un approfondimento sulle caratteristiche e architettura di un DWH e sui processi di ETL.

1.1.1 Modello Multidimensionale

La modellazione multidimensionale è la tecnica di logic design usato per progettare un sistema di supporto alle decisioni (DSS). Infatti, attraverso questo metodo [4] sarà possibile: definire lo scopo

del data warehouse (o data mart) e produrre il modello multidimensionale dei dati.

1.1.1.1 Elementi di un modello multidimensionale

I processi decisionali aziendali riguardano fatti (es: vendite, spedizioni, acquisti) e di ognuno interessano in particolare i valori di alcune proprietà/misure (es: prezzo, quantità, % di sconto), i quali possono essere interpretati in relazione ad alcune proprietà/dimensioni (es: prodotto venduto, venditore, data/luogo di vendita) [6]

Dimensioni

Possiamo definire il termine dimensione come "prospettiva di analisi dei dati di un business", attraverso le quali sarà possibile visualizzare e studiare stessi dati ma con punti di vista differenti. Sempre in riferimento al termine dimensione, ci si riferirà al fatto che organizzando i dati in base a differenti prospettive, questi potranno essere rappresentati mediante un cubo avente tante dimensioni quante sono le prospettive d'analisi stabilite. Nello specifico, consideriamo un cubo organizzato lungo tre dimensioni:

• Dimensione Prodotto • Dimensione Negozio • Dimensione Tempo

In questo caso quindi avremo che ogni cella del cubo rappresenterà la quantità venduta di un determinato prodotto, in un determinato negozio, in una determinata data (in figura 2 e 3). Una

(15)

dimensione quindi non è altro che una serie di valori unici, i quali sono la base per l'organizzazione dei dati analitici.

(Fig. – 2 e 3)

Attributi

Un attributo è un raggruppamento logico di alcuni elementi di una stessa dimensione. Quindi sono classi di elementi che consentono all'utente di selezionare i dati per specifiche caratteristiche. Ad esempio (figura 4) avremo per ogni dimensione una serie di attributi.

(Fig. – 4)

Relazioni

Nel modello multidimensionale, le relazioni vengono rappresentate mediante linee aventi come estremo una forbice con senso rivolto verso l'attributo che partecipa alla relazione con cardinalità multipla. Le possibili relazioni sono:

• Uno-a-Uno: essa corrisponde ad un elemento padre con un elemento figlio. • Uno-a-Molti: un elemento padre può corrispondere ad uno o più elemento figli. • Molti-a-Molti: un elemento figlio può avere uno o più genitori, e viceversa.

(16)

Gerarchie

In presenza di attributi dimensionali, un aspetto interessante per modellare i dati ai fini analitici, sono le relazioni gerarchiche che intercorrono fra i propri attributi. Avremo quindi una relazione Molti-a-Uno tra coppie di attributi dimensionali. Utilizzando un esempio pratico, se consideriamo la dimensione Tempo, avremo che l'attributo Mese sarà in gerarchia con Giorno, Trimestre e Anno (Giorno  Mese  Trimestre  Anno). L'attributo Anno sarà composto da più Trimestri che a sua volta sarà composto da più Mesi, e così via. Viceversa un Mese corrisponderà ad un solo Trimestre ed esso apparterrà ad un solo Anno. Ogni arco della gerarchia modellerà una dipendenza funzionale tra due attributi. Ci possono essere dei casi particolari, come ad esempio la granularità Settimana, la quale solitamente può trovarsi fra due mensilità e quindi non inseribile nella gerarchia in presenza di Mese, mentre considerando la gerarchia Giorno  Settimana  Anno, sarà accettata poiché un anno è composto da 52 settimane (figura 5). Possiamo quindi concludere che l'analisi delle vendite di un prodotto in un arco temporale annuo, ci permetterà di analizzare anche più dettagliatamente passando alla granularità Trimestre e via discorrendo.

Le gerarchie possono essere dei seguenti tipi:

• Bilanciate (balanced): quando si ha un numero predefinito di livelli e gli attributi sono TUTTI definiti. Per esempio la gerarchia Month --> Quarter --> Year è bilanciata.

• Irregolare (ragged): quando abbiamo che i valori di uno o più attributi possono essere indefiniti. Ad esempio una dimensione geografica con attributi Country, State e City sarà bilanciata per gli USA, mentre in Italia sarà irregolare non esistendo il concetto di state. • Ricorsiva (recursive): sarà nel caso in cui i livelli della gerarchia saranno variabili. Ad esempio,

una dimensione Agent ci farà avere un agente di commercio, il quale potrà essere supervisor di altri agenti, ma lui stesso avrà un supervisor.

(Fig. – 5)

Fatti e Misure

I fatti sono gli oggetti che influenzano il processo decisionale, tipicamente rappresentano la performance o i fattori chiave di una impresa. Nel modello multidimensionale, un fatto può essere pensato come un cubo avente tanti spigoli quante saranno le dimensioni ad esso collegate.

(17)

Inoltre un fatto può essere caratterizzato da una o più misure, ovvero una proprietà numerica di un fatto che ne descrive un aspetto quantitativo di interesse per l'analisi. Avremo fondamentalmente due tipi di misure:

• Misure base: costituiti da informazioni proveniente da diversi sistemi e le fonti sono le misure dell'azienda. Questi possono avere granularità diversa, dimensionalità diversa e sono fisicamente memorizzati all'interno di un database. Un esempio pratico può essere il valore del quantitativo venduto di un prodotto.

• Misure derivati: sono costituiti partendo dalle misure del punto precedente. Ad esempio potremo ricavare il prezzo medio di vendita, ricavandolo dal rapporto fra valore venduto e quantità venduta. Queste possono essere memorizzate direttamente nel database o calcolate semplicemente al runtime.

In generale, le aggregazioni con la funzione SUM sono molto usate nelle analisi, ma non sempre tutte le dimensioni sono aggregabili con questa funzione, infatti potremo avere i seguenti tipi di misure (base):

• Additive: tutte le dimensioni sono aggregabili con la funzione SUM.

• Semi-Additive: solo alcune dimensioni sono aggregabili con la funzione SUM.

• Semi-Additive rispetto ad una dimensione: una misura può essere ottenuta con l'aggregazione di solo quella dimensione.

• Non-Additive: misure che non possono essere aggregate con la funzione SUM da nessuna dimensione.

Nelle figure utilizzate fino ad ora, sono presenti sia il fatto (Sales) che le sue misure (Quantity, Price, Revenue).

1.1.1.2 Operazioni nel modello Multidimensionale

Per navigare il cubo multidimensionale esistono differenti operazioni che permettono di organizzare i dati in un cubo con molte dimensioni, in quanto diverse prospettive d'analisi. Queste operazioni sono (vedi anche figura 6):

• Pivoting: permette di modificare rapidamente la visualizzazione dei dati girando gli assi del cubo. Questo permetterà per l'appunto di cambiare il punto di vista da cui si analizza i dati del cubo.

• Slice & Dice: seleziona e proietta i dati del cubo. Nello specifico si estrarranno sotto-cubi filtrando su una dimensione (Slice) oppure su due o più dimensioni (Dice).

• Roll-Up & Drill-Down: Queste operazioni consentono di spostarsi all'interno di una gerarchia, scegliendo il livello di aggregazione secondo il quale l'utente desidera analizzare i dati. Nello specifico si salirà di un livello gerarchico con il roll-up, viceversa si userà il drill-down.

(18)

(Fig. – 6)

1.1.2 OLTP vs OLAP

Il DSS, come detto in precedenza, si appoggia su dati di uno o più database, spesso organizzati in strutture diverse con dati non omogenei. L'obiettivo finale sarà quello di filtrare e trasformare i dati, per renderli poi fonti di supporto alle decisioni nell'ambito della Business Intelligence [11].

Online Transaction Processing (OLTP)

A livello di database, questi sistemi si basano su query multi-access veloci ed efficaci. Le principali operazioni svolte sono INSERT, DELETE e UPDATE in quanto modificano direttamente i dati. Quindi in questi sistemi i dati vengono spesso aggiornati, richiedendo un efficiente supporto alle operazioni di ri-scrittura. Caratteristica importante di questi sistemi sarà la normalizzazione, la quale fornirà un modo più veloce ed efficace per effettuare scrittura nel database.

Online Analytical Processing (OLAP)

insieme di tecniche software per l'analisi interattiva e veloce di queste grandi moli di dati, con la possibilità di farlo da diversi punti di vista. Questi sistemi saranno molto utili per ottenere informazioni di sintesi con lo scopo di supportare e migliorare i processi decisionali aziendale. Esempi di strumenti OLAP sono i Data Warehouse, i Cubi Multidimensionali, etc...

(19)

(Fig. – 7)

In base alla memorizzazione dei dati, si avranno diverse architetture OLAP, ciascuna con i propri pro e contro:

• Relational OLAP (ROLAP): i dati vengono memorizzati in un database relazionale come supporto al motore OLAP. Le analisi multidimensionali vengono tradotte in query, restituendo risultati in forma multidimensionale.

• Multidimensional OLAP (MOLAP): si ha sia il database che il motore multidimensionale. Ci saranno difficoltà per operazioni di Drill-Down.

• Hybryd OLAP (HOLAP): unisce i vantaggi dei due sistemi precedenti. In particolare pre-aggrega i dati in sistemi multidimensionali per un’analisi efficiente e veloce, mentre vengono ricercate in un db relazionale in caso di Drill-Down.

• Desktop OLAP (DOLAP): i dati vengono caricati in un sistema client e vengono calcolati dal motore in locale.

1.1.3 Data Warehouse

Il Data Warehouse ha lo scopo di fornire un unico punto di accesso per tutti i dati dell’azienda, i quali attraverso procedure di ETL (Extract – Transform – Load) verranno integrati, ripuliti, trasformati e resi consistenti. Il DWH sarà quindi il punto di partenza per qualunque attività analitica, garantendo una profondità storica completa dei dati, in quanto in esso viene persistito anche lo stato passato delle informazioni fornendo quindi l’evoluzione temporale, e permettendo così analisi a livello temporale. Nello specifico, è possibile che un DWH sia suddiviso in diversi Data Mart, ognuno dei quali sarà specifico ad esempio di un singolo processo fra quelli presenti

all’interno dell’azienda (ordini, vendite, clienti, marketing, etc.) [2].

1.1.3.1 Caratteristiche di un DWH

Come visto poc’anzi, una caratteristica fondamentale dei sistemi OLAP è la progettazione del database. Infatti un database analitico, è pensato per gestire grandi volumi di dati (tipicamente solo

(20)

in lettura), al fine di produrre le informazioni necessarie al supporto alle decisioni. Possiamo quindi identificare le principali caratteristiche:

• Accessibilità: il sistema deve essere accessibile ad utenti con background limitato di informatica e strutture dati.

• Integrazione: i dati devono essere integrati con il modello di business dell’azienda.

• Flessibilità: ci deve essere flessibilità per trarre massimo vantaggio dal patrimonio informativo esistente.

• Sintesi: c’è la necessità di effettuare analisi mirate ed efficaci.

• Rappresentazione multidimensionale: attraverso esso, verrà offerta all’utente una visione intuitiva ed efficacemente manipolabile delle informazioni.

• Correttezza e Completezza: i dati dovranno essere corretti e completi per giungere agli obiettivi finali.

I DWH sono quindi orientati ai soggetti in quanto il fulcro sarà quello di focalizzarsi sui soggetti collegati all’azienda (clienti, manager, fornitori, competitors).

1.1.3.2 Componenti di un DWH

Dalla figura 8, possiamo identificare le 4 componenti principali di un DWH [12], ognuna con la propria funzionalità e ruolo.

(Fig. – 8)

Sorgenti

Sono parti esterne rispetto a tutto il sistema del DWH, poiché si avrà poco o alcun controllo su contenuto e forma dei dati contenuti in esse. Tipicamente queste sorgenti mantengono pochi dati storici, sarà quindi necessario disporre di un buon data warehouse per sopperire a questo problema, come già descritto in precedenza.

(21)

Staging Area

Questa parte sarà suddivisa in due: un’area di memorizzazione dei dati e un insieme di procedure comunemente dette ETL. I dati operazionali verranno trasformati e consegnati al data warehouse in una forma consona, per permettere poi di produrre informazioni utili alle decisioni.

Area Dati

Questa sarà l’effettiva area dove i dati saranno organizzati, conservati e resi disponibili per le interrogazioni dirette dell’utente business e/o altre applicazioni analitiche. In base alla memorizzazione dei dati, si avranno diverse architetture OLAP (rolap, molap, holap e dolap).

Clienti

Ne fanno parte l’insieme degli strumenti di front-end che gli utenti di business hanno a loro disposizione per consultare l’area di presentazione. Possono essere semplici strumenti per eseguire query ad hoc oppure strumenti che eseguono analisi più complesse per giungere alla fase finale (reportistica).

1.1.3.3 Data Mart

Spesso il Data Warehouse viene suddiviso in sottoinsiemi detti Data Mart. Nello specifico un Data Mart sarà "un database analitico progettato per incontrarsi con le esigenze specifiche di una impresa", come ad esempio marketing, vendite, finanza, etc... Essendo un sottoinsieme di un Data Warehouse, seguirà le stesse regole di progettazione con dati aggregati a vari livelli di dettaglio. L'implementazione può essere di due tipi:

• Top-Down: costruzione del DWH, e conseguente aggregazione ed esportazione nei vari Data Mart.

• Bottom-Up: concentrandosi su aree specifiche del business si costruiranno i vari Data Mart per poi giungere alla costruzione del DWH. In questo modo si avrà un approccio scalabile. Di seguito (figure 9 e 10) avremo due esempi di Data Mart per uno stesso Warehouse.

(22)

1.1.3.4 Ottimizzazione di un Data Warehouse

Per massimizzare le performance di un DWH sarà necessario perseguire tre obiettivi: • Evitare aggregazione al runtime.

• Coinvolgere il minor numero di tabelle nelle join . • Dimensioni fisiche/logiche delle tabelle non elevate.

Pre-aggregazione dei dati

Tipicamente i dati caricati nel Data Warehouse sono al minimo livello di dettaglio, quindi con una query che richiede l'aggregazione si rischierebbe di incorrere in rallentamenti al runtime vista la grossa mole di records. Per evitare questa situazione, i dati saranno aggregati in fase di caricamento secondo le strategie di business precedentemente definite. Avremo quindi la creazione di alcune fact tables dette Summary Table contenenti dati a vari livelli di aggregazione. Ovviamente il lato negativo sarà l'enorme spazio in memoria occupato vista la ridondanza. La soluzione ottimale sarà quindi un compromesso fra le performance delle query, lo spazio occupato e il tempo di pre-aggregazione.

Indicizzazione e chiavi numeriche

L'indicizzazione avrà lo scopo di velocizzare le operazioni di Join, utilizzando chiavi numeriche anziché quelle testuali. Attraverso una corretta indicizzazione è possibile aumentare drasticamente le prestazioni in lettura di una query, comportando però alcuni rallentamenti nel processo di aggiornamento dei dati, a causa della manutenzione degli indici.

Partizionamento

Con questa tecnica si punterà a ridurre le dimensioni di alcune tabelle troppo grandi, suddividendole secondo una determinata regola. L’esempio principale può essere quello di una tabella annua inerente alle vendite di un prodotto, questa tabella potremo dividerla in altre dodici tabelle, ognuna relativa ad un mese. I principali vantaggi si riscontreranno soprattutto dal punto di vista del tempo di risposta delle query e dalla maggior velocità anche per operazioni di backup e recovery. Nasceranno invece problematiche con le Join, visto il maggior tempo per accedere ai dati provenienti da sotto-tabelle.

(23)

1.1.4 ETL

Il ruolo degli strumenti di Extraction – Transformation – Loading è quello di alimentare una sorgente dati singola, dettagliata, esauriente e di alta qualità che possa a sua volta alimentare il Data Warehouse.

Estrazione

Sono le operazioni eseguite durante l’inizializzazione del livello di riconciliazione (materializzazione dei dati operazionali ottenuti a valle del processo di integrazione e ripulitura dei dati sorgente) , e ripetute periodicamente in base all’intervallo di aggiornamento stabilito. Esistono due tipologie di estrazione:

• Statica: vengono trattati tutti i dati presenti nelle sorgenti operazionali. Sarà l’estrazione fatta in fase di inizializzazione, ma può essere utilizzata ogni qual volta la quantità di dati non sia eccessiva.

• Incrementale: con questo approccio vengono presi in considerazione solo i dati prodotti o modificati dalle sorgenti nell’intervallo di tempo intercorso dall’ultimo aggiornamento del data warehouse.

Pulizia

Molto spesso la fase di pulizia viene unita alla fase di trasformazione. La funzionalità principale sarà quella di individuare e correggere situazioni che potranno risultare critiche o condurre ad errori.

• Dati duplicati • Dati mancanti

• Dati in campi non consoni (es: professione nel campo età) • Valori errati (es: 30/02/2017)

• Valori inconsistenti (es: “Piazza Candiani” vs “Piazzale Candiani” o “P.za Candiani”)

Trasformazione

Durante questa fase vengono effettuate le trasformazioni necessarie a conformare i dati delle sorgenti alla struttura del data warehouse.

• Normalizzazione dati

• Matching (stabilisce corrispondenze fra campi equivalenti in sorgenti diverse) • Selezione (riduce il numero di campi e record rispetto alle sorgenti)

(24)

Caricamento

Al termine delle precedenti procedure, si esegue il caricamento vero e proprio dei dati sul DWH, il quale potrà avvenire in due modalità:

• Refresh: i dati vengono ogni volta completamente ri-scritti nella warehouse.

• Update: vengono aggiunti al DWH solo i cambiamenti verificati nella sorgente operazionale. Tecnica associata tipicamente all’estrazione incrementale.

1.2 Data Mining for Big Data

Definibile anche come Big Data Mining, è la capacità di estrarre informazioni utili da grandi set di dati o flussi di dati utilizzando i più consoni strumenti.

Pertanto in questo sotto-paragrafo verranno illustrati inizialmente i concetti generici di Big Data e di Data Mining che nel corso della tesi verranno affrontati in maniera un po' più indiretta ma illustrati ugualmente per completezza, proseguendo poi con le generiche tecniche di

Clusterizzazione e Location Intelligence affrontate invece in maniera diretta.

1.2.1 Big Data

Siamo ormai giunti in un'era in cui il progresso tecnologico ha generato un vertiginoso aumento delle informazioni generate, la cui crescita è esponenzialmente e continuamente in aumento (figura

11). Prendendo come esempio il più banale possibile, basta pensare a Facebook [14], dove i

contenuti degli utenti (post, foto, video, etc) registra numeri intorno ai 30 miliardi di contenuti al mese.

(Fig. – 11)

I Big Data possono presentarsi con formati semi-strutturati o addirittura destrutturati, e possono essere prodotti con estrema velocità. Potremo riassumere le principali caratteristiche secondo le sei V [15]:

• Volume: dimensioni destinate a crescere in continuazione, solitamente si parla di Terabyte, Petabyte ma addirittura (seppur raramente) di Zettabyte.

(25)

• Velocità: c'è una altissima velocità con cui dati vengono generati e mossi.

• Veridicità: questi infatti possono non contenere dati affidabili da estrapolare o comunque la cui correttezza sia certa (es: dati da Facebook o Twitter).

• Validità: il significato dei dati dipende dall'uso che ne verrà fatto.

• Volatilità: i dati hanno spesso una scadenza temporale dopo la quale non saranno più rilevanti al fine analitico.

Dal punto di vista economica, risulta quindi sempre più importante la necessità da parte delle aziende di analizzare questa enorme mole di dati, i quali però rischiano di non essere immagazzinati a causa della mancanza degli appropriati strumenti d'analisi in grado di elaborare con tali numeriche. Per questo ci si appoggerà a particolari architetture (sistemi distribuiti) e tecniche (cloud computing & map reduce). I big data quindi rappresentano uno dei fattori evolutivi nel mondo dell’analisi dei dati e della Business Intelligence.

1.2.1.1 Map Reduce

Map Reduce è un modello di programmazione [17] che ambisce ad ottenere una valutazione parallela e distribuita di grandi basi di dati, gestendo eventuali fallimenti degli elaboratori usati. L’algoritmo conterrà, come da nome, due importanti fasi:

• Map: sarà l'elaborazione dei dati di input, i quali generalmente saranno sotto forma di input o directory, e verranno memorizzati nel file system. L'input verrà passato alla funzione mapper linea per linea, creando dei piccoli frammenti di dati.

• Reduce: questa fase è la combinazione dello step intermedio Shuffle & Sort con il Reduce. Il compito del reducer è quello di elaborare i dati che vengono dal mapper, producendo un nuovo set di output, il quale verrà memorizzato nel file system.

Nella figura 12, un esempio di applicazione dell’algoritmo per contare il numero di parole di un testo di input.

(Fig. – 12)

1.2.1.2 Cloud Computing & File System Distribuiti

Spesso le analisi sui Big Data si basano sulla possibilità di parallelizzare le operazioni. Per questo motivo avremo che molte tecnologie sfrutteranno una analisi distribuita, ossia alcuni processi (nodi) ripartiti su altre distinte unità computazionali, eventualmente eterogenee e lontane, ognuna con la

(26)

propria quantità di risorse disponibili. Tale modello è una possibile applicazione del concetto di Cloud Computing, ovvero un insieme di risorse computazionali interconnesse operanti come se fossero un singolo sistema. Per cui i sistemi distribuiti (ad esempio HDFS - Hadoop Distributed File System) conterranno delle unità di blocco sulla quantità di dati da leggere/scrivere, evitando così di mantenere al proprio interno un'intera base di dati, la quale risulterà irrealizzabile come cosa. Per questo, file più grandi del valore di blocco saranno suddivisi in più blocchi (figura 13). Questa architettura unita al cloud computing garantisce in primis la possibilità per ogni macchina di mantenere file di dimensioni maggiori del proprio blocco, ma anche una resistenza ai guasti aggiuntiva, in quanto spesso i suoi componenti sono omogenei, ed in caso di fallimento una loro replicazione permetterà di evitare interruzioni dei servizi erogati seppur con una latenza dovuta alla necessità di copiare via rete il blocco di risorse su una macchina funzionante.

(Fig. – 13)

1.2.2 Data Mining

Il Data Mining è una delle principali componenti del processo di Knowledge Discovery & Data Mining, che si pone l’obiettivo di ricavare informazione non ancora note dai dati in possesso. In ambito economico, il DM viene impiegato in qualsiasi ambito inerente ad esso per la risoluzione di questioni legate al business (Fraud Detection, Customer Segmentation, Customer Churn Analysis,

Market Basket Analysis, Opinion Analysis, etc).

1.2.2.1 KDD

Questo processo può essere strutturato in quattro fasi (figura 14) attraverso le quali partendo da dati grezzi arriveremo ad ottenere conoscenza [8].

(27)

(Fig. – 14)

• Data Consolidation: fase in cui viene selezionato un insieme di attributi dall’intero database, sulla base di criteri derivanti dalla comprensione del dominio applicativo.

• Selection and Pre-Processing: è la fase di pre-elaborazione in cui rientrano le fasi di Data Preparation e del trattamento dei Missing Value. Ulteriori operazioni saranno quelle di aggregazione, discretizzazione, normalizzazione. Se i dati provenissero da un DWH, probabilmente la fase di pulizia e trasformazione dei dati sarebbe già stata fatta dall’ETL, a meno che di una specifica necessità di effettuare ulteriori operazioni durante questa fase del KDD.

• Data Mining: sarà l’effettiva fase in cui applicheremo gli algoritmi di estrazione di conoscenza.

• Interpretation & Evaluation: sarà la fase finale in cui verrà valutata l’effettiva conoscenza ricavata, stabilendo se siano stati rilevanti o no i risultati. Nel caso in cui il risultato non sia soddisfacente, sarà da rivedere una o più fasi dell’intero processo KDD.

1.2.2.2 Algoritmi di Data Mining

Potremo inoltre suddividere gli algoritmi in due categorie in base al metodo utilizzato.

• Metodi Predittivi: usa alcune variabili per predire valori sconosciuti o futuri di altre variabili. o Classificazione

o Regressione o Time Series

• Metodi Descrittivi: trova modelli che l’uomo possa interpretare per descrivere i dati. o Clustering

o Regole Associative o Sequential Pattern

(28)

1.2.3 Clustering

L’analisi dei cluster divide i dati in gruppi che sono significativi e utili, o entrambi. L’obiettivo è quindi la ricerca di gruppi di oggetti tali che quelli appartenenti ad un gruppo siano “simili” tra loro e differenti dagli oggetti degli altri gruppi (figura 15).

(Fig. – 15)

1.2.3.1 Algoritmi di clustering [30]

K-Means

Si tratta di una tecnica di partitional clustering (divisione degli oggetti in sottoinsiemi/cluster non sovrapposti, dove ognuno appartiene ad uno e un solo cluster), dove ogni cluster è assegnato ad un centroide ed ogni oggetto è assegnato al cluster con cui il centroide è più vicino. Prima dell’esecuzione dell’algoritmi, il valore K dei centroidi deve sempre essere specificato. L’insieme iniziale dei centroidi è normalmente scelto a caso, infatti i cluster prodotti variano ad ogni esecuzione, e la “prossimità” fra un punto e il centroide sarà calcolato attraverso le misure di distanza come l’Euclidea, Cosine Similarity, Correlazione, etc.

Nel primo step i punti sono assegnati ai centroidi iniziali, i quali sono tutti nel gruppo più grande di punti. Dopo che i punti sono stati assegnati ad un centroide, esso verrà quindi aggiornato. Negli step 2-3-4 due dei centroidi si muoveranno verso i due più piccoli gruppi di oggetti nella parte in basso della figura 16. L’algoritmo terminerà solamente quando non si verificheranno ulteriori cambiamenti, e quindi in questo momento i centroidi saranno stati in grado di identificare i raggruppamenti naturali dei punti.

(29)

(Fig. – 16)

Gerarchico

Le tecniche di clustering gerarchico fanno parte come già visto della seconda importante categoria di metodi di clustering. Ci troveremo di fronte a due approcci:

• Agglomerative: si inizia con i singoli oggetti come singoli cluster ed ad ogni step verranno unite le coppie più vicine.

• Divise: si inizia con un all-inclusive cluster ed ad ogni step divide un cluster fino ad ottenere solo cluster singleton (= singoli oggetti).

In questo paragrafo analizzeremo nello specifico il primo approccio.

La situazione iniziale prevede cluster formati per l’appunto da singoli elementi ed una proximity matrix per avere chiara la situazione (figura 17).

(Fig. – 17)

(30)

(Fig. – 18)

E’ necessario fondere i due cluster più vicini (c2 e c5), ed aggiornare la matrice di prossimità. Le uniche celle interessate saranno quelle che coinvolgono c2 e c5 (figura 19).

(Fig. – 19)

L’algoritmo continuerà aggiornando la proximity matrix e il dendogramma sulla base della distanza dei nuovi cluster e quelli già presenti.

Un elemento molto importante usata nell’algoritmo sarà il calcolo della distanza fra i punti/cluster. Le principali tipologie di similarità inter-cluster sono:

• Min (single link): minima distanza fra due punti. (figura 20) • Max (Complete link): massima distanza fra due punti. (figura 21)

(31)

(Fig. – 20, 21)

(Fig. – 22 )

DBScan

Il Density-based clustering localizza regioni ad alta densità che sono separate fra loro da regione a bassa densità. Il concetto di densità in questo caso rappresenterà il numero di punti all’’interno di una area di raggio EPS specificato. Avremo inoltre una distinzione dei punti in base alle loro caratteristiche:

• Core point: sono i punti la cui densità è superiore a una soglia MinPts e sono punti interni a un cluster

• Border point: hanno una densità minore di MinPts, ma nelle loro vicinanze (ossia a distanza < Eps) è presente un core point.

• Noise point: tutti gli altri punti.

Step1: classificare i punti come core, border o noise (figura 23).

(32)

Step2: collegare i core point vicini e sistemarli nello stesso cluster (figura 24).

(Fig. – 24)

Step3: associare i border point ad uno o più core point, rimuovendo i punti di rumore (figura 25).

(Fig. – 25)

1.2.3.2 Misure di Cluster Validity

Una volta effettuata la clusterizzazione sarà molto importante avere degli indicatori per valutare la bontà dell’esecuzione appena conclusa. Questa sarà fatta per evitare di avere cluster con rumore oppure confrontare i vari algoritmi/set di cluster.

Per questo verranno utilizzate alcune misure per giudicare i vari aspetti di validità dei cluster, secondo la seguente classificazione:

• Non supervisionate: misurano la bontà di un clustering senza utilizzare informazioni esterne. • Supervisionate: calcolano in che misura le label dei cluster corrispondono alle label delle

classi.

• Relative: utilizzate per comparare due diversi clustering o cluster. Possono basarsi sia su misure interne, sia su misure esterne.

(33)

1.2.4 Location Intelligence

Da una ricerca condotta dalla Pitney Bowes, azienda leader mondiale in fatto di Location Intelligence, è emerso come più dell'80% dei dati con cui lavoriamo sono formati da componenti spaziali. A livello generico avremo che questo tipo di attività, costituisce una risorsa fondamentale per aziende di telecomunicazione, di trasporto, agenzie assicurative, etc. Si può pensare al caso di studio di una azienda ferroviaria che in concomitanza con un evento analizza la provenienza dei partecipanti, per poi così in eventi futuri provare a proporre delle iniziative di marketing ad hoc. Siamo quindi giunti al punto di inserire funzionalità spaziali (es: mappe) all'interno di strumenti di supporto alle decisioni (es: Oracle), decisamente più performanti dell'utilizzo tabellare.

1.2.4.1 Sistemi GIS

Qualunque evento di business può essere associato ad un contesto geografico. Identificare ed associare tale contesto ad un determinato evento è una attività di importante rilievo che ci permette di aggiungere informazioni all'analisi. Identifichiamo tre macro aree collegati agli eventi geografici:

• Global Positioning System (GPS): sistemi per la navigazione e posizionamento di tipo satellitare con copertura globale.

• Remote Sensing: sistemi per l'acquisizione di un evento o di un oggetto legato alla superficie terrestre.

• Geographical Information System (GIS): sistemi che permettono di acquisire, archiviare, gestire, manipolare, visualizzare e analizzare dati e processi che operano con una dimensione geografica.

Utilizzeremo quindi il termine GIS per identificare quello strumento che nella sua forma più basic ci permetterà di visualizzare semplicemente una mappa, mentre nella sua forma più potente ci permetterà lo studio di fenomeni geografici ed individuazione di pattern nascosti all'interno dei dati spaziali.

1.2.4.2 Spatial Data Warehouse

Nasce quindi la necessità di utilizzare basi di dati e strumenti in grado di supportare efficientemente i normali dati quanto quelli geografici. Per questo sono stati uniti i sistemi e le funzionalità tipiche della tecnologia GIS con quelle dei sistemi multidimensionali dei classici DWH (figura 26), ottenendo così Spatial Data Warehouse. Questi avranno le seguenti peculiarità:

• Strutture dati per dati geografici.

• Algoritmi per l'interrogazione e la manipolazione di dati spaziali. • Tecniche ETL studiate appositamente per i dati spaziali.

• Spatial OLAP, dove avremo un ampliamento delle normali operazioni OLAP inserendo anche elaborazione di dati spaziali.

(34)

(Fig. – 26)

1.3 Reporting

Uno strumento che l'utente finale possiede per rappresentare le informazioni raccolte una volta terminate ad esempio le fasi ETL o KDD, sono i report. Queste applicazioni sono in grado di visualizzare graficamente le informazioni e riassumerle in tabelle e grafici, sempre nell'ottica del supporto alle decisioni. Tra le componenti che vengono mostrate dai report è opportuno introdurre il concetto di KPI (Key Performance Indicator), ovvero degli indici quantitativi che ad esempio identificano sinteticamente lo stato d'avanzamento delle scelte strategiche aziendali oppure l'evoluzione in generale del mercato (figura 27). L'obiettivo finale sarà quello di misurare i fattori critici di successo per una azienda.

(35)

Capitolo 2

Data Monetization

Nel presente capitolo andremo ad affrontare un importante topic come quello della Data Monetization (figura 28). Nel primo paragrafo ci sarà una panoramica a livello generico delle principali caratteristiche, mentre nel secondo paragrafo mi soffermerò un po’ più nello specifico sulla Data Monetization applicata al case study della Telco.

(Fig. - 28)

2.1 Data Monetization for generic cases

[23] La massiccia crescita del volume, varietà e velocità dei dati sta travolgendo una miriade di settori nell'ultimo decennio. Mentre molte aziende non hanno ancora preso totalmente coscienza delle potenzialità presenti nei propri dati, altre invece stanno sviluppando strategie per attuare una Data Monetization di successo (figura 28). Quest'ultima richiede alle aziende non solo di capire la qualità dei propri dati (paragrafo 3.1.3), ma anche di costruire una strategia (paragrafo 3.1.2) e un modello di business (paragrafo 3.1.4) appropriato per sfruttarli al meglio. Infatti l'obiettivo sarà quello di rispondere ad alcune domande fondamentali, come ad esempio:

• Come valutare la dimensione di mercato in cui inserirsi?

• Quale livello d'investimento sarà richiesto per sfruttare queste opportunità? • Chi sono i concorrenti?

• Quali clienti possono beneficiare dei nostri dati acquistandoli?

Come già detto in precedenza, le aziende devono valutare attentamente il valore dei dati aziendali, determinare il modo migliore per massimizzare il proprio potenziale e capire come piazzare efficientemente i dati sul mercato.

(36)

A supportare l'impegno delle aziende, ci sta l'ambiente in cui si stanno creando le giuste condizioni per la Data Monetization. Non solo il costo degli storage dei dati sta diminuendo, ma anche la capacità di elaborazione e analisi in tempo reale di enormi volumi di dati sta aumentando. Oggi le aziende sono in grado di utilizzare strumenti di analisi e Business Intelligence per creare

opportunità di monetizzazione sfruttando tutti i loro asset aziendali strutturati e non strutturati (figura 28). Fino a poco tempo fa le aziende richiedevano il supporto a specialisti altamente pagati, i quali utilizzavano tecnologie costose per analizzare grandi moli di dati, con lo scopo ad esempio di determinare nuovi modelli di merchandising o fidelity dei clienti. Le tecnologie e le tecniche di acquisizione ed analisi dei dati sono ora accessibili a qualsiasi azienda (con un buon livello di specializzazione in materia) che intenda commercializzare i propri dati creando valore. Le società di servizi finanziari sono un esempio relativamente buono di un'industria incentrata sulla

generazione di entrate sfruttando i dati. Gli emittenti di carte di credito e le banche utilizzano i dati sulle transazioni dei clienti per migliorare il targeting delle offerte di cross-sell. I partner stanno promuovendo sempre più programmi di ricompensa basati su mercati che sfruttano i dati di una banca e forniscono sconti ai clienti allo stesso tempo.

(Fig. - 28)

La Data Monetization quindi è il processo attraverso il quale (grandi o piccoli) produttori, aggregatori o consumatori di dati, scambiano o vendono essi. La monetizzazione permette di sfruttare i dati generati da attività aziendali, ma non solo, c'è un forte collegamento al termine Internet of things. Quest'ultimo infatti sta generando un enorme mole di dati sulla posizione dei clienti (geolocalizzazione) ma anche dati provenienti dai sensori degli oggetti (domotica), da dispositivi mobile, etc...

2.1.1 Data Monetization diretta/indiretta

[24] La monetizzazione indiretta si riferisce ad asset di dati che possono essere utilizzati per ottimizzare i processi aziendali. Ad esempio, è possibile eseguire analisi interne sui dati per acquisire maggiore consapevolezza sul parco clienti, ottenendo così diversi benefici come l'aumento della partnership ma anche la cosiddetta loyalty. Sarà un utile strumento anche per ridurre al minimo le

(37)

perdite attraverso una corretta segmentazione del mercato e l'aumento dell'efficacia delle iniziative marketing.

Di seguito andremo ad analizzare alcune azioni di monetizzazione indiretta:

• Migliorare prodotto/servizio: scoprire le problematiche dei clienti e risolverli attraverso un miglioramento del proprio prodotto/servizio. Ad esempio azioni di recommendations oppure price optimization.

• Guidare vendite e marketing: sarà necessario capire come e perché i clienti utilizzano quel determinato prodotto/servizio per migliorare il proprio targeting.

• Ridurre costi: analizzando i dati interni si potrebbe individuare aree o azioni effettuate che potrebbero essere tagliate o migliorate per ridurre eventuali sprechi di risorse.

• Migliorare produttività ed efficienza: monitorare quando i processi, e relativo personale, siano efficienti così da permettere un eventuale ottimizzazione dell'allocazione delle risorse in modo da ottenere di più in meno tempo. Sarà necessario rimuovere qualunque ostacolo alla massimizzazione dell'efficienza.

• Inserire nuove categorie di business/clienti/servizi: aprendo i propri orizzonti si potranno trovare nuove soluzioni e possibilità di monetizzare.

• Ridurre rischi: riducendo i rischi ed aumentando la conformità agli standard, si potrà garantire che i propri prodotti/servizi siano certificati.

• Sviluppare nuovi prodotti/servizi: attraverso i dati si potranno scoprire le lacune dei prodotti/clienti/mercato dell'azienda, ma allo stesso tempo saranno la base per l'innovazione.

La monetizzazione diretta si riferisce a beni di dati che possono essere venduti o scambiati con altre organizzazioni. Questi possono essere in forma di asset informativi confezionati in prodotti di dati o in flussi di dati in tempo reale. Tipicamente la vendita di dati grezzi avviene solamente se in possesso di enormi banche dati, seppur il commercio fra nazione e nazione sia soggetta alle rigide regole e norme sulla privacy di ognuno di essi.

Di seguito andremo ad analizzare alcune azioni di monetizzazione diretta:

• Creare API: possibilità di creazione di una applicazione che consente ai clienti di accedere ai propri dati (attraverso una API interna) presenti nelle banca dati aziendali, oppure esternamente consentendo a software di terze parti di interagire con i propri dati (previa autorizzazione). Ad esempio, Google maps o i social network "amano" la condivisione libera dei dati anche al di fuori delle loro piattaforme.

• Creare piattaforme self-service: esse consentono ad utenti esterni di accedere ed interagire con i data insight aziendali.

• Vendita pubblicità: ci sarà possibilità di usare servizi di recommendations per indirizzare specifica pubblicità a specifici clienti, in base ai dati raccolti singolarmente per ognuno di essi (o gruppi di utenti).

• Creare package: i dati vanno forniti ai clienti nel modo più semplice possibile a livello di consultabilità e maneggevolezza.

(38)

• Baratto/commercio dati: attraverso lo scambio di dati si potranno ottenere vantaggi per i propri clienti o business, attraverso performance benchmarking.

• Vendere data analysis: se si è in possesso di dati grezzi, sarà molto utile eseguire le dovute analisi dei dati per poi rivenderle ai clienti come supporto ai loro business.

2.1.2 Le fasi della Data Monetization

[26] La monetizzazione dei dati può essere utilizzata da una azienda per produrre una serie di informazioni con lo scopo di generare entrate. La gamma varia da dati grezzi e data preparation a servizi professionali e di outsourcing di processi aziendali. Ognuno di essi può essere posizionato lungo un continuum che definiremo consumption path (percorso di consumo), il quale formerà un percorso che porterà il dato grezzo attraverso varie fasi fino al cliente e all'utilizzo finale.

Il consumption path (figura 29) è costituito da tre fasi: • Data

• Insights • Action

Ognuna condividerà caratteristiche e considerazioni comuni all'altre. Indipendentemente da dove una azienda sceglie di competere lungo il percorso di consumo, essa dovrà essere e rimanere sensibilmente consapevole dei problemi pressanti del cliente finale che sono affrontati lungo tutto il percorso. Tale consapevolezza prepara l'azienda a fare rettifiche in quanto i problemi dei clienti finali si evolvono o si spostano.

(Fig. – 29)

Data offerings

Questa fase include dati grezzi e dati preparati (post pulizia, categorizzazione, elaborazione, etc.), e sono fondamentali per tutte le fasi successive del consumption path in cui bisogna ridurre eventuali limiti dovuti alla qualità dei dati. Aziende che puntano a monetizzare partendo fin dall'inizio del

(39)

percorso di consumo, hanno sicuramente effettuato ingenti investimenti nelle piattaforme di acquisizione ed integrazione dati. Essendo questa fase ancora ben lontana dal cliente finale, sarà importante per le aziende stabilire dei meccanismi per comprendere l'utilizzo dei dati dopo la vendita, ovvero meccanismi per valutare sia il valore effettivo dei dati ma anche il rischio delle proprie attività.

• Dati grezzi (raw data): rappresentano i dati nella loro forma più pura senza nessuna operazione di pulizia, trasformazione o miglioramento. In alcuni casi le società che puntano a monetizzare con questa tipologia di dati li utilizzeranno perché già utili di per sé, come ad esempio i dati transazionali (dati POS o dati clinici), mentre altre volte le aziende creeranno dei veri e propri set di dati grezzi difficili da replicare.

• Dati preparati (Prepared data): saranno i dati dopo una prima fase di trasformazione, miglioramento e pulizia. Le aziende punteranno a creare valore rendendo i dati più consumabili per usi specifici. Sarà quindi necessario avere una profonda conoscenza del dominio di destinazione dei dati, così da permettere un aumento dell'accuratezza ed efficacia nel tempo.

Insight

Questa fase comprenderà report e analisi che influenzano e supportano direttamente i processi e le decisioni aziendali. Le aziende che puntano a monetizzare in questa fase del consumption path, garantiscono che i loro report e/o analytics siano facili da usare e di massima utilità poiché l'obiettivo è quello di influenzare l'utente finale. Le aziende dovranno avere grandi capacità di creazione di visualizzazioni (progettazione grafica, interfaccia, etc...) e cruscotti (software adatti) per riuscire oltreché a creare come già detto reportistiche facili e utili, anche a realizzare dei processi automatizzati che incorporano i flussi di lavoro dell'utente.

• Reporting: la fase di reportistica appartiene all'ambiente della Business Intelligence, e sono caratterizzati da dashboard, strumenti di visualizzazione e contenuti cloud-based. Le aziende oltreché produrre reportistica, molto spesso forniscono anche la formazione agli utenti finali.

• Analytics: rappresenta il portafoglio di metodologie che utilizzano algoritmi matematici, modellazione statistica e tecniche di machine learning, il tutto per ricavare modelli significativi basati sui dati in possesso. L'analytics si differenzierà in due tipologie: modelli predittivi e descrittivi.

Action offerings

In questa fase avremo tutti i servizi che aiutano i clienti ad agire sugli insights (report & analytics): • Consulenza

(40)

• automatizzazione • outsourcing dei processi

Questo supporto è strettamente legato al processo a cui viene legata una decisione o la risoluzione di un problema. Le aziende che puntano a monetizzare in questa fase, devono comprendere l’importanza dei processi aziendali definiti dalle misure e della solidità organizzativa. Tipicamente gli utenti finali vedono le aziende che offrono supporto come dei partner commerciali che porteranno avanzate abilità tecniche e profonda conoscenza del settore. Ci sarà una minore scalabilità delle operazioni per chi monetizza in questa fase rispetto a chi lo fa nelle fasi precedenti.

• Progettazione processo (Process design): i process design services rappresentano i servizi di consulenza e supporto in loco. Il processo si baserà sull'approfondimento dei report e analytics per creare pattern per le decisioni, come ad esempio come un client potrebbe cambiare alcuni asset del proprio processo decisionale.

• Esecuzione processo (Process execution): i process execution services includono l'automatizzazione dei processi e delle soluzioni esternalizzate che eseguono attività aziendali per conto del cliente. Come fornitori di terze parti, le aziende che offrono servizi di esecuzione dei processi, assumono una parte del rischio e dei costi associati all'attività aziendale. Sarà spesso una soluzione attuare un modello di risparmio condiviso.

Di seguito una info grafica (figura 30) riepilogativa del life cycle della Data Monetization, con il confronto fra volume dei dati e valore dei dati.

(41)

2.1.3 Identificare dati preziosi

I dati sono quindi alla base di qualunque strategia di Data Monetization, ma per sfruttare al massimo quelli interni all'azienda, sarà necessario che ci sia prima di tutto consapevolezza se sono di valore o no. Da uno studio [23] è emerso che le aziende di successo seguono alcuni criteri fondamentali per valutare il valore dei dati:

• Comportamento del consumatore: informazioni sui comportamenti dei consumatori come acquisti al dettaglio, transazioni, dati di geolocalizzazione, click behavior sul web, utilizzo device, etc. Devono essere dati dettagliati per permetter all'azienda di costruirci sopra strategie e iniziative di marketing.

• Identificazione consumatore: conoscere il consumatore finale che usufruirà del proprio prodotto/servizio, è una informazione fondamentale. Essere in grado di profilare nome, indirizzo, recapito telefonico, lavoro, famiglia, etc. dell'utente, aiuterà a migliorare ed ampliare la gamma di customer service. Ovviamente le logiche della protezione della privacy fanno parte di questa strategia.

• Frequenza della transazione: i dati ad alto volume sono più preziosi. Basta pensare a servizi come le assicurazioni per le auto o varie polizze hanno un basso tasso di transazione perché avvengono sporadicamente, quindi le informazioni ricavate sono sì importanti ma meno utilizzabili rispetto a dati provenienti da prodotti/servizi come carte di credito, click web, spesa per generi alimentari, etc. Queste sono transazioni che possono avvenire anche più volte al giorno.

• Dati unici: se i dati esistono o sono proprietà esclusiva di una impresa, avranno un valore incrementale.

• Dati accessibili: dati non strutturati come quelli presenti su un social network, sono presenti in abbondanza e sono tipicamente di basso valore vista la loro accessibilità. Sarà quindi compito dell'azienda dare valore a quei dati, estraendone conoscenza.

2.1.4 I business model per la Data Monetization

[25] Fondamentalmente l'obiettivo di ogni azienda è quella di migliorare la competitività, ottenere

una chiara differenziazione, ma soprattutto massimizzare le entrate. In questo momento dove i dati stanno assumendo un importante ruolo negli obiettivi poc'anzi citati, sarà necessario creare un business model adeguato che possa massimizzarli e rispondere ad alcune business question, come ad esempio:

• Si vendono dati esternamente?

• l'utilizzo dei dati migliora gli asset interni come il rapporto con il cliente o la diminuzione degli sprechi?

• I dati aiutano a differenziarsi dai competitors? • Sta aumentando la fidelizzazione del marchio? • Le reportistiche sono esaustive?

(42)

Ci sono quattro modelli di business comunemente usati per la monetizzazione, i quali spesso possono essere utilizzati simultaneamente per aumentare l'efficienza di componenti interne e/o clienti esterni.

Return On Advantage Model

A maggior parte delle aziende di oggi applica analisi dei dati e definisce la Monetizzazione dei dati, tramite un "Ritorno sul modello di vantaggio", dove un'organizzazione utilizza i suoi dati di performance interni e a volte triangola con informazioni demografiche esterne, con lo scopo di creare un vantaggio per l'impresa. Ad esempio, questi modelli di monetizzazione si basano su:

• Targeting clienti

• Rilevamento del rischio e rilevazione di frodi

Premium Service Model

Ottenere la monetizzazione attraverso un "Modello di servizio Premium", richiede che i dati vengano elaborati o trasformati fino agli utenti finali. Molto spesso un premium service model include il rilascio di valore per l'utente finale attraverso software come SaaS oppure interfacce, dove quindi sottoscrivendo ad esempio un abbonamento l'utente potrà accedere ai dati prodotti tramite un portale. Esempi di questo business model sono gli ambiti sportivi dove i dati delle prestazioni verranno raccolti e aggregati attraverso dispositivi indossabili, e restituiti agli utenti che avranno sottoscritto l'abbonamento inerente al servizio.

Differentiator Model

Il "Modello di monetizzazione del differenziatore" è utilizzato quando il ritorno dei data asset rappresentano il guadagno differenziale ottenuto attraverso il rilascio di dati o derived benchmarks agli utenti senza costi aggiuntivi, con lo scopo di aumentare la fidelizzazione. In pratica il cliente riceverà un servizio aggiuntivo senza pagare per esso, differenziando l'azienda dalle altre.

Syndication Model

Un "Modello di associazione" viene spesso utilizzato quando i dati trasformati in un determinato modo (di solito non grezzi) vengono consegnati a terzi. Sarà utilizzato in pratica per creare dei report uguali ad ogni rilascio per diverse entità, ottenendo guadagno dalla sottoscrizione di questi utenti che riceveranno gli aggiornamenti come se fossero dei feed.