• Non ci sono risultati.

7 Privacy & anonimizzazione

7.3 Gestione anonimizzatine Telco Shop

7.3.2 Secondo approccio

Stabilito che il primo approccio non garantiva la privacy sufficiente per i clienti di una telco, si è optato per una tecnica di aggregazione. Questa fatta in collaborazione con Marciana Telecommunication, ha visto in primis la definizione dei KPI (capitolo 4) utilizzati poi nella fase di reportistica per cui la definizione della strategia di aggregazione da adottare identificando a priori il numero di tabelle da creare con le varie granularità. Ed una seconda fase lanciata direttamente dalla telco sui dati reali, una volta utilizzate le procedure create con i dati fittizi in mio possesso (fase 2 – paragrafo 3.3), con ulteriori procedure create ad hoc per ogni KPI (fase 4 – paragrafo 3.3).

Utilizzando anche in questo caso i dati usati per la redazione del report del capitolo 6, analizziamo i vari step per attuare l'anonimizzazione di questo secondo approccio:

Identificazione KPI

La prima mossa da fare sarà quella appunto di decidere quali KPI vorremo andare ad analizzare e con quali livelli di granularità, così da identificare fin da subito il modus operandi da prendere. A livello illustrativo ho deciso di mettere solo alcune delle scelte fatte, per cui avremo:

• Visit count (day,month) • Permanence time (day) • Provenance distance (month) • Fidelity (month, year)

Creazione tabelle

Per ogni KPI, granularità e nazionalità sarà necessario creare una tabella distinta che poi in fase di reporting saranno usate come sorgenti. La creazione delle tabelle punteranno ad annullare totalmente la possibilità di risalire ai distinti utenti o gruppi di utenti, mascherano inoltre le numeriche usando solo valori percentuali, tranne per il Visit count dove come per il primo approccio verrà usato un moltiplicatore per “mascherare” in parte le reali numeriche. Verrà fatta una ulteriore restrizione ai dati, considerando per ogni elemento distinto almeno una numerosità di 313, ad

esempio le città che dopo l’aggregazione non saranno presenti almeno 3 volte per quella granularità non verranno considerate.

(Le tabelle sono riferite a casi di clienti italiani, ma le modalità sono le stesse per i roamers dove verranno identificate i KPI necessari e create le relative tabelle.)

Dalle considerazioni emerse risulta quindi come il secondo approccio sia quello che garantisce il miglior livello di protezione per i dati della telco, sbarrando la strada a qualunque tecnica di de- anonimizzazione attuabile. Sarà quindi questo l’approccio che verrà attuato per tutto il filone dei progetti Telco Shop, ma anche per tutte le altre advanced analytics in cui sarò personalmente coinvolto.

Conclusioni e sviluppi futuri

Il futuro e le sorti di una azienda dipendono sempre di più dai cosiddetti decisori aziendali, quelle figure che hanno il compito di definire una linea strategica e quindi azioni concrete, al fine di ottenere vantaggio e valore per l'azienda. Per riuscire in questo è necessario che siano supportati da strumenti e tecnologie in grado di analizzare non solo i dati del business, ma anche di analizzare il business stesso in relazione al contesto in cui è collocato.

Il lavoro svolto ha riguardato l'implementazione di una piattaforma di Business Intelligence per l'Advanced Analytics, permettendomi di costruire un ben oliato sistema che permettesse di trasformare nel modo più veloce e automatizzato possibile i dati grezzi raccolti dalle varie sorgenti in un report di altissimo valore, attraverso le varie fasi descritte lungo tutto questo lavoro di tesi.

I risultati ottenuti al termine di questi sei mesi di stage mi rendono molto soddisfatto poiché gli obiettivi posti all’inizio sono stati tutti raggiunti anzi è stato fatto qualcosa anche oltre le aspettative, costruendo un sistema che riesce a dare visione passata – presente – futura dello scenario commerciale italiano, con un altissimo tasso di supporto alle decisioni.

In conclusione questo lavoro di tesi è stato molto utile per approfondire e avere riscontro pratico della maggior parte dei topics nel campo della BI acquisiti durante il percorso universitario appena concluso. Al contempo utile soprattutto per acquisire nuove conoscenze come ad esempio la Location Intelligence o il Netowrk Clustering, dal punto di vista teorico - infrastrutturale - pratico.

Inoltre il valore aggiunto di questa esperienza è stato sicuramente il poter lavorare presso una realtà dinamica come quella di ICONSULTING, la quale adotta in ogni suo progetto una metodologia di lavoro in team che mi ha permesso così di capire non solo nuove dinamiche lavorative ma anche di avere un adeguato supporto da parte di tutti i membri del team in diverse fasi del Filone dei Telco Shop.

Sviluppi futuri

Per migliorarsi bisogna sempre porsi nuovi obiettivi da raggiungere, per questo una volta terminata questa tesi, comincerà una nuova fase di miglioramento di quello costruito in questi sei mesi per affinare sempre di più le tecniche utilizzate e i risultati ottenuti.

In primis ci sarà la necessità di individuare ulteriori indicatori che possano dare maggiore supporto ai decisori nostri clienti, così da avere visioni sempre più complete della propria situazione, ma anche di quella del business in cui si sta lavorando.

Oltre a nuovi KPI, verrà avviato anche un processo di miglioramento del calcolo di quelli già discussi durante la tesi, così da avere dei risultati sempre più sofisticati e precisi. In riferimento a quest’ultima cosa, ad esempio ci sarà la necessità di passare ad una rilevazione dei clienti a due vie

dove non presente, ovvero utilizzando sia il traffico voce che quello dati, abbassando al minimo la possibilità di errori o buchi. Soluzione per diminuire il tasso di errore, sarà anche quella di affinare le tecniche di rilevazione di sorgenti come telecamere o free wi-fi, e sfruttare così tutte le fonti dati disponibili simultaneamente, beneficiando dei vantaggi che apporterebbe ognuna di esse.

Sarà molto interessante anche riuscire ad utilizzare più KPI insieme, come ad esempio Loyalty e Co- visite, ottenendo così indicatori sempre più validi sui clienti analizzati.

Questa tesi, nello specifico con la Cluster Network Analysis, è stato il primo step per un altro progetto molto importante aziendale al momento in fase di avvio. Infatti partendo dalle considerazioni fatte, verranno sfruttate tecniche di machine learning, clusterizzazione e classificazione/regressione, introducendo una serie di attributi (esempio: sesso, occupazione, reddito

annuo, categorie shop preferite, frequenza - categoria - range acquisti, tipologia movimenti, etc.) da

varie fonti ed inerenti ai clienti e agli acquisti. In questo modo si punterà ad estrapolare ancora più informazioni sulle abitudini della clientela e scoprire nuovi pattern, massimizzando il supporto alle decisioni per presenti e future operazioni commerciali.

Bibliografia

[1] Sullins Ben. Star Schema Foundations. Pluralsigh. [Online] 2016 (https://www.pluralsight.com/)

[2] Bischoff, J., and Alexander, T., Data Warehouse: practical advice from the experts, Prentice-Hall, 1997

[3] MS Chen, J Han, and PS Yu, Data Mining: An Overview from Database Perspective, IEEE Transactions on Knowledge and data Engineering 8 (6), pp. 866-883, 1996

[4] The Case for Relational OLAP, Microstrategy Incorporated, 1996.

[5] Luca Cabibbo, Riccardo Torlone, A Logical Approach to Multidimensional Databases, Università di Roma Tre.

[6] A. Albano, S. Ruggieri. Decision Support Databases Essentials, University of Pisa, 2016.

[7] Pang-Ning Tan, Michael Steinbach, Vipin Kumar - Introduction to Data Mining

[8] Slides del corso di Data Mining I, Università di Pisa (2017)

[9] Maguire, D., Longley, P., Goodchild, M., and Rhind, D., Geographical Information Systems and Science, Wiley and Sons, 2005

[10] Pitney Bowes , http://www.pitneybowes.com/us/location-intelligence.html

[11] http://www.dataonfocus.com/oltp-vs-olap/

[12] Kimball, Ross, Thornthwaite, Mundy, & Becker, 2007

[13] http://docs.oracle.com/database/121/DWHSG/concept.htm#DWHSG8075

[14] Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C., Big data: The next frontier for innovation, competition, and productivity, The McKinsey Global Institute, 2011

[15] Marr, B., Big Data: Using Smart Big Data, Analytics and Metrics to Make Better Decisions and Improve Performance, John Wiley & Sons, 2015

[16] M. A. u. d. Khan, M. F. Uddin, and N. Gupta. Seven v's of big data understanding big data to extract value. In American Society for Engineering Education (ASEE Zone 1), 2014 Zone 1 Conference of the, pages 1{5, April 2014.

[17] Jeffrey Dean and Sanjay Ghemawat. Mapreduce: Simpli_ed data processing on large clusters. Commun. ACM, 51(1):107{113, January 2008.

[18] www.oracle.com/documentation

[19] https://www.tableau.com/#hero-video

[20] https://www.tableau.com/solutions/more

[21] M. Golfarelli. The DFM: A Conceptual Model for Data Warehouse. Encyclopedia of Data Warehousing and Mining (Second Edition), John Wang (Ed.), IGI Global,

[22] Parere 05/2014 sulle tecniche di anonimizzazione - http://ec.europa.eu/justice/data- protection/index_en.htm

[23] Accenture Interactive – Point of View Series – “What’s your data worth?”

[24] How to Monetize Your Data – Yellowfin

[25] Framing a winning data monetization strategy – KPMG

[26] Foundations for Data Monetization – Anne Bluff, Barbara Wixom, Paul TAllon

[27] Benefiting from big data - A new approach for the telecom industry - Olaf Acker, Adrian Blockus, Florian Pötscher

[28] Professor Dino Pedreschi, Professor of Computer Science at the University of Pisa

[29] Clustering , Prof. Matteo Golfarelli , Alma Mater Studiorum - Università di Bologna

[30] Introdution to Data Mining, Pang Ning tan – Vipin Kumar – Michael Steinbach

[31] Manuale della libreria igraph per R - http://igraph.org/r/doc/

[32] Big Data: A gold mine in Telcos’ backyard - Lokesh Dadhich, Vikram Gupt

Documenti correlati