• Non ci sono risultati.

TOWARDS BIG DATA METHODS AND TECHNOLOGIES FOR OFFICIAL STATISTICS

N/A
N/A
Protected

Academic year: 2021

Condividi "TOWARDS BIG DATA METHODS AND TECHNOLOGIES FOR OFFICIAL STATISTICS"

Copied!
11
0
0

Testo completo

(1)

Relazione sull’attività svolta nell’ambito degli anni del

Corso di Dottorato in Ingegneria dell’Informazione

Lorenzo Gabrielli - XXX Ciclo

April 23, 2018

1

Primo anno

Durante il primo anno di dottorato l’attività si è focalizzata su come utilizzare i Big Data per realizzare nuovi modelli analitici a supporto della statistica ufficiale, sia nell’ambito degli studi di mobilità individuali e collettivi che di individuazione di nuovi indicatori di benessere delle società. Durante il primo anno sono stati espletati la quasi totalità dei crediti di formazione richiesti dal corso di dottorato. Il totale dei crediti realizzati durante il primo anno è stato di 33 CFU.

1.1

Indicators for studying indidivual and collective human mobility

In questo ambito di ricerca sono stati realizzati ed estesi dei processi analitici volti a: 1. Utilizzare Big Data per studiare la presenza sul territorio;

2. Fornire un tool per raccontare le caratteristiche di mobilità di una città.

Utilizzare Mobile phone data per studiare la presenza sul territorio Nel contesto di una collaborazione con l’operatore telefonico Orange (progetto CityDataFusion) ho realizzato una metodologia che consenta di rilevare le presenze degli utenti durante grande eventi. La classifi-cazione nelle categorie Residenti, Visitatori, Pendolari è avvenuta utilizzando la presenza telefonica degli individui, a diversa granularità spaziale (presenze nel centro, centro più aree sub urbane). Il principale risultato, mostrato in [FB15], ha evidenziato come l’evento oggetti di analisi (Fete de la Musique, Parigi) vedesse un alto riscontro non solo da utenti provenienti da fuori regione ma anche da parte di molti residenti delle aree limitrofe che si recavano in centro città nel giorno dell’evento, in misura sensibilmente superiore a quanto avvenisse in un normale giorno lavorativo o festivo.

Nel medesimo contesto di analisi, è stata realizzata una metodologia che consente di ingegneriz-zare il processo basato sull’algoritmo di classificazione chiamato Sociometro, allo scopo di rendere portabile l’intero processo. È stata inoltre verificata la robustezza della metodologia al variare della finestra temporale utilizzata. I risultati mostrati in [GFT+15] evidenziano:

• Il miglioramento proposto consente di etichettare automaticamente i comportamenti tipici di chiamata facendo uso di archetipi che descrivono il comportamento tipico, evitando di fare uso nella fase di classificazione di un esperto del dominio, ottenendo con una accuratezza dell’85%;

• La finestra temporale minima affinché il Sociometro possa produrre dei risultati affidabili sia empiricamente dimostrata essere di tre settimane.

Fornire un tool per raccontare le caratteristiche di mobilità di una città Nell’ambito dello studio della mobilità, è in corso di realizzazione un motore analitico e le relative interfacce RESTful alla base della applicazione chiamata Urban Mobility Atlas (UMA), avente come scopo quello di raccontare la storia della mobilità degli individui in un territorio, utilizzando un insieme di indicatori statistici sintetici ricavati con tecniche di Mobility Data Mining e Machine Learning.Tale applicazione è stata la base per realizzare nel corso dei tre anni dimostratori visuali sugli indicatori che si possono misurare sul territorio toscano grazie ai Big Data.

(2)

1.2

Towards new statistical indicators for measuring well-being of

soci-eties

Ho partecipato alla realizzazione di un processo analitico volto a studiare come mobilità e socialità degli individui sono legati al benessere economico. Avendo a disposizione le misure di mobilità e socialità estratte dai dati telefonici è possibile creare un modello per mettere in relazione tali misure e le misure di benessere (European Deprivation Index). I risultati mostrati in [PVG+] evidenziano come il modello sia in grado di spiegare oltre il 40% della varianza del fenomeno ed in particolare che le misure di mobilità siano molto più predittive di quelle di socialità. Tale risultato è di grande impatto in quanto la disponibilità di misure di mobilità è notevolmente superiore di quelle di socialità anche e soprattutto per motivi di privacy. L’articolo è stato sottomesso nell’anno in corso ed è stato oggetto di alcune piccole modifiche durante il processo di revisione.

Nell’ambito di una collaborazione con il dipartimento di Statistica della Facoltà di Economia di Pisa è stato investigato come l’entropia di mobilità sia correlata con gli indicatori economici territoriali toscani. In [MGP+15] viene sperimentato come usare i Big Data (dati veicolari GPS)

per: a) per creare indicatori locali da comparare con quelli ottenuti con i metodi cosiddetti “small area estimation”, b) utilizzare tali sorgenti come nuove covariate del modello “small area estimation”. Il contributo in questo contesto ha riguardato la selezione di un dataset opportuno e l’elaborazione degli indicatori di entropia di mobilità con diversi livelli di aggregazione spaziale. Il vantaggio di usare questo approccio deriva dal fatto che grazie a questo risultato viene dimostrato come i Big Data possono essere usati direttamente per misurare la povertà e l’esclusione sociale a livelli di dettaglio superiore e ad intervalli temporali più frequenti.

1.3

Formazione

Durante il primo anno del corso di dottorato in Ingegneria dell’informazione sono stati frequentati e certificati i seguenti corsi per un totale di 33 CFU:

• Probabilità, statistica e processi stocastici [FLANDOLI] (6 cfu)

• Inglese per scrivere e presentare articoli scientifici [WALLWORK](2 cfu) • Smart Space [KORZUN] (5 cfu)

• Algoritmi per big data [FERRAGINA] (5 cfu ESTERNI) • Network Science [NEGLIA] (5 cfu)

• Cloud Computing for Big Data Analysis [NARDINI-LUCCHESE-TONELLOTTO] (5 cfu) • Summer School Lipari in Complex System (6 cfu ESTERNI di cui 5 utilizzabili)

Tali corsi hanno consentito di migliorare la formazione nel campo dell’utilizzo dei metodi statis-tici per la analisi e previsione di serie storiche, di conoscere tecniche per processare banche dati di grandi dimensioni in modo efficace ed efficiente e di vedere alcune tecniche per l’analisi di reti complesse e studiare la diffusione di informazioni sulle stesse. Inoltre il corso di Cloud Computing for Big Data Analysis e Algoritmi per Big Data hanno consentito di migliorare la formazione nel campo dell’utilizzo dei metodi di Mining applicati a grandi quantità di dati e di discutere circa problemi e ambititi di applicazione per sistemi.

2

Secondo Anno

Nel precedente anno di dottorato l’attività svolta ha riguardato l’uso dei i Big Data per realizzare nuovi modelli analitici a supporto della statistica ufficiale, sia nell’ambito degli studi di mobilità individuali e collettivi che di individuazione di nuovi indicatori di benessere delle società. Coer-entemente con il percorso iniziato durante il primo anno, sono stati realizzati degli studi volti ad approfondire gli aspetti metodologi e tecnici rimasti aperti.

In particolare, le attività di ricerca svolte hanno riguardato il disegno e sviluppo di metodi analitici capaci di combinare i modelli sociali proposti dalla comunità complex systems e i modelli

(3)

basati sull’analisi di Big Data. Tali attività sono svolte nell’ambito dei progetti europei CIMPLEX

1e SOBIGDATA2 .

2.1

Measuring human behaviour with mobile phone data

Lo studio della mobilità individuale e collettiva degli individui è stato ampiamente affrontato durante il precedente anno di dottorato. I temi rimasti aperti lo scorso anno erano:

• Pubblicazione su rivista del framework analitico per la misurazione degli indicatori di be-nessere tramite dati telefonici

• Realizzazione di metodologie scalabili per il calcolo delle presenze nelle città mediante dati telefonici

• Attenzione all’uso etico dei dati telefonici nell’analisi dei comportamenti individuali e collet-tivi

2.1.1 Nowcast Well-Being with mobile phone data

In questo anno è stato portata a termine la realizzazione di un framework per lo studio del benessere di un territorio osservando la mobilità e le interazioni sociali degli individui dai dati telefonici [PVG+].

Il framework prevede in primo luogo l’estrazione di indicatori individuali di mobilità e di so-cialità, tali indicatori individuali sono aggregati in una ottica collettiva considerando i territori di residenza di ogni individuo, anch’essi inferiti osservando la frequenza di chiamata. Tali misure aggregate risultano correlate con gli indicatori socio-economici che misurano la ricchezza e/o la deprivazione dei territori.

Scopriamo che la diversità della mobilità, definita in termini di entropia delle traiettorie dei singoli utenti, mostra (i) una correlazione signicativa con due differenti indicatori socio-economici e (ii) la maggiore importanza della mobilità nella spiegazione del fenomeno. Tale framework teorico può essere applicato a qualsiasi sorgente di dato che abbia una informazione geografica, mostrando che è possibile realizzare un processo di produzione statistica a partire dai Big Data.

Il mio contributo in questa attività è stato quello di rendere consistenti i dati di partenza e di realizzare e validare il modello di correlazione. Ho dato inoltre apporto nella preparazione dell’elaborato con particolare contributo nella descrizione del processo analitico.

2.1.2 Scalable solutions for mobile phone based population indicators

Il Sociometro, metodologia di riferimento implementata durante il percorso di ricerca, analizza il traffico telefonico per inferire la presenza degli individui sul territorio e grazie a tale presenza riesce a classificare gli individui nelle categorie residenti, pendolari, occasionali. Un tema aperto è la trasformazione della metodologia in un sistema che supporti il calcolo parallelo e distribuito.

In tal senso [LGD+16a] propone un framework che implementa il clustering dei comportamenti

di telefonata su sistema Hadoop. Rispetto a Gabrielli et al3, oltre al contributo tecnologico è

stato utilizzato un clustering a densità che consente di non specificare il numero di cluster a priori e che garantisce resistenza al rumore, caratteristica non garantita dalla precente versione della metodologia. Inoltre è stata da me definita una nuova funzione di similarità per catturare in modo più efficace comportamenti di chiamata simili. In precedenza per studiare la similarità tra i vettori che rappresentano le chiamate degli individui, era utilizzata la distanza euclidea. Attualmente, per il caso particolare, si scopre che combinando la similarità euclidea e la similarità Jaccard si ottiene una miglior classificazione, in termini di miglior compattezza e separazione dei cluster.

Ulteriore miglioramento della metodologia è introdotto in [LGD+16b]. Il principale risultato ottenuto nel lavoro consiste nel ridurre l’intervento dell’esperto nella selezione dei parametri di clustering, ottenendo performance comparabili con quelle ottenute con la versione dell’algoritmo introdotta in [LGD+16a].

1The Cimplex project is supported by the European Commission, in the area "FET Proactive: Global Systems Science” (GSS), as a Research and Innovation Action, under the H2020 Framework programme, Grant agreement n. 641191.

2SoBigData is the European Research Infrastructure for Big Data and Social Mining. From data to knowledge, investigating stories ethically, paying attention to citizens privacy

3City users’ classification with mobile phone data. Gabrielli L., Furletti B., Trasarti T., Giannotti F., Pedreschi D.. IEEE BIGDATA2015.

(4)

2.1.3 Ethical issues

Le persone si sentono riluttanti a fornire informazioni veritiere riguardo i dati personali, a meno che non sia assolutamente necessario. Al tempo stesso gli utenti producono inconsapevolmente grandi quantità di informazioni che i ricercatori possono usare come potente microscopio sulla società. Tale studio deve essere svolto nel rispetto dei principi etici. La domanda a cui dare risposta è: se vengono applicati algoritmi di censoring sui dati, come questo si ripercuote nell’osservazione complessiva del fenomeno?. In [CP17b] è stato investigato quale è il prezzo che bisogna pagare in termini informativi nel rinunciare a utilizzare alcuni dati di chiamata individuali perché affetti dal pericolo di reidentificazione. Il risultato che si ottiene è che le categorie che sono maggiormente affette dal censoring sono quelle di residenti e pendolari. Nonostante ciò, il risultato in termini di stima della popolazione residente non risente di una eccessiva diminuzione di precisione. E’ stato inoltre individuato un valore soglia di k anonimity pari a k=20, oltre il quale il censoring degli utenti porta alla cancellazione di tutti i profili di chiamata per gli utenti che vi ricadono.

Il mio contributo in questa attività ha riguardato (i) la misurazione degli effetti del censoring degli utenti sulla qualità della misurazione delle presenze (ii) realizzazione delle metafore grafiche per osservare geograficamente quali sono gli effetti del fenomeno sui diversi territori

Nel corso del terzo anno di dottorato [CP17b] è stato esteso per studiare come mitigare il rischio di privacy. Alla fine di ottobre 2017 l’elaborato era ancora in fase di preparazione per la sottomissione presso rivista internazionale.

2.2

Measuring Well-being with market retail data

Un altro approccio per misurare la deprivazione materiale degli individui consiste nell’andare a osservare le abitudini di acquisto degli individui. Gli istituti di statistica, infatti, basano il loro indicatori di benessere su indagini relativi alle spese di acquisto di individui all’interno di un determinato territorio. Tale azione avviene molto spesso, perchè come anche affermato dalla Banca Mondiale, i consumi misurano meglio la povertà rispetto al reddito.

Nell’ambito dell’osservatorio SoBigData ’Well-being & Economic Performance’, una attività di ricerca ha riguardato lo studio del benessere sociale ed economico degli individui partendo dallo studio delle abitudini di acquisto presso la Grande Distribuzione. Alla base del ragionamento c’è la forte convinzione che è possibile acquisire informazioni statistiche direttamente dai dati reali, inferendo il livello di benessere degli individui attraverso lo studio degli acquisti invece di affidarsi a survey su sottoinsiemi di popolazioni. Il vantaggio di utilizzare questo approccio sta nel fatto che la metodologia di analisi consente di osservare fenomeni a livello di dettaglio superiore sia spaziale che temporale.

2.2.1 Nowcast Customer Price Index

Una particolare applicazione in questo contesto è la seguente: [GRP] propone di utilizzare i dati acquisto per costruire, in modo veloce e automatico, indicatori di costo della vita a livello territoriale. A partire da dati di acquisto di individui per un anno, sono selezionati tutti i prodotti e le rispettive categorie di acquisto nel settore "food and beverage", secondo le indicazioni proposte da parte dell’Istituto Nazionale Italiano di Statistica (ISTAT). Vengono costruite diverse variabili individuali confrontando la spesa media di ogni individuo per una determinata categoria di acquisto con la spesa di acquisto globale della stessa categoria acquisto. E’ infine calcolato l’indice dei prezzi al consumo in modo automatico sui dati reali e coerentemente confrontato con l’indice dei prezzi al consumo calcolato dall’Istat. Gli esperti del dominio osservano che tale indice consente di capire il costo reale della vita nelle province italiane e che potrebbe essere un utile indicatore da tenere in dovuta considerazione nella rivalutazione degli stipendi.

Il contributo in questa attività ha riguardato (i) la preparazione del dataset degli acquisti e la mappatura semi-automatica tra le centinaia di categorizzazioni previste da ISTAT e i codici merceologici previsti da COOP, (ii) il calcolo dell’indice e le relative viste geografiche da inserire nell’elaborato.

2.2.2 Discovering Temporal Purchasing Profiles

Nell’ottica di osservare la conciliazione dei tempi di vita e della famiglia, un tema impor-tante è comprendere come gli individui organizzano i loro acquisti. In [GG17b] sono analizzate le regolarità che caratterizzano il comportamento di acquisto temporale della clientela retail. A

(5)

tal fine, si introduce un metodo per estrarre dai dati dei profili individuali di acquisto in grado di riassumere se e quando un cliente effettua gli acquisti. Il profilo descrive un insieme di com-portamenti commerciali caratterizzanti, e la sequenza in cui questi comcom-portamenti avvengono. Si propone inoltre un metodo per rendere i profili dei diversi clienti analoghi fornendo una prospet-tiva colletprospet-tiva dei singoli profili, l’informazione globale viene quindi utilizzata per la segmentazione dei clienti. L’analisi rivela comportamenti collettivi tipici che classificano gli individui in clienti abituali caratterizzati da un piccolo numero di acquisti nel tempo e per importo e clienti mutevoli caratterizzate da vari tipi di comportamenti commerciali. Il profilo può essere sfruttata a livello individuale da parte dei clienti per migliorare la consapevolezza di sé, mentre a livello collettivo la catena di vendita può offrire sconti personalizzati sulla base di modelli temporali.

Il contributo in questa attività ha riguardato l’analisi delle sequenze temporali per (i) eliminare comportamenti anomali (ii) individuare il giusto set di parametri da utilizzare negli algoritmi di machine learning.

2.3

Contributing to SoBigData e-Infrastructure

I Big Data possono diventare un sensore della società; l’obiettivo del dottorato vuole essere quello di creare una infrastruttura di conoscenza che renda fruibile le informazioni contenute nelle nuove sorgenti dati ai diversi domini pubblico/privato.

2.3.1 Urban Mobility Atlas

La partecipazione al progetto SoBigData, work package ’City of Cityzens’, consente di portare a sistema le metodologie per produrre una panoramica della mobilità collettiva delle città. In particolare è utile descrivere la città con una serie di statistiche quali il traffico in entrata e in uscita, punti di accesso, la distribuzione spazio-temporale del traffico, l’analisi del traffico sistem-atico rispetto al traffico occasionale, ecc. Utilizzando i dati GPS veicolari è stata realizzata una infrastruttura software che provvede a fornire un Urban Mobility Atlas (UMA) sulla città.

Quest’anno è stata rilasciata la prima versione del servizio web Urban Mobility Atlas, realizzato tramite l’interazione del dbms postgres/postgis, libreria python flask e d3.js, rende fruibile la comprensione dei modelli di mobilità umani. Il servizio è alimentato con una serie di modelli e pattern caricati tramite una procedura ETL. Inoltre, è dotato di interfaccia interattiva contenente gli indicatori statistici sintetici ricavati con tecniche di Mobility Data Mining e Machine Learning. Attraverso il servizio web è possibile visualizzare i pattern di accesso alla città, le distribuzioni caratteristiche delle distanze, dei tempi e degli orari dei viaggi. Ogni misurazione può essere osservata considerando la sistematicità o la occasionalità dei viaggi. L’UMA è inoltre in corso di integrazione nella piattaforma SoBigData.eu.

2.4

Formazione

Durante il mese di Febbraio 2016 ha seguito il corso di GAME THEORY AND OPTIMIZATION IN COMMUNICATIONS AND NETWORKING (16 ore) valido ai fini del conseguimento di 4 Crediti Formativi Universitari inerenti il percorso di formazione nell’ambito del dottorato di Ingegneria dell’Informazione. Con questo esame sono conclusi gli adempimenti relativi ai CFU necessari per il completamento del percorso di formazione previsto dal Corso di Dottorato.

3

Terzo Anno

Coerentemente con il percorso già iniziato, durante il III anno, lo sforzo è stato concentrato nel terminare di rispondere ai quesiti di ricerca posti con l’inizio del dottorato e nella redazione della tesi finale. Si ricorda come le attività svolte rientrino nell’ambito dei progetti europei CIMPLEX e SOBIGDATA.

Di seguito le tre linee di ricerca perseguite durante il terzo anno. Primo, descrivo le attività di ricerca eseguite a supporto dei esperti del dominio di diversi ambiti applicativi (Sezione3.1). Secondo, dimostro come le attività di ricerca svolte durante il dottorato sono servite per realizzare la SoBigData e-Infrastructure (Sezione 3.2). Infine, mostro come estendere la metodologia del Sociometro prendendo in considerazione i problemi di privacy (Sezione3.3). Riporto inoltre, un sunto del periodo trascorso presso Eurostat durante il novembre 2016.

(6)

3.1

Design and definition of analytical processes in collaboration with

domain experts

SoBigData consente di collaborare con una ampia comunità di ricercatori in tutta Europa. Recente-mente, ho avuto la possibilità di supportare Rafael Prieto, uno studente di dottorato dell’University College London. Insieme abbiamo studiato i fenomeni migratori in West Africa e il fenomeno della migrazione interna agli United States of America. Un altro interessante progetto multidisciplinare è stato realizzato con IRPET (l’istituzione di ricerca regionale Toscana riguardo gli studi socio economci), e Filomena Maggino, professoressa di statistica presso Roma Tor Vergata. Infine, ho realizzato uno studio insieme ad Elena Salvatori, PhD student nell’ambito del progetto di ricerca legato all’Educational Data Mining.

3.1.1 Using mobility data

Dynamic of cities La mancanza di definizioni ufficiali per identificare regioni omogenee è un problema che dissuade dall’utilizzo delle aree metropolitane come unità di analisi.

Pertanto, in “Using GPS Data to Understand Urban Mobility Patterns: An Application to the Florence Metropolitan Area” [BP17] grazie alle tracce prodotte da apparecchi dotati di sistemi GPS, in collaborazione con IRPET, ho estratto le matrici di mobilità GPS per l’Area Metropoli-tana di Firenze e il team di esperti di IRPET ha provveduto a validarli utilizzando la matrice di pendolarismo del censimento 2011. L’estrazione dei dati è avvenuta attraverso l’uso di tecniche GIS su piattaforma PostgreSQL.

In “Redefining regional boundaries: a mobility Data Analysis approach” [GG17a] è realizzato un metodo di clustering che suddivide i Comuni in gruppi che ottimizzano il traffico autocontenuto, cioè il traffico che inizia e termina all’interno dello stesso territorio. L’algoritmo, implementato in python, opera in modo agglomerativo, unendo ad ogni iterazione le due comunità esistenti che massimizzano un indice di autocontenimento locale (localQ). A posteriori, attraverso un indice globale (globalQ), espresso come differenza tra il flusso di traffico reale e quello previsto, viene selezionata l’iterazione che produce il valore massimo globale di globalQ. Il metodo è stato con-frontato con lo stato dell’arte (clustering, network science) dimostrando una migliore qualità dei risultati. Gli esperti di IRPET ci segnalano che dal punto di vista della pubblica amministrazione, questo metodo di clustering dei territori potrebbe essere utile nella fase di progettazione politica per definire nuovi aggregati con condizioni socio-economiche simili.

Migration studies I modelli di migrazione sono un potente strumento per misurare e prevedere il flusso di migranti. Nessun modello cattura l’impatto della dimensione della città nella misurazione del flusso dei migranti, per questo motivo lo studio effettuato ha riguardato la misurazione di quanto la dimensione della città sia un fattore rilevante per decidere se migrare o meno verso la destinazione. Utilizzando dati dalla mobilità delle persone nelle aree metropolitane negli Stati Uniti, sono stati stimati i parametri ed è stato verificato il modello di scala della migrazione. I risultati ottenuti dimostrano che la scala della città svolge un ruolo fondamentale nella migrazione umana. Le persone provenienti da città di minore dimensione tendono a migrare più frequentemente e tendono a spostarsi in città più piccole, mentre le persone delle grandi città non migrano così spesso, ma tendono a muoversi verso grandi città [O1].

L’analisi della migrazione interna è ancora più impegnativa della migrazione internazionale a causa della mancanza di dati e del fatto che, contemporaneamente, essa implica molto più persone. In [O2] lo studio ha riguardato la misurazione dei fenomeni migratori nel West Africa. Per ogni utente è individuato il luogo da cui iniziano la maggior parte delle chiamate settimanali. Applichiamo i criteri di maggioranza per rimuovere i movimenti a bassa frequenza degli utenti (rumore) che potrebbero essere il risultato di un viaggio non frequente. Quindi sono conteggiate il numero di sequenze consecutive in cui la persona rimane nella stessa posizione. Se la posizione più frequente di un utente cambia, è potenzialmente il risultato di un processo di migrazione interno. Pertanto, per identificare correttamente il più ampio insieme possibile di migranti, vengono applicati un filtro temporale e spaziale che ci consente di individuare se il processo di migrazione interna si sia verificato o meno. Lo studio è stato implementato usando tecniche GIS e linguaggio di programmazione python.

(7)

3.1.2 Using Retail Data

Il secondo pilastro della mia tesi di dottorato riguarda la realizzazione di modelli che attraverso i Big Data consentano di misurare il livello di benessere/deprivazione di un territorio. Durante il terzo anno ho avuto la possibilità di estendere e portare a pubblicazione due lavori che vedono l’utilizzo dei dati di acquisto presso i supermercati UNICOOP TIRRENO.

In “Measuring Wellbeing extracting Social Indicators from Big Data” [CP17a] osservando gli acquisti presso i supermercati di una grande catena di distribuzione, si nota come per un sottoin-sieme di individui siano presenti importanti cambiamenti di abitudini a causa della crisi esplosa nel periodo 2007-2013. Per dare una spiegazione di questo comportamento, osserviamo un indice sintetico ovvero l’entropia relativa ai prezzi dei prodotti acquistati. Il cluster di individui per effetto della crisi tende a spendere meno mostra un aumento dell’entropia, che significa un cambiamento in termini di prezzo di acquisto dei beni; con alta probabilità c’è più attenzione al prezzo di prodotti acquistati. Invece, il cluster di individui con un aumento della spesa annua, mostra un indice di tendenza quasi costante dell’entropia, il che significa una minore attenzione al prezzo dei prodotti acquistati ed un aumento di fidelizzazione verso la catena. Una conferma di quanto rilevato viene dai dati ufficiali dove si osserva come più della metà degli intervistati mostra una diminuzione dell’ammontare dell’acquisto, o l’importo totale della spesa o sia l’importo che la qualità.

Nell’ottica di osservare la conciliazione dei tempi di vita e della famiglia, un tema impor-tante è comprendere come gli individui organizzano i loro acquisti. In “Discovering Regularities in Shopping through Temporal Purchasing Profiles for Retail Customers “ [GG17b] sono analizzate le regolarità che caratterizzano il comportamento di acquisto temporale della clientela retail dal punto di vista individuale e collettivo. Questo studio, iniziato durante il secondo anno, è stato oggetto di pubblicazione durante il terzo anno. L’approccio proposto è nuovo nel suo genere in quanto, solitamente, con questo tipo di dati viene osservato cosa le persone comprano mentre pochi nel passato si sono occupati di studiare quando gli individui effettuano la spesa. Le analisi sono state realizzate con software python, librerie sklearn, pandas, numpy, scipy.

GOODTECHS

3.1.3 Using OECD Open Data

Durante il III anno ho avuto la possibilità di applicare le conoscenze acquisite durante il dottorato nell’ambito di una nuova disciplina denominata Educational Data Mining. In “A data driven approach for evaluating foundation skills of adults” [ESP] mi occupo di una nuova tematica di ricerca nel contesto della quantificazione delle performance. Obiettivo è quello di capire come le variabili target (proficency levels di numeracy e literacy) siano legate alla applicazione della lettura, della scrittura, dell’uso della matematica competenze ICT nel tempo libero e sul lavoro. Attraverso tecniche di clustering e di visualizzazione di dati multidimensionali è stato osservato come gli individui oggetti di studio siano divisi in tre categorie di utenti: skilled workers, unskilled workers e individuals of labour market. Il gruppo dei lavoratori che applicano le loro conoscenze ICT nel tempo libero e a lavoro ha delle performance nei test più alte rispetto agli altri. Incide molto all’interno dei gruppi il fattore età.

Per realizzare l’estensione a Journal del lavoro sopra riportato [ESP], è stato replicato lo studio su 25 paesi a livello europeo ed extra europeo. L’aspetto interessante di questo studio è il fatto che possiamo confrontare la dimensione dei gruppi skilled workers, unskilled workers e individuals of labour market rispetto ai diversi paesi. Si può notare come l’Italia sia in forte difficoltà rispetto agli altri paesi rispetto alle skill utilizzate nel mondo del lavoro, al tempo stesso se osserviamo il dato italiano stratificato per macro regioni notiamo come le regioni del nord e del centro competono con la media europea senza particolari difficoltà.

3.2

Building SoBigData e-Infrastructure

SoBigData propone di crearea un Social Mining & Big Data Ecosystem: ovvero una research infrastructure (RI) che fornisce un ecosistema integrato per realizzare attività scientifica in modo etico e rispettoso della privacy. SoBigData si occupa di realizzare studi in diversi contesti applicativi e scientifici come il contesto matematico, ICT, e le scienze umane e socio economiche. Obiettivo è di abilitare una agile comparazione, riuso e integrazione di metodologie dello stato dell’arte nel contesto big social data. Non solo rafforzerà gli esistenti cluster di eccellenza nella ricerca sui dati

(8)

sociali, ma creerà anche una comunità Europea e interdisciplinare di scienziati attraverso attività di formazione, networking e innovazione.

Data Curation L’obiettivo del Dottorato di Ricerca è quello di partecipare alla creazione di un’infrastruttura di conoscenza per rendere accessibili nuove fonti di dati per diversi settori pub-blici/privati. Pertanto, la Data Curation diventa importante nell’ottica di rendere disponibili le sorgenti di dati e metadati nell’infrastruttura. Questa attività richiede un censimento dei diversi set di dati e metodi disponibili, e per ognuno di essi bisogna definire, il livello di informazioni da rilasciare e la modalità di accesso (cioè il download, ONSITE, webservices). Ho avuto modo di trattare diverse fonti di dati, tra cui tracce GPS digitali, telefoni cellulari o dati raccolti dal web. Il mio ruolo nel progetto è stato anche quello di fornire supporto ai ricercatori nel caso di Accesso ai dati presso i laboratori del CNR di Pisa.

Urban Mobility Atlas using mobile phone data I metodi devono essere accessibili attraverso la piattaforma. Di conseguenza, negli anni precedenti, ho consolidato la metodologia chiamata Urban Mobility Atlas e l’ha integrata nell’infrastruttura. Quest’anno, sono stato interessato ad estendere la metodologia utilizzando i dati del telefono cellulare. I dati di telefonia mobile ci danno la possibilità di risposte analiticamente le domande che si pone il mobility manager. Il processo di trasformazione dei dati grezzi nella conoscenza è molto complesso e è necessario fornire metafore di visualizzazioni comprensibili ai responsabili delle decisioni. Nell’ambito del progetto SoBigData, ho creato un tool che attraverso i dati cellulari consente di osservare la presenza nel territorio di visitatori, residenti e lavoratori a granularità quotidiana. Il destinatario di tale applicazione è l’amministratore pubblico, proponiamo un’interfaccia web che fornisce un’interfaccia di navigazione di risultato. Il servizio web è realizzato attraverso l’interazione di dbms postgres/postgis, python flask library and d3.js. I principali risultati evidenziati sono sia tecnici che metodologici. Innanz-itutto, la comunicazione di informazioni tramite tecniche di analisi visiva facilita la comprensione delle informazioni per quegli utenti che non hanno alcuna conoscenza tecnica o di dominio speci-fica. In secondo luogo, il sistema API garantisce la capacità di esportare gli aggregati in base alle grandezze richieste, consentendo agli altri attori di produrre nuovi servizi basati sui modelli estratti.

3.3

Mitigating the risk of privacy in using mobile phone data to detect

presence within municipality

Lo studio è stato realizzato nel contesto dell’Esploratorio “City of Citizens”. Poiché la procedura di Sociometro classifica gli utenti in base all’ora e al giorno delle chiamate, la nostra idea è di analizzare i profili non sicuri e rendere indistinguibili quelli profili che sono già abbastanza simili. La procedura descritta nel lavoro in corso di pubblicazione “Privacy-Aware Sociometer: a Mitigation Strategy for Quantication of City Users” [CP17b] prevede di assegnare gli elementi di un gruppo unsafe agli elementi del gruppo safe più simile, la procedura è ripetuta finché tutti i gruppi non sono assegnati o si verifica una condizione di terminazione. Per una piccolissima parte di profili non è possibile mitigare il rischio pertanto tali dati vengono rimossi. Nel nostro caso, la strategia di aggregazione dei profili è la media ponderata tra i gruppi finali di profili, ma potrebbero essere definite diverse politiche. Il modulo software è realizzato con tecniche map-reduce in hadoop-pyspark dato la necessità di analizzare grandi moli di dati.

3.4

Research periods in Qualified Institutions

Grazie al bando STM 2016/2 call ho avuto l’opportunità di effettuare una visita presso Eurostat, Directorate B: Methodology; corporate statistical and IT services, come riportato da documen-tazione allegata, fornita dall’ente ospitante. Coerentemente con il bando del progetto, durante il mio soggiorno a Eurostat presso il Directorate B, ho approfondito, con il team metodologico di Eurostat, riguardo a come impiegare i dei Big Data nel contesto dello studio degli obiettivi per lo sviluppo sostenibile (SDGs). Durante questa visita ho avuto l’opportunità di presentare il lavoro svolto durante il percorso di dottorato in tre occasioni pubbliche, a STATEC (Istituto Nazionale di statistica e studi economici di Lussemburgo) (21-11), un seminario interno (24-11) e un seminario presso l’Università del Lussemburgo (29-11). Inoltre ho interagito con diversi gruppo di lavoro di Eurostat che lavorano con i Big Data. Il periodo è stato di grande utilità perché ho avuto la

(9)

possibilità di esaminare il processo di produzione statistico del dato a livello europeo, con partico-lare attenzione al processo di valutazione della qualità del dato. Grazie a quanto imparato, potrò valutare in modo analitico quanto sono rappresentativi i dati su cui sto lavorando.

3.5

Thesis preparation

Il terzo anno è stato in buona parte dedicato alla preparazione della tesi, si ricorda come il la-voro voglia dimostrare come usare le diverse sorgenti di dato per misurare i sistemi complessi. Il lavoro svolto è anche confluito nel raggiungimento degli obiettivi proposti dalla research infras-tructure SoBigData.eu per la creazione di un Social Mining & Big Data Ecosystem che ponesse grande attenzione ai temi della responsible data science. Per il conseguimento del Ph.D., è stato enormemente vantaggioso poter lavorare a contatto con ricercatori provenienti da diversi contesti e discipline.

La tesi è cosi strutturata: dopo l’introduzione dei quesiti di ricerca alla base del lavoro (Capitolo 2), nel Capitolo 3 ho mostrato come realizzare un framework analitico capace di misurare la popo-lazione utilizzando tecniche di mining su dati cellulari. Lo studio è stato svolto in collaborazione con ISTAT e il laboratorio HPC del CNR di Pisa. Il Capitolo 3 riporta le seguenti pubblicazioni: [GG17c,CP17b,LGD+16a,LGD+16b,GFT+15]. Il Capitolo 4 ha trattato l’uso dei Big Data per il nowcasting degli indicatori di sviluppo dei territorio. Lo studio è stato sviluppato congiuntamente in collaborazione con il telecomando francese Orange Telecom. Sempre in questo capitolo è stato mostrato come utilizzare i dati di acquisto dei supermercati per realizzare indicatori economici quali ad esempio la misurazione del costo della vita. Questa attività è stata condotta in collaborazione con una catena di distribuzione (UNICOOP-TIRRENO). Il Capitolo 4 riporta il lavoro oggetto delle seguenti pubblicazioni: [PVG+,CP17a,GRP, MGP+15]. Il Capitolo 5 mostra alcuni casi

applicativi relativi allo studio della mobilità delle persone (event detection, new borders of cities). Gli studi sono condotti in collaborazione con IRPET e WIND-TRE telecommunication. Infine, nel Capitolo 5 sono riportati i seguenti lavori: [Fur17,GG17a]. Il processo di trasformazione dei dati in conoscenza è molto complesso e è necessario fornire metafore di visualizzazioni comprensibili ai responsabili delle decisioni. NEl Capitolo 6 proponiamo una piattaforma analitica che estrae informazioni sulla mobilità degli individui dai dati GPS veicolari e dal telefono cellulare applicando metodologie di Data Mining sia presenti in letteratura che realizzate come parte di questa tesi. Il Capitolo 7 conclude la tesi e indica alcuni problemi aperti.

4

List of all Pubblications

Qui sono riportate tutte le pubblicazioni effettuate durante i tre anni, suddivise per categoria, inclusive delle pubblicazioni che non sono state incluse nella tesi di dottorato.

International Journals

1. Furletti, B., Trasarti, R., Cintia, P., & Gabrielli, L. (2017, June). Discovering and Under-standing City Events with Big Data: The Case of Rome. Journal of Information. Multidis-ciplinary Digital Publishing Institute. 8(3), 74.

2. Calastri, C., Hess, S., Choudhury, C., Daly, A., & Gabrielli, L. (2017, April). Mode choice with latent availability and consideration: theory and a case study. Transportation Research Part B: Methodological.

3. Lulli, A., Gabrielli, L., Dazzi, P., Dell’Amico, M., Michiardi, P., Nanni, M., & Ricci, L. (2016, December). Scalable and flexible clustering solutions for mobile phone based population indicators. International Journal of Data Science and Analytics.

4. Pappalardo, L., Vanhoof, M., Gabrielli, L., Smoreda, Z., Pedreschi, D., & Giannotti, F. (2016, February). An analytical framework to nowcast well-being using mobile phone data. International Journal of Data Science and Analytics, 1-18.

5. Marchetti, S., Giusti, C., Pratesi, M., Salvati, N., Giannotti, F., Pedreschi, D., & Gabrielli, L. (2015, June). Small area model-based estimators using big data sources. Journal of Official Statistics, 31(2), 263-281.

(10)

International Conferences/Workshops with Peer Review

1. Lulli, A., Gabrielli, L., Dazzi, P., Dell’Amico, M., Michiardi, P., Nanni, M., & Ricci, L. (2016, June). Improving population estimation from mobile calls: a clustering approach.In 2016 IEEE Symposium on Computers and Communication (ISCC) (pp. 1097-1102). IEEE. 2. Gabrielli, L., Furletti, B., Trasarti, R., Giannotti, F., & Pedreschi, D. (2015, October).

City users’ classification with mobile phone data. In Big Data (Big Data), 2015 IEEE International Conference on (pp. 1007-1012). IEEE.

3. Gabrielli, L., Guido, D., Giannotti, F., & Bastiani, L. (2016, April). A Syntethic Measure-ment for Political EngageMeasure-ment of Spending: Pilot study to measure performance of local government using Open Government Data.

4. Campagni, R.,Gabrielli, L., Giannotti, F., Guidotti, R., Maggino, F. and D. Pedreschi. (2016, February). In DATA SCIENCE & SOCIAL RESEARCH (DSSR). International Conference. Measuring Wellbeing extracting Social Indicators from Big Data.

National Conferences/Workshops with Peer Review

1. Guidotti, R. and L. Gabrielli (2017, July). Recognizing Residents and Tourists with Retail Data Using Shopping Profiles. GOODTECHS 2017.

2. Campagni, R.,Gabrielli, L., Giannotti, F., Guidotti, R., Maggino, F. and D. Pedreschi. (2017,June). Measuring Wellbeing extracting Social Indicators from Big Data. Scuola Ital-iana di Statistica (SIS) 2017. Scuola ItalItal-iana di Statistica.

3. Bocci,C., Fadda, D., Gabrielli, L., Nanni, M. and L. Piccini. (2017, June). Using GPS Data to Understand Urban Mobility Patterns: An Application to the Florence Metropolitan Area. Scuola Italiana di Statistica (SIS) 2017. Scuola Italiana di Statistica.

4. Elena Salvatori, Lorenzo Gabrielli, Fosca Giannotti and Dino Pedreschi. A Data Driven approach for evaluating foundation skills of adults. DIDAMATICA 2017

5. Gabrielli,L., Riccardi, G. and Pappalardo, L. (2016, June). Using retail market Big Data to nowcast Customer Price Index. Scuola Italiana di Statistica (SIS) 2016. Scuola Italiana di Statistica.

Submitted

1. Guidotti, R., Gabrielli, L., Monreale, A., Pedreschi, D. and F. Giannotti (2017, Septem-ber). Discovering Temporal Regularities in Retail Customers’ Shopping Behavior. EPJ Data Science 2017.

2. Gabrielli, L., Fadda, D., Rossetti, G., Nanni, M., Piccinini, L., Lattarulo, P., Pedreschi, D. and F. Giannotti (2017, October). Discovering Mobility Functional Areas: A Mobility Data Analysis Approach (Complenet).

3. Privacy-Aware Sociometer: a Mitigation Strategy for Quantication of City Users. Cintia, P., Gabrielli, L., Giannotti F., Monreale, A. and Francesca Pratesi (in preparation).

References

[BP17] Fadda D. Gabrielli L. Nanni M. Bocci, C. and L. Piccini. Using gps data to understand urban mobility patterns: An application to the florence metropolitan area, 2017. [CP17a] Gabrielli L. Giannotti F. Guidotti R. Maggino F. Campagni, R. and D. Pedreschi.

Measuring wellbeing extracting social indicators from big data., 2017.

[CP17b] Gabrielli L. Giannotti F. Monreale A. Cintia, P. and Francesca Pratesi. Privacy-aware sociometer: a mitigation strategy for quantication of city users., 2017.

(11)

[FB15] Trasarti R. Smoreda Z. Vanhoof M Ziemlicki C. Furletti B., Gabrielli L. Detecting and understanding big events in big cities. 2015.

[Fur17] Trasarti R. Cintia P. & Gabrielli L. Furletti, B. Discovering and understanding city events with big data: The case of rome. 2017.

[GFT+15] Lorenzo Gabrielli, Barbara Furletti, Roberto Trasarti, Fosca Giannotti, and Dino Pedreschi. City users’ classification with mobile phone data. In Big Data (Big Data), 2015 IEEE International Conference on, pages 1007–1012. IEEE, 2015.

[GG17a] Fadda D. Rossetti G. Nanni M. Piccinini L. Lattarulo P. Pedreschi D. Gabrielli, L. and F. Giannotti. Discovering mobility functional areas: A mobility data analysis approach, 2017.

[GG17b] Gabrielli L. Monreale A. Pedreschi D. Guidotti, R. and F. Giannotti. Discovering temporal regularities in retail customers’ shopping behavior., 2017.

[GG17c] R. Guidotti and Lorenzo Gabrielli. Recognizing residents and tourists with retail data using shopping profiles. 2017.

[GRP] Lorenzo Gabrielli, Giovanni Riccardi, and Luca Pappalardo. Using retail market big data to nowcast customer price index.

[LGD+16a] Alessandro Lulli, Lorenzo Gabrielli, Patrizio Dazzi, Matteo Dell’Amico, Pietro Michiardi, Mirco Nanni, and Laura Ricci. Improving population estimation from mobile calls: A clustering approach. In Computers and Communication (ISCC), 2016 IEEE Symposium on, pages 1097–1102. IEEE, 2016.

[LGD+16b] Alessandro Lulli, Lorenzo Gabrielli, Patrizio Dazzi, Matteo Dell’Amico, Pietro Michiardi, Mirco Nanni, and Laura Ricci. Scalable and flexible clustering solutions for mobile phone-based population indicators. International Journal of Data Science and Analytics, pages 1–15, 2016.

[MGP+15] Stefano Marchetti, Caterina Giusti, Monica Pratesi, Nicola Salvati, Fosca Giannotti,

Dino Pedreschi, Salvatore Rinzivillo, Luca Pappalardo, and Lorenzo Gabrielli. Small area model-based estimators using big data sources. Journal of Official Statistics, 31(2):263, 2015.

[PVG+] Luca Pappalardo, Maarten Vanhoof, Lorenzo Gabrielli, Zbigniew Smoreda, Dino Pe-dreschi, and Fosca Giannotti. Estimating economic development with mobile phone data.

Riferimenti

Documenti correlati

◼ è la più grande collezione Open Data di tweet su questo tema. ◼ Ciascun gruppo dovrà analizzare solo un sotto-campione di

The students will learn, and practice, advanced query processing techniques for relational databases as well as alternative data models and languages (XML databases).. Moreover,

Each edition of a course is characterized by a starting date, an ending date, a duration, a venue, a set of teachers (one or more), and a set of attendees (employees of the

• Each film is characterized by the title, the year during which it has been released, the production country, the producer, the film maker, the actors, and the actresses.. The set

• Each show is identified by a number, which univocally identifies it within the artistic event it belongs to (the first show of event E27, the second show of event E27, and so on),

Let every film be univocally identified by a code and characterized by a title, a filmmaker, and the year when it has been released.. For the sake of simplicity, let as assume each

Let every film be univocally identified by a code and characterized by a title, a filmmaker, and the year when it has been released.. For the sake of simplicity, let us assume each

For the sake of simplicity, let us assume each film to be directed by a single filmmaker and each filmmaker to be univocally identified by his/her surname.. Let us consider