Presentiamo in questa sezione un caso di studio per cui si effettua un’analisi sempre a livello di granularità spaziale di zona OMI, per mostrare come questo strumento riesce a portare alla luce le differenze comportamentali in tipi di aree diverse. In futuro, questa caratteristica potrebbe essere utilizzata per sviluppare un processo di classificazione dei quartieri attraverso l’osservazione delle distribuzioni temporali delle presenze rilevate tramite CDR. In particolare, abbiamo messo a confronto due quartieri del comune di Pisa, la zona E1, che coincide con l’area industriale di Ospedaletto, e la zona E2, corrispondente al litorale che va da Marina
Figura 5.11: Confronto daily distribution tra la zona B1 del centro (in alto) e quella in periferia R3 (in basso). Grazie alla differenziazione tra zone riusciamo a catturare andamenti diversi in questo tipo di distribuzione. Soprattutto nella zona di periferia la vista è caratteristica del tipo di area in analisi.
di Pisa passa per Tirrenia ed arriva a Calambrone. Questo esempio, invece, sempre in riferimento alle domande che ci siamo posti nella Sezione 2.1, risponde alla domanda 2 (Qual è la destinazione d’uso del territorio?). Infatti, vogliamo dimostrare che è possibile rispondere alla domanda osservando i comportamenti rilevati.
Nella Sezione descriviamo i risultati ottenuti per le due zone OMI in esame sempre in rapporto ai layer analitici presenti sulla web application.
Zona E1 La prima zona, secondo la legenda dell’Agenzia delle Entrate, si tratta dell’area Suburbana del comune di Pisa con identificativo 1. Ossia la zona industriale
Figura 5.12: Confronto origin distribution tra la zona B1 del centro (in alto) e quella in periferia R3 (in basso). Innanzitutto, notiamo la differenza nella composizione dei comuni di provenienza dei visitatori per l’una e l’altra zona in analisi. Poi, indicativa è la diversa percentuale di persone che provengono da "altri" comuni.
Ospedaletto, che, come possiamo vedere in Figura 5.13, non ha punti di interesse che appartengono alla categoria Turismo. Questo perché si tratta di una zona industriale all’interno della quale non è previsto l’afflusso di turisti.
Analizzando le distribuzioni temporali giornaliere degli utenti, rileviamo anda- menti regolari più o meno per tutte le categorie di utente, come indicato in Figura 5.14, senza particolari picchi di un qualche interesse.
Per quanto riguarda la distribuzione temporale rispetto l’ora ed il giorno della settimana, in Figura 5.15 viene rappresentata la settimana tipo nella zona E1. Come era possibile immaginare, la maggior parte delle presenze sono state registrate durante le ore lavorative ed i giorni feriali. Probabilmente a causa della natura industriale dell’area.
Figura 5.13: Visualizzazione della Zona OMI E1 sulla mappa della web application indicata con un contorno blu spesso. Sulla mappa del comune sono indicati con dei pallini rossi i punti di interesse appartenenti alla classe Tourism.
Figura 5.14: Temporal Distribution nella Zona OMI E1 normalizzata (in alto) e con valori assoluti (in basso). Per tutte le classi di utenti viene registrato un andamento omogeneo. Nello specifico quando osserviamo le presenze rilevate tramite valori assoluti, la classe di utente maggiormente presente è quella dei residenti.
Per la scarsità di presenze rilevate durante i giorni festivi, la daily distribution in Figura 5.16 mostra un andamento simile per le due tipologie di giorni.
Un’ulteriore informazione che abbiamo voluto estrapolare è la provenienza dei pendolari rilevati nella zona. In questo caso specifico il numero di utenti di questa classe rilevato non è molto alto. In Figura 5.17 vengono mostrate le provenienze dei
Figura 5.15: Temporal Matrix nella Zona OMI E1. La maggiore intensità di presenze viene rilevata nei giorni che vanno dal lunedì al venerdì e dalle 09 alle 18. La vista descrive la settimana tipica di una zona lavorativa.
Figura 5.16: Daily Distribution nella Zona OMI E1. Gli andamenti delle due curve presentano gli stessi picchi, nonostante durante le ore pomeridiane dei giorni festivi la distribuzione delle presenze mostri un calo significativo.
pendolari rilevati nel giorno della loro maggior affluenza nella zona E1. Nel caso in cui ci fossimo trovati in una zona con una forte affluenza di pendolari, avere le informazioni sui loro comuni di residenza poteva essere interessante per effettuare osservazioni e ragionamenti sulla mobilità locale. Ma anche il numero esiguo di utenti pendolari rilevati in una zona comunque industriale potrebbe essere indicativo della composizione dei lavoratori presenti in una zona.
I risultati relativi a questa zona rispettano le nostre aspettative di trovarci di fronte a comportamenti caratteristici di una zona industriale in cui gli utenti
Figura 5.17: Origini dei commuter affluenti nella zona E1 il 12-11-2015. Dato il numero esiguo di pendolari rilevati i risultati ottenuti non aiutano a fare dei ragionamenti interessanti.
vengono rilevati perlopiù durante l’orario lavorativo. Inoltre, in base alla Temporal Distribution analizzata prima (Figura 5.14) possiamo azzardare di affermare che la zona rappresenta il luogo di lavoro di utenti che risiedono nel comune di Pisa piuttosto che di pendolari provenienti da altri comuni, poiché la distribuzione dei pendolari è molto bassa in quest’area.
Zona E2 Nella seconda zona analizzata, troviamo una situazione nettamente diversa, trattandosi di località balneari. Anche questa area viene classificata secondo l’Agenzia delle Entrate come Suburbana. Nell’area, come si vede dalla Figura 5.18, abbiamo la presenza di punti di interesse di natura turistica. Per cui nelle nostre analisi rileviamo situazioni diverse rispetto all’area analizzata in precedenza.
Figura 5.18: Zona OMI E2. Viene qui presentata una zona di carattere diverso dalla precedente E1. Innanzitutto, questa racchiude alcune delle località balneari più frequentate del comune di Pisa. Inoltre, al suo interno, al contrario della situazione precedente, notiamo la presenza di POI afferenti alla classe Tourism (pallini rossi).
Innanzitutto, nella Temporal Distribution giornaliera in Figura 5.19 notiamo come la differenza tra residenti e visitatori sia maggiore di quella registrata nell’altra area (E1). Inoltre, le classi di utenti presentano comportamenti notevolmente diversi. In particolare, i visitatori presentano dei picchi interessanti durante i giorni festivi (sabato e domenica).
Figura 5.19: Temporal Distribution nella Zona OMI E2 normalizzata e con valori assoluti. Nelle distribuzioni giornaliere di questa zona troviamo degli andamenti nettamente diversi. Se osserviamo la distribuzione con valori assoluti, anche qui i residenti sono maggiori però qui presentano un andamento quasi lineare. Mentre, per quanto riguarda i visitatori ed i dynamic_resident questi hanno dei picchi di presenze interessanti durante il fine settimana.
Anche per quanto riguarda la Temporal Matrix in Figura 5.20 troviamo una rappresentazione diversa della settimana tipo, ossia vengono rilevati utenti perlopiù nel fine settimana e nelle ore di pranzo e cena, probabilmente perché come abbiamo visto in Figura 5.19 durante il fine settimana nella zona tornano i dynamic_resident e vi è l’affluenza dei visitatori.
Nella Daily Distribution notiamo un andamento differente durante i giorni festivi, per cui abbiamo più utenti in questi giorni durante le ore del pranzo rispetto ai giorni feriali. Questa caratteristica esplicita il fatto che zone turistiche come questa sono soggette al traffico di utenti più durante i giorni festivi che in quelli feriali in quelle fasce orarie in cui nelle zone residenziali viene registrato il comportamento contrario. Per questa zona abbiamo voluto osservare la composizione dei visitatori
Figura 5.20: Temporal Matrix nella Zona OMI E2. Durante la settimana, nei giorni feriali non viene registrata una forte intensità di presenze. Questo perché la zona è prettamente balneare ed il periodo in analisi non appartiene alla stagione estiva. Quindi le presenze rilevate sono quelle delle persone che frequentano la zona nel fine settimana.
Figura 5.21: Daily Distribution nella Zona OMI E2. In questa vista viene esplicitato il comportamento registrato in Figura 5.20 tramite il picco di presenze rilevate durante l’ora di pranzo nei giorni festivi.
rilevati. In questo caso abbiamo osservato le presenze di visitatori rilevati nel giorno della loro massima affluenza, corrispondente ad una domenica. I risultati sono quelli mostrati in Figura 5.22 secondo i quali nella zona abbiamo una forte affluenza di visitatori livornesi. Questo comportamento è osservabile per ogni domenica del mese, alle quali corrispondono i picchi di presenze dei visitatori.
Figura 5.22: Origini dei visitor affluenti nella zona E2 (litorale pisano) nella domenica 08-11-2015. Dopo gli utenti provenienti da "altri" comuni, i visitatori più rilevati sono quelli provenienti dal comune di Livorno con una percentuale molto alta (29.3%).
I comportamenti registrati in questa zona differiscono molto da quelli rilevati nella precedente. Nonostante le informazioni sulle presenze a nostra disposizione riguardano un periodo diverso da quello estivo, durante il quale avremmo rilevato comportamenti ancora diversi, possiamo comunque fare dei ragionamenti e delle osservazioni interessanti riguardo i comportamenti degli utenti.
5.3
Stagionalità dei turisti nel comune di Firenze
Nella Sezione, osserviamo come cambia la composizione dei turisti affluenti nel comune di Firenze (Figura 5.23) in base al periodo di dati disponibile. Questo caso di studio, dimostra che tramite MAB è possibile rispondere alla domanda 3 (Quali sono i periodi in cui è più visitato il territorio?) introdotta in Sezione 2.1. In particolare, grazie allo strumento proposto rendiamo disponibili le informazioni sui periodi di affluenza sia rispetto la distribuzione delle presenze dei visitatori per giorno del mese (Figura 5.24 (a)) sia rispetto il giorno della settimana e l’ora (Figura 5.24 (b)). Si ricorda come l’applicazione consente di calcolare il comune di residenza per ogni utente, pertanto per un dato visitatore nel comune in un determinato giorno siamo in grado di inferire la sua provenienza.
Di seguito analizziamo tre tipi di giorni diversi, il giorno della festa di Tutti i Santi, un martedì ed una domenica, e per ognuno mostriamo la distribuzione delle residenze dei visitatori registrati.
Festa di Tutti i Santi, 2015 In questo paragrafo, mostriamo la composizione dei visitatori che sono stati rilevati nel comune di Firenze il 01/11/2015. Nella Figura 5.25 è possibile visualizzare la distribuzione percentuale dei comuni di residenza dei visitatori che, come possiamo vedere nell’immagine, in quel giorno ammontavano
Figura 5.23: Comune di Firenze mostrato sulla mappa della web application, suddiviso in quartieri.
a 24,634. Per quanto riguarda la distribuzione delle "origini", oltre all’enorme percentuale di visitatori aventi la residenza in comuni classificati come Other, ossia non toscani, notiamo al secondo posto Prato e al quarto posto Pisa.
Martedì, 3 Novembre 2015 Abbiamo voluto osservare un giorno della settimana per vedere come cambia la distribuzione delle provenienze dei visitatori nel comune di Firenze da un giorno festivo ad uno feriale. In Figura 5.26 leggiamo che i visitatori nel comune in quel giorno erano 28,087, inaspettatamente maggiori rispetto al giorno festivo. Per quanto riguarda la distribuzione delle residenze dei visitatori osserviamo una leggera diminuzione di quelli provenienti dai comuni Other (di circa l’8.4%). Per il resto notiamo come cambia la composizione della graduatoria delle provenienze, in questo caso Pisa si trova all’ultimo posto.
Domenica, 8 Novembre 2015 Infine, osserviamo la distribuzione delle prove- nienze dei visitatori nel comune di Firenze in una domenica. Il numero dei visitatori in quel giorno è indicato in Figura 5.27 ed ammonta a 25,672, inferiore rispetto il giorno feriale analizzato e maggiore in confronto al giorno di Tutti i Santi. Nonostan- te ciò, per quanto riguarda la composizione dei visitatori rispetto i loro comuni di provenienza, notiamo una situazione molto simile a quella osservata per il 01/11/2015. Infatti, il comune di Pisa è tornato ad essere al quarto posto tra i comuni toscani dai quali provengono visitatori. Dato il comportamento rilevato, possiamo pensare che probabilmente le persone residenti a Pisa preferiscono visitare Firenze durante i giorni festivi e non durante la settimana. Osservazioni di questo tipo potrebbero essere utili per effettuare programmazioni dei trasporti pubblici mirate ad una determinata area
(a) Temporal Distribution (b) Temporal Matrix
Figura 5.24: Sulla sinistra possiamo osservare la distribuzione temporale dei visita- tori per giorno del mese (a). Sulla destra abbiamo la distribuzione delle presenze
dei visitatori per giorno della settimana e per ora (b). Queste visualizzazioni ci permettono di sapere quali sono i periodi del mese, della settimana o del giorno più visitati.
Figura 5.25: Origin distribution dei visitatori nel giorno 01/11/2015 nel comune di Firenze. Alla selezione di un punto della Temporal distribution (a destra), ossia di un giorno, l’applicazione mostra la distribuzione delle provenienze dei visitatori in quel giorno. Per aree visitate da turisti provenienti da tutto il mondo, come Firenze, è naturale avere un’alta percentuale di origini non appartenenti al territorio toscano (Other ).
di provenienza. Per esempio, in questo caso si potrebbe decidere di incrementare i trasporti pubblici che collegano Pisa a Firenze durante i giorni festivi.
Figura 5.26: Origin distribution dei visitatori nel giorno 03/11/2015 nel comune di Firenze. É interessante osservare come è cambiato l’ordine dei comuni di residenza dei visitatori.
Figura 5.27: Origin distribution dei visitatori nel giorno 08/11/2015 nel comune di Firenze. Il prospetto che si può osservare in questa vista è molto simile a quello osservato per il 01/11/2015.
5.4
Relazione tra costo delle abitazioni e presenze
sul territorio
In questa sezione, riportiamo l’analisi comparativa che abbiamo effettuato tra i dati di densità delle presenze, calcolate con i mobile phone data e l’applicazione Sociometro, e le quotazioni immobiliari associate alle aree dall’Agenzia delle Entrate. Questo caso vuole essere un esempio di un possibile servizio da servire all’esterno. Ossia, ci serviamo delle API implementate, per ottenere informazioni sulle presenze su diverse aree territoriali e le poniamo in correlazione con dati socio-economici. Vogliamo dimostrare come, avendo a disposizione informazioni quali, per esempio, le presenze alberghiere o le rilevazioni riguardanti la produzione di rifiuti, si potrebbero creare indicatori puntuali utili per la misurazione dell’impatto delle persone sulla
città.
Per calcolare la correlazione tra le due misure, densità delle presenze e valore medio di vendita, per ogni quartiere nel dataset, innanzitutto, abbiamo calcolato le presenze minime, massime, la mediana, la media e la standard deviation. Tale calcolo è stratificato per ogni categoria di utente. Successivamente, le presenze sono standardizzate rispetto la dimensione delle aree in analisi (km2). Quindi, per ogni
area, per ogni categoria di individuo, abbiamo a disposizione cinque diverse misure riguardo la densità delle presenze. Abbiamo calcolato le correlazioni, tra le misure di densità delle presenze e i valori medi (in euro) di vendita delle abitazioni per ogni area. Il valore medio di vendita delle abitazioni è ricavato dai dati dell’Agenzia di cui abbiamo già parlato in Sezione 1.2, infatti, ricordiamo che dopo opportuna richiesta, l’ente ci ha fornito i valori massimi e minimi di vendita, dai quali abbiamo potuto ricavare la misura economica.
I risultati che abbiamo ottenuto dalla correlazione effettuata sono mostrati in Tabella 5.1.
label std max min median mean
dynamic resident 0.091 0.12 0.144 0.155 0.154 commuter 0.275 0.291 0.242 0.27 0.27 passing by 0.073 0.102 -0.046 0.048 0.047 resident 0.337 0.34 0.329 0.333 0.334 visitor 0.14 0.161 0. 0.171 0.178 all 0.25 0.298 0.311 0.30 0.304
Tabella 5.1: Risultato della correlazione tra i valori sulle presenze di ogni classe di utente ed il valore di vendita medio di una zona. Per ogni classe di utente effettuiamo la correlazione utilizzando l’indice di Pearson tra il valore medio di vendita della zona ed i valori di presenze di standard deviation, massimo, minimo, mediana e media.
Nella Tabella osserviamo correlazioni deboli tra la presenza sul territorio e i valori immobiliari, sia effettuando un’analisi stratificata per categoria di utente che sul totale delle presenze. Gli indici di correlazione più alti li abbiamo per la categoria dei residenti con valori che raggiungono lo 0.34. Sarebbe interessante vedere come variano questi valori se prendessimo in considerazione periodi più lunghi di un mese, poiché dai risultati ottenuti possiamo solo dire che non è sufficiente il semplice computo delle presenze su un territorio per spiegare appieno l’andamento delle quotazioni immobiliari. Inoltre, il valore medio di vendita è calcolato a livello semestrale e forse non riesce a catturare adeguatamente il fenomeno che vogliamo osservare.
Conclusioni
Il lavoro di tesi ha descritto le diverse fasi che hanno portato alla creazione del Mobility Atlas Booklet, la piattaforma per la navigazione di indicatori quantitativi sulle presenze dei diversi tipi di utente che insistono sul territorio (residenti, turisti, lavoratori).
Il percorso svolto ha riguardato le seguenti fasi. In primo luogo, è stato condotto uno studio della letteratura del contesto scientifico in cui questo lavoro si colloca (Sezione 1.1). In questo modo è stato definito il problema al quale il progetto di tesi ha poi fornito una soluzione (Sezione 2.1), ossia abbiamo identificato gli ambiti in cui il risultato della tesi può trovare applicazione.
Successivamente, durante l’analisi dei requisiti sono emersi due aspetti fonda- mentali. Il primo riguarda la necessità di compiere analisi su piccola scala, mentre il secondo si concentra sulla scalabilità e la fruibilità dei dati sui quali vogliamo effettuare le analisi. Per effettuare analisi alla granularità desiderata abbiamo raccolto nuovi dati geografici che sono diventati la granularità minima di riferimento delle analisi successive (OMI Sezione 1.2). Per soddisfare quest’ultimo aspetto si è deciso di progettare una struttura dati distribuita secondo il paradigma NoSQL (Capitolo 2).
Per svolgere gli esperimenti riportati sono state applicate metodologie (Sociometro [8] Sezione 1.3.1) ai dati di telefonia (CDR Sezione 1.2) messi a disposizione dal laboratorio ospitante. Abbiamo dimostrato una possibile applicazione degli strumenti sviluppati dal laboratorio e abbiamo proposto un’estensione del framework UMA (Sezione 1.1).
Dopo aver raccolto i dati necessari, per poter popolare la struttura di archiviazione progettata è stato realizzato un processo di elaborazione di dati telefonici e di dati geometrici (Sezione 3.1). Il processo di ETL ha richiesto la realizzazione di procedure di data cleaning e di data integration e, tramite un programma Python, ha prodotto le serie temporali che popolano la struttura dati distribuita. Il dataset costruito contiene le dimensioni spazio-temporali secondo le quali effettuare le varie aggregazioni (Sezione 3.2).
In seguito, per poter accedere ai dati memorizzati abbiamo sviluppato dei micro- servizi API (Sezione 4.1) sfruttando la tecnologia Flask per l’implementazione e
apiDoc per la documentazione. Nel dettaglio, sono state implementate due funzioni per il calcolo delle time series e delle origin degli utenti presenti nei CDR. I risultati di queste due funzioni vengono rappresentati tramite dei grafici sulla piattaforma di MAB (Sezione 4.2). I grafici rappresentati con d3.js riguardano le distribuzioni delle presenze stratificate per categoria d’utente per giorno del mese (a linee), per giorno della settimana e per ora (a matrice) e per origine degli utenti (a barre).
L’intero lavoro mi ha permesso di apprendere nuovi metodi di organizzazione, gestione ed interrogazione di dati relativi al movimento della popolazione di un territorio provenienti da sorgenti di Big Data di telefonia mobile. Tali dati possono essere utilizzati per realizzare processi analitici volti alla comprensione di fenomeni di mobilità quali: rilevazione di eventi, attrattività del territorio, stagionalità delle presenze.
Nella tesi abbiamo illustrato il Mobility Atlas Booklet come un potente strumento di analisi per diversi tipi di utenti che rende accessibili le informazioni territoriali attraverso un sistema API ed una dashboard facilmente navigabile. Si tratta di un’applicazione web che mostra diversi indicatori riguardanti l’insistenza di presenze su un territorio. Quello proposto, quindi, è un sistema in cui processi analitici complessi vengono riassunti in un insieme di indicatori quantitativi delle principali ca- ratteristiche comportamentali di un territorio. Grazie alla web application sviluppata, diamo la possibilità di selezionare un’area geografica e di visualizzare questi indicatori per essa. Tramite i casi d’uso presentati nel Capitolo 5, abbiamo dimostrato che MAB riesce ad essere un ottimo strumento per la event detection (Sezione 5.1), offre degli indicatori utili a scoprire il territorio e la sua destinazione d’uso (Sezione 5.2) e fornisce un prospetto sulla composizione delle persone che vi insistono (Sezione 5.3). Abbiamo però dimostrato che effettuare dei ragionamenti unicamente sulla densità delle presenze su un territorio, seppure stratificata per categoria d’utente, non è sufficiente a fornire spiegazioni riguardanti l’andamento del mercato immobiliare (Sezione 5.4).
Future works
L’infrastruttura è stata realizzata per garantire un’evoluzione dello strumento. In futuro l’applicazione web potrebbe essere estesa con funzionalità aggiuntive quali: 1. La possibilità di effettuare confronti tra le distribuzioni delle presenze di utenti
in diverse aree;
2. Una classificazione automatica delle aree in analisi in base alla destinazione d’uso prevalente nella zona, residenziale o lavorativa (al momento è possibile fare un raffronto visivo grazie ad una misura ad hoc);
3. L’uso di una base di dati CDR nazionale che riesca a mostrare le presenze dal livello di granularità della nazione a quello del quartiere e permetta, quindi, di analizzare tutte le regioni italiane.