• Non ci sono risultati.

C APITOLO 1: I DATI SUL T RAFFICO “M OBILE ”

N/A
N/A
Protected

Academic year: 2021

Condividi "C APITOLO 1: I DATI SUL T RAFFICO “M OBILE ”"

Copied!
8
0
0

Testo completo

(1)

9

C

APITOLO

1:

I

DATI SUL

T

RAFFICO

“M

OBILE

1.1 L’

INIZIATIVA

“O

PEN

B

IG

D

ATA

All'inizio del 2014 (Gennaio), Telecom Italia, in collaborazione con diversi partner internazionali (EIT ICT Labs, SpazioDati, MIT Media Lab, Università Politecnico di Milano, Fondazione Bruno Kessler, Università di Trento e TrentoRISE), ha lanciato la prima edizione del "Big Data Challenge”, un concorso destinato a stimolare la creazione e lo sviluppo di idee tecnologiche innovative nel campo Big Data. Il concorso metteva a disposizione di sviluppatori, designer e scienziati un grande insieme di dataset di oltre 30 tipi di dati (rete mobile, tempo, energia, social networks), georeferenziati (per le aree di Milano e la Provincia Autonoma di Trento) e anonimi. L'insieme dei dataset conteneva milioni di dati relativi al periodo da Novembre a Dicembre 2013 estratti dai record di apparati per telecomunicazioni, dei gestori di energia, degli enti di trasporto pubblico e privato. Ad Aprile 2014 il contest si è concluso con un bilancio molto positivo considerando i 1131 partecipanti provenienti da più di 20 paesi nel mondo, con un ammontare di oltre 100 proposte di progetti innovativi e con la premiazione dei 3 progetti vincitori nelle 3 aree tematiche proposte ((Data Analytics, Data Visualization e Sviluppo App) [7] [8].

I dataset del contest erano stati rilasciati solo per essere utilizzati dai partecipanti all’interno dell’iniziativa. Dopo la fine del concorso, però, la domanda di quelle serie di dati è cresciuta notevolmente ed è per questo che a Dicembre 2014 è nata l'iniziativa "Open Big Data". Promosso e realizzato da FBK - nodo Trento ODI, SpazioDati e Telecom Italia - SKIL Semantic & Conoscenza Innovation Lab, il progetto ha reso disponibili i dataset dell’appena concluso Challenge Telecom Italia sotto forma di Open Data, per rendere possibile un loro utilizzo ad un pubblico molto più ampio ed eterogeneo di quello che già aveva partecipato al contest ufficiale. Lo spirito di fondo era sintetizzato nello slogan “The Telecom Italia Big Data Challenge now is Open Data” [9].

1.2 I

DATASET

Tutti i dati messi a disposizione da Open Big Data sono stati archiviati sulla piattaforma dandelion.eu all’indirizzo https://dandelion.eu/datamine/open-big-data/ . Del processo di storaging si è occupato SpazioDati che, in qualità di uno dei partner tecnici originali del concorso Big Data Challenge, ha avuto il ruolo di fornire un modo economico per accedere

(2)

10

a tutti i dati relativi alla sfida, scegliendo, a suo tempo, proprio dandelion.eu come piattaforma originale. Per l’accesso ai dataset di interesse è necessaria la creazione di un account sul portale. Ciò non implica alcun vincolo o obbligo (se non quelli legati alla licenza d’uso dei dati) ma è utile alla creazione di statistiche di “audience” per le aree tematiche di appartenenza dei dati scaricati.

I dati sono resi disponibili all’utente finale in “batch mode”, utilizzando file scaricabili in formato compresso, o tramite API. L'accesso attraverso API consente ad un pubblico specifico di utilizzare i dati in modo più rapido, semplice ed efficiente, nel caso in cui sia previsto un uso pre-determinato delle informazioni.

Tutti i dataset sono stati rilasciati sotto licenza “Database Open License” (ODbL v1.0). ODbL copre espressamente i dati e non solo le opere creative, come fotografie o testo. Una sintesi della licenza ODbL è disponibile sul sito Open Data Commons [10]. Secondo le specifiche della licenza è consentito “condividere” (copiare, distribuire e utilizzare il database), “creare” (realizzare opere dal database) e “adattare” (modificare, trasformare e sviluppare il database stesso). ODbL richiede anche di condividere sotto la stessa licenza anche eventuali miglioramenti apportati ai dati di origine: ad esempio, se si combinano le informazioni con i propri dati, le informazioni risultanti devono essere pubblicate con la specifica “ODbL Attribution Share-Alike”.

Infine, l’uso dei dati offerti dall’Open Big Data, prevede l’inclusione del link "from BigDataChallenge contest" (http://www.telecomitalia.com/tit/en/bigdatachallenge.html) e il link all’homepage dell’Open Data Institute - node Trento (http://theodi.fbk.eu/).

1.3 I

DATI SU

M

ILANO

Nella lista dei dataset offerti dall’Open Big Data e fruibili attraverso il portale dandelion.eu, di particolare interesse per lo studio affrontato in questo elaborato sono risultati i dataset relativi alla città di Milano. Nello specifico sono state prese in esame le informazioni estratte dagli apparati di telecomunicazioni di Telecom Italia per una specifica zona del capoluogo lombardo.

1.3.1 T

ELECOMMUNICATIONS

-

SMS,

C

ALL

,

I

NTERNET

-

MI

Il dataset “Telecommunications - SMS, Call, Internet - MI”, è liberamente visionabile e scaricabile all’indirizzo https://dandelion.eu/datagems/SpazioDati/telecom-sms-call-internet-mi/description/.

Esso è il risultato dell’elaborazione delle tracce generate dalla rete cellulare di Telecom Italia sulla città di Milano. Le informazioni sono costituite dalla tabulazione temporale di alcuni

(3)

11 dei cosiddetti Call Detail Records (CDRs), ovvero informazioni relative all’attività di ogni singolo utente, collezionate automaticamente dagli apparati di rete per finalità di fatturazione e di gestione ottimizzata delle rete. Esistono diversi tipi di CDR gestibili dagli apparati per telecomunicazioni ma per la il dataset preso in esame (Telecommunications - SMS, Call, Internet – MI) sono stati considerati solo i seguenti:

• SMS Ricevuti: un CDR viene generato ogni volta che un utente riceve un SMS; • SMS Inviati: un CDR viene generato ogni volta che un utente invia un SMS;

• CHIAMATE Ricevute: un CDR viene generato ogni volta che un utente riceve una CHIAMATA;

• CHIAMATE Effettuate: un CDR viene generato ogni volta che un utente effettua una CHIAMATA;

• INTERNET: un CDR viene generato ogni volta che

o un utente apre una connessione internet; o un utente chiude una connessione internet;

o durante la stessa connessione o trascorrono 15 minuti di traffico dall’ultimo CDR o si raggiungono i 5 MB di traffico

dall’ultimo CDR;

Dall’aggregazione dei CDR sopra citati è stato costituito il dataset in oggetto. Esso comprende quindi tutto il traffico relativo a chiamate, sms e sessioni dati, tenendo traccia, quindi, dell’interazione degli utenti attraverso la rete mobile. La scelta del gestore è stata quella di aggregare temporalmente CDR con caratteristiche omogenee in time-slot di lunghezza fissa. I dati di traffico di ogni singolo CDR sono stati opportunamente normalizzati e scalati con un coefficiente volutamente non dichiarato, garantendo quindi una sorta di segretezza del dato. È noto invece che entrambe le misure su chiamate e sms sono confrontabili in quanto scalate per lo stesso coefficiente; ciò non è vero invece per il traffico Internet.

Il risultato è un file testuale (1 per ogni giorno di Novembre e Dicembre 2013) organizzato come in Figura 11;

(4)

12

Figura 1: anteprima file del dataset Telecommunications - SMS, Call, Internet – MI

Il file è organizzato per righe e per colonne; il carattere separatore dei campi è il TAB “\t”; le colonne dalla 4 alla 8 esprimono esattamente i CDR descritti in precedenza. Le prime tre colonne, invece, rappresentano nuovi campi come descritto di seguito:

Square id: è un numero (intero e compreso tra 1 e 10^4) che indica la cella geografica

di riferimento dei dati indicati sulla riga: l’indice di cella fa riferimento ad una suddivisione dell’area di Milano così come analizzato in 1.3.2 più sotto;

Time interval: rappresenta l’inizio dell’intervallo temporale (time slot) in esame

espresso come numero di millisecondi trascorsi dalla cosiddetta “Unix Epoch” (1 Gennaio 1970 @ UTC). La fine del time slot può essere ottenuta aggiungendo 600000 millisecondi (10 minuti) al “Time interval”; i time slot considerati sono quindi di 10 minuti ciascuno;

Country code: è il country code telefonico specifico per ogni nazione (es. per Italia 39).

Poiché il file è formattato in formato TSV (tab-separated values), se per uno specifico campo dello schema precedente non è stata registrata alcuna attività, molto semplicemente il valore corrispettivo è omesso. Per esempio, se per una data combinazione di Square id “ID”, Time interval “T” e Country code “CC” non è stato inviato alcun SMS, il corrispettivo record sarà così strutturato:

ID\t T \t CC \t SMS-in\t \t Call-in \t Call-out \t Internet-traffic

Infine, se per una data combinazione di Square id “ID”, the Time interval “T” and the Country code “CC” non è stata registrata alcuna attività, il corrispettivo valore è omesso dal dataset. Ciò vale a dire che un record come il seguente non è memorizzato affatto.

ID\t T \t CC \t \t \t \t \t

Il dataset Telecommunications - SMS, Call, Internet – MI racchiude le informazione organizzate così come fin ora descritto per i mesi di Novembre e Dicembre 2013. Il

(5)

13 download dei corrispettivi dati è reso disponibile sia in forma aggregata per singolo mese che per singolo giorno. Tutte le risorse scaricabili sono opportunamente offerte in formato compresso ZIP visto l’enorme mole di dati coinvolti.

1.3.2 M

ILANO

G

RID

L’aggregazione spaziale dei record contenuti nel dataset descritto nel paragrafo precedente, come accennato, fa riferimento alla struttura definita da Telecom Italia come “Milano GRID”. Le informazioni riguardo tale struttura sono reperibili sul consueto portale dandelion.eu all’indirizzo https://dandelion.eu/datagems/SpazioDati/milano-grid/description/ . Le aree urbane di Milano sono state spazialmente aggregate secondo una griglia il cui schema è raffigurato in Figura 2.

Figura 2: schema di base della Milano GRID

La griglia si compone di 10^4 celle. Il numero all’interno di ogni cella, corrispondente allo “Square id” citato nel 1.3.1 più sopra, è l’indice di cella e la sua progressione segue lo schema evidenziato in Figura 2. Per i 4 vertici della griglia (quadrata), vengono fornite le corrispettive coordinate geografiche (in natazione decimale e secondo lo schema WGS84 (World Geodetic System 1984). Le coordinate sono le seguenti:

(6)

14

[x1,y1] = [ 9.011533669936474, 45.56821407553667 ] [x2,y2] = [ 9.312688264185276, 45.56778671132765 ] [x3,y3] = [ 9.311521155996243, 45.356261753717845 ] [x4,y4] = [ 9.011490619692509, 45.356685994655464 ]

La dimensione di ogni cella (quadrata) è di 235 m (parametro “d” di Figura 2). Con queste informazioni è facile sovrapporre in rapporto 1:1 la struttura della griglia ad un immagine cartografica. Un esempio puramente esplicativo è fornito sulla pagina web citata ad inizio paragrafo e la cui rappresentazione è riportata in Figura 3.

Figura 3: sovrapposizione Milano GRID su immagine cartografica

Sempre sullo stesso portale, nella scheda “PREVIEW”, è disponibile un utile tool di localizzazione geografica su cartografia OpenStreetMap e per singola cella, attraverso l’immissione del corrispettivo indice nell’apposito campo di ricerca (Figura 4).

(7)

15

(8)

Riferimenti

Documenti correlati

Le sostanze di tipo covalente sono caratterizzate dal fatto che il legame tra gli atomi consiste nella “condivisione di elettroni” da parte di 2 o più atomi; il numero di

Tendenza a vivere nel passato Manipolazione emotiva degli altri Attitudine a lamentarsi. Abitudini e dipendenze Dipendenza dagli altri Indulgenza a cibo e comodità Difficoltà a

Questo da un punto di vista teorico è molto utile perché permette di avere programmi molto brevi, ma da un punto di vista di sviluppo è piuttosto negativo, poiché una volta

Fascia di età (tarda-fanciullezza vs. pre-adolescenza) modera le associazioni tra tipi di aggressione e correlati socio-cognitivi (funzioni esecutive, pianificazione,

Frequenza di rinvenimento delle specie nei diversi tipi di rilievo (dati di presenza/assenza). Specie

Viene ricavato dalle piante Si ottiene con filati di origine animale (lana) o vegetale (cotone) È un metallo, rigido e resistente. Si trova

[r]

Aggeo 1:13 Aggeo, inviato dal SIGNORE, trasmise al popolo questo messaggio del SIGNORE: «Io sono con voi», dice il SIGNORE. Atti 15:27 Vi abbiamo dunque inviato Giuda e Sila;