(a) Mappa digitale (b) Vista satellitare
Figura 6.2: Incrocio fra Dachauer Str. e Brienner Str. a Monaco di Baviera, così come appare in una mappa digitale ed in una vista reale
GPS.
Questa rappresentazione può essere ottenuta partendo da qualsiasi mappa digi- tale, anche se il procedimento chiaramente è diverso da caso a caso. Per i dettagli implementativi della creazione di questo database si rimanda all’appendice A. Nel seguito di questo elaborato si considereranno due database di mappe universalmente noti e diffusi, quello chiamato TIGER/Line Shapefiles, estratto dal Census Bureau’s MAF/TIGER database e reso pubblico gratuitamente, e OpenStreetMap, anch’esso pubblico e gratuito, ma ottenuto grazie alla collaborazione di migliaia di utenti in un progetto di tipo Open Source.
6.2
Selezione delle tracce utili
Le tracce analizzate nel sistema sviluppato, sono in maggior parte state prese dal database pubblico di OpenStreetMap [50]. Questo database raccoglie più di 300’000 tracce diverse, caricate da utenti di tutto il mondo. La finalità con qui nasce questo progetto Open Source vanno in realtà oltre questa raccolta di dati: l’obiettivo è ottenere una mappa globale di tutto il pianeta, con l’aiuto degli utenti. Le tracce caricate infatti vengono utilizzate come punto di partenza per disegnare la struttura delle strade su cui esse sono state registrate, o in alcuni casi, come per gli Stati Uniti d’America, per correggere e migliorare database esistenti.
CAPITOLO 6. ESTRAZIONE INFORMAZIONI TOPOLOGICHE: SEMAFORI E STOP 6.2 Selezione delle tracce utili
di vincolo, se non il formato che deve essere aderente allo standard GPX [53] (do- cumentato in appendice B.3). Per questo, possiamo trovare tracce registrate a piedi, in macchina, in moto, fermi, ecc. che non sono tutte utili per gli scopi di questo la- voro. Inoltre, vi possono essere tracce con tempi di campionamento molto variabili, o con solo punti di interesse salvati in maniera scollegata l’uno dall’altro, o ancora, file che contengono diverse tracce agglomerate in una unica, nonostante siano state registrate a chilometri di distanza.
Per tutti questi motivi, è necessario svolgere un processo selettivo iniziale che, partendo dall’insieme di tutte le tracce disponibili, crei un sottoinsieme di tutte quelle effettivamente utili ai nostri scopi, che saranno poi le uniche considerate nel seguito del sistema. La caratteristica più cruciale da cui iniziare la selezione è sicuramente la frequenza di campionamento della traccia, in seguito denotata anche come Sampling Rate.
Come visto nel capitolo 4.3, una mancanza di campionamento è strettamente correlata con la mancanza di precisione nella localizzazione. Non tutti i dispositivi GPS però hanno una frequenza di campionamento di esattamente un secondo, come quello preso in esame nei nostri test. Alcuni dispositivi di navigazione per il mercato di massa hanno frequenza di campionamento, in caso si registri la traccia del proprio percorso, variabili, in un range che può estendersi anche ad una decina di secondi. Qualunque sia la frequenza di campionamento propria del dispositivo però, essa è generalmente costante se esso è in grado di localizzarsi correttamente.
Potremo quindi avere dispositivi che campionano ogni secondo, piuttosto che altri che campionano ogni 4 secondi, ma la cosa certa è che nel caso ideale di segnale GPS sempre ottimo, questa frequenza di campionamento deve essere costante per tutta la traccia.
Per prima cosa quindi, per ogni traccia andiamo a calcolare la frequenza di cam- pionamento più comune, facendo un semplice clustering delle occorrenze dei cam- pionamenti a distanza di un secondo. Avremo quindi il numero di campionamenti a 1 secondo di distanza l’uno dall’altro, a 2 secondi, a 3 e così via. Così facendo abbiamo quella che si suppone essere la frequenza propria del dispositivo (FC), e possiamo andare a discriminare quali tracce sono abbastanza costanti attorno alla loro frequenza propria di campionamento, e quali invece no.
Per fare questo si è scelto di considerare buone le tracce che hanno almeno l’80% dei campionamenti che ricadono in una fascia di valori compresi tra 12FC
6.2 Selezione delle tracce utili CAPITOLO 6. ESTRAZIONE INFORMAZIONI TOPOLOGICHE: SEMAFORI E STOP
e 32FC, indicando quindi un campionamento abbastanza costante, sintomo di con-
dizioni di registrazione in cui la precisione di localizzazione si può considerare accettabile. È da notare come questa sia soltanto una prima scrematura, in cui si scartano le tracce visibilmente troppo imprecise, che porterebbero più errori ed imprecisioni che né informazioni utili.
Si è consapevoli che l’utilizzo di questa flessibilità nella definizione di costan- za della frequenza di campionamento lasci ancora vive situazioni di imprecisione nel campionamento, ma esse verranno corrette in seguito. Si deve ora cercare di avere un adeguato tradeoff, in cui si mantengono da una parte soltanto le tracce che con ragionevole probabilità saranno utilizzabili in seguito, e dall’altra si cerca di sfruttare il più alto numero possibile delle tracce disponibili sul database.
Oltre a questo, in funzione dell’interesse del sistema per comportamenti del- l’utente quali rallentamenti e fermate, è necessario avere tracce con un sampling rate elevato, in quanto ad esempio se abbiamo informazioni soltanto ogni 10 secon- di, non possiamo dire niente su cosa è successo fra due campionamenti successivi, poiché solitamente rallentamenti e fermate avvengono in finestre temporali di alcuni secondi. Per questo motivo, non vengono considerate tutte le tracce che hanno una frequenza di campionamento media maggiore di 4 secondi, che è verificato essere un valore limite per le informazioni di nostro interesse.
Al momento della lettura della traccia dal file, vengono calcolate per ogni suo punto alcune informazioni relativamente al punto successivo, e precisamente:
• La distanza dal punto successivo;
• Il tempo che intercorre col campionamento successivo; • La velocità in direzione del punto successivo;
• L’accelerazione in direzione del punto successivo; • L’azimut del movimento verso il punto successivo;
Queste informazioni vengono usate qui per discriminare ulteriormente le tracce che non sono registrate da veicoli in movimento nel loro ambiente abituale, come per esempio quelle registrate da pedoni, che verranno scartate, basandosi sulla veloci- tà massima calcolata sull’intera traccia. Per maggiori dettagli tecnici riguardo al- cune accortezze ulteriori necessarie nel corretto utilizzo di queste tracce, si rimanda all’appendice apposita B.3.