Formalizzazione - Approccio basato su staypoint

4.3 Approccio basato su staypoint

4.3.3 Formalizzazione

Date le caratteristiche generali esposte, si definisce ora nel dettaglio la struttura dell’algoritmo. Data una traiettoria GPS anonima L e una relativa a un profilo Twitter, indicata con S, con li ∈ L e si ∈ S, il punteggio di

similarit`a complessivo `e dato da: Sc(S, L) = X

si∈S

argmaxli∈L(Score(si, li)),

dove la funzione Score(·) calcola il valore di similarit`a tra una coppia di eventi, e per ogni evento social viene considerata la corrispondenza con il punteggio massimo ai fini dell’aggregazione finale. Dato un tweet geo-localizzato si si cal-

cola il punteggio di similarit`a tra esso e tutti i ping GPS lj relativi a staypoint

vicini, in funzione di una soglia di distanza spaziale precedentemente definita. Data una coppia di eventi, il punteggio di similarit`a `e definito come:

Score(si, lj) = ts + (1 − t)

s + sw 2 ,

dove s `e funzione della distanza spaziale, t di quella temporale e w rappresenta il valore del comportamento dell’utente GPS riferito alla finestra temporale.

Nelle figure 4.5 vengono mostrati i grafici relativi alle funzioni s e t, che ritornano un valore tra zero e uno in funzione della distanza spaziale o temporale. Il ruolo centrale appartiene a t, che definisce l’influenza della componente spaziale e di quella legata all’abitudine. Infatti se il valore di t derivante dalla distanza temporale è alto, il termine contenente sw influirà meno, viceversa se è basso il secondo termine avrà un peso maggiore. Ciò avviene perché se il punteggio di t è alto conseguentemente la distanza temporale sarà ridotta: esiste quindi una buona corrispondenza temporale tra i due eventi e non è necessario pesare in modo significativo l’abitudine dell’utente. Al contrario, se il valore di t è basso significa che la distanza temporale è alta, e non esiste quindi un buon match a livello temporale tra i due eventi: in questo caso ha

CAPITOLO 4. PROGETTO 51

Figura 4.5: Funzioni w e t. Un valore di distanza spaziale di 200 metri equivale a 0,5. Un valore di distanza temporale di un’ora equivale a 0,5.

senso pesare maggiormente la componente che coinvolge l’abitudinariet`a del soggetto.

Il valore del comportamento abituale del soggetto `e definito come: w =X

wh,

mentre wh `e dato da wsp · gausstw,h. Il valore di wsp `e dato dal rapporto

tra il numero di campionamenti GPS dell’utente nello staypoint nelle fascia oraria h e il totale dei sui ping relativi a quell’ora. Questo valore ha lo scopo di modellare l’abitudine dell’utente, e in particolare la frequenza della sua presenza in uno staypoint in una certa fascia oraria. Come detto, il contributo di questo elemento viene pesato in maniera inversa rispetto a t.

Per evitare i possibili errori dovuti a meccanismi di esclusione troppo strin- genti, non sono state introdotte condizioni che portino a scartare in modo im- mediato una possibile coppia di tracce. La distanza spaziale e quella temporale sono per`o pesate applicando funzioni gaussiane, che annullano il contributo dell’elemento qualora la distanza sia alta, ammettendo un intervallo di tolle- ranza all’interno del quale il contributo decresce all’aumentare della distanza. Questa soluzione permette di gestire eventuali e limitati mismatch spaziotem-

porali senza penalizzare troppo l’elemento considerato, e viene applicata anche al calcolo del contributo del comportamento abituale.

Implementazione Per l’implementazione dell’algoritmo `e stata utilizzata la piattaforma Spark, volendo realizzare un’implementazione del nuovo approccio alla de-anonimizzaione scalabile e prestante. Si presenta una rappresentazione di alto livello in pseudo-codice. Nella fase preliminare si calcola la rilevanza

1 Dati: una traccia anonima, una o pi`u tracce social.

2 Risultato: Numero di match tra la traccia anonima e le tracce social.

3 Funzione CalcoloPunteggio = {

4 Calcola e memorizza la rilevanza degli staypoint

5 Calcola e memorizza il comportamento abituale del soggetto anonimo

6 Per ogni punto di una traiettoria social vicino a uno staypoint:

7 Calcola e memorizza la distanza spaziotemporale tra i punti

8 Per ogni combinazione di punti:

9 Calcola e memorizza i punteggio di similarit`a della coppia

10 Applica la rilevanza dello staypoint di riferimento

11 Per ogni tweet:

12 Estrai la corrispondenza con uno staypoint con il punteggio massimo

13 Per ogni traccia social:

14 Somma i punteggi delle migliori corrispondenze

15 Restituisce il punteggio complessivo di ogni utente social rispetto alla traiettoria anonima

16 }

degli staypoint. In particolare ogni staypoint viene associato a un valore che `e dato da uno fratto il numero di elementi nel vicinato. Il vicinato di uno staypoint viene calcolato estraendo tutti gli altri punti rilevanti che si trovano entro una soglia di distanza, definita in fase di inizializzazione.

Si procede poi al calcolo della rappresentazione del comportamento abituale del soggetto associato alla traiettoria GPS anonima. In particolare per ogni ora del giorno si vuole modellare l’abitudine in termini di posizionamento spaziale. I riferimenti temporali relativi a singoli punti vengono riportati a una granularit`a oraria, poi per ogni ora si calcola la frequenza degli staypoint come rapporto tra il numero di campionamenti in quel punto e il totale di quella fascia oraria.

Una volta calcolati questi valori preliminari, vengono estratte tutte le combinazioni di eventi rilevanti per l’algoritmo, ovvero per ogni evento social si

CAPITOLO 4. PROGETTO 53

cercano i campionamenti della traccia anonima effettuati presso staypoint vicini, in funzione di una soglia di distanza spaziale definita. Di queste combinazioni vengono memorizzate le distanze spaziali e temporali. Dopo aver estratto tutte le combinazioni di eventi, a ognuna viene assegnato un punteggio di similarità, secondo la funzione precedentemente definita, che considera la distanza spaziale, quella temporale, e la componente derivante dal comportamento abituale del soggetto. Il punteggio calcolato viene ulteriormente elaborato, moltiplicandolo per il peso dato dalla rilevanza dello staypoint presso cui la corrispondenza si è verificata. Una volta calcolato il punteggio finale di ogni combinazione di eventi, tramite operazioni di aggregazione si ottengono i risultati complessivi di similarità tra la traiettoria anonima e quelle relative ai profili social. In particolare per ogni tweet viene mantenuta la corrispondenza con l’elemento della traccia anonima con il punteggio più alto. Queste corrispondenze, che rappresentano le migliori combinazioni tra tutti i singoli eventi social e i campionamenti GPS, vengono poi aggregate per profilo Twit- ter, sommando i punteggi, e ottenendo quindi quello complessivo dell’account rispetto alla traiettoria anonima.

Capitolo 5

Testing

Nel documento Utilizzo di dati social per la deanonimizzazione di tracce GPS (pagine 60-65)