• Non ci sono risultati.

Violazione della riservatezza nel caso del rilascio di dati individuali

Nel documento A cura di (pagine 89-93)

PARTE TERZA

Capitolo 5. Il rilascio dei dati individuali (*)

5.3 Violazione della riservatezza nel caso del rilascio di dati individuali

In questo paragrafo formalizziamo il concetto di violazione della riservatezza nel caso di rilascio di dati individuali in base al quale viene definita una misura del rischio che si verifichino delle violazioni e conseguentemente adottate misure statistiche a protezione dei dati.

Rispetto a ogni altra forma di rilascio di informazione statistica, il rilascio di un file di dati elementari fornisce il maggior contenuto informativo sia dal punto di vista dell’analisi statistica che da quello della violazione della riservatezza. Il file che stiamo considerando, almeno fino a questo punto, non ha subito ancora nessuna operazione, pertanto mantiene intatte le proprie peculiarità.

Alcuni esempi di cosa intendiamo per violazione della riservatezza sono stati presentati nel paragrafo precedente, tuttavia, in letteratura esistono diversi approcci per formalizzare il concetto di violazione della riservatezza che qui presentiamo sinteticamente (Duncan e Lambert, 1986 e 1989).

Un approccio molto generale è basato sul principio introdotto in Dalenius (1977) principalmente per i dati tabellari: una violazione si verifica se il rilascio di una statistica S permette di conoscere un’informazione riservata più accuratamente di quanto non sia possibile fare senza conoscere S. Nel caso di rilascio di microdati l’approccio prende il nome di inferential disclosure e si enuncia: una violazione si verifica quando un utente può inferire nuove informazioni su un rispondente dai dati rilasciatigli, anche se nessun record nel file è associato a quel rispondente e se le informazioni inferite non sono esatte.

Un approccio anch’esso di tipo inferenziale è quello basato sul concetto di “violazione tramite un modello” (Palley e Simonoff, 1986), per cui si può acquisire un’informazione riservata stimando un valore riferito ad un individuo a partire da un modello statistico costruito sui dati rilasciati. La violazione viene, in questo caso, misurata tramite differenza fra il modello stimato sui dati originali e quello stimato sui dati rilasciati. Le difficoltà di questo approccio sono notevoli e ben descritte in Willenborg e de Waal (1996, 2001) che lo introducono come predictive disclosure. Supponiamo che c sia una variabile riservata e denotiamo con xi e ci rispettivamente i valori del vettore di variabili chiave e della variabile c assunti dalla unità i-ma nel file. Assumiamo che un utente sia intenzionato a conoscere il valore ci avendo a disposizione in un proprio archivio '

l = i

x x di un soggetto identificato. Sulla base dei dati rilasciati, l'utente è in grado di stimare, ad esempio, un modello:

( , )

c= f x b +5 5~N(0,62)

dove b è un vettore di parametri, e, quindi, ottenere una predizione di ci.

Se la politica di diffusione di un Istituto nazionale di statistica prevede il rilascio di un file di dati elementari di un’indagine, non è possibile escludere l’eventualità che vengano condotte analisi statistiche di questo tipo. D’altro canto la legislazione è interpretata normalmente nel senso di tutelare il diritto individuale del rispondente relativamente alle informazioni fornite, piuttosto che rispetto all’aumento generico di conoscenze che una terza persona può acquisire in base a un’analisi statistica. L’informazione così ottenuta può riguardare una sottopopolazione (di U) di individui rispondenti a certe caratteristiche a prescindere dal fatto che i singoli componenti abbiano partecipato alla rilevazione o meno. Rispetto a questi ultimi, comunque, non è stato sottoscritto il vincolo del rispetto del segreto statistico e, quindi, sarebbe ulteriormente complicato stabilire se si profili o meno una violazione della riservatezza.

mediante la stima di un modello predittivo, resta comunque da stabilire in che misura questa può considerarsi una violazione. L’incertezza dell’utente sul valore ci dipende da

2

6 . Si può ipotizzare, di conseguenza, di misurare il rischio di violazione con un valore inversamente proporzionale a 62. Tuttavia, risulta problematico definire una soglia che non dipenda dalla variabile c e che sia quindi valida per l’intero file. Ad esempio, se fosse possibile adattare un modello ai dati per stimare il livello di esportazioni di una certa impresa per area geografica, il livello di incertezza accettabile non potrebbe essere lo stesso di quello accettabile per la variabile dicotomica esporta/non esporta, per l’evidente divario di interesse che le due informazioni riservate potrebbero suscitare presso i competitori dell’impresa stessa. Inoltre, considerato il numero elevato di variabili che un file di dati elementari può contenere, anche l’ipotesi di definire una soglia di incertezza accettabile per ogni variabile in gran parte dei casi non è facilmente percorribile. Un altro modo di misurare l’eventuale rischio di violazione potrebbe essere, sempre secondo l’approccio predittivo, quello di ipotizzare che l’utente abbia a priori informazioni su c sintetizzate con una distribuzione di probabilità. La valutazione del rischio, in tal caso, può essere misurata tramite la riduzione di incertezza conseguente al rilascio dei dati (Duncan e Lambert, 1986 e 1989). Ma in questo caso si pone un problema contraddittorio. Infatti, un utente con scarse conoscenze a priori capitalizzerebbe un maggior guadagno di informazioni e, quindi, una violazione maggiore, rispetto a un utente con una distribuzione a priori molto simile a quella predittiva stimata a posteriori sui dati.

In generale, comunque, l‘obiezione principale a questo tipo di approccio sta nel fatto che, se l’utente non dispone dell’informazione che il soggetto di cui vuole conoscere informazioni riservate appartiene al file rilasciato allora la stima di una distribuzione predittiva non può essere considerata una violazione, poiché, come detto in precedenza, la stessa violazione si avrebbe per tutti i soggetti della popolazione con caratteristiche simili tra loro rispetto alle variabili chiave. D’altro canto, se all’utente è noto che il soggetto a cui è interessato appartiene al file, il discorso cambia perché le informazioni riservate possono essere associate a un individuo che le ha fornite con la promessa del rispetto della sua riservatezza. Questo ci porta a considerare un differente approccio per definire la violazione della riservatezza, basato sul rischio di identificazione del rispondente. Questo concetto risponde alla cosiddetta “violazione di identità”, identity disclosure (Paass, 1988), consistente appunto nell’identificazione di un rispondente nel file rilasciato. In questo approccio la violazione da prevenire è associata al semplice riconoscimento di un individuo tra le unità statistiche del file.

Conseguente alla violazione d’identità è la violazione di attributo, attribute disclosure (Cox e Sande, 1979), dovuta all’acquisizione di informazioni riservate non disponibili altrimenti. In pratica, si verifica una violazione se è possibile associare correttamente il record a un rispondente identificato e se le informazioni contenute in un record del file rilasciato sono sufficientemente dettagliate ed accurate anche relativamente alle informazioni riservate. Questo è, in sostanza, l’approccio utilizzato generalmente dagli Istituti Nazionali di Statistica e va sotto il nome di re-identification disclosure (de Waal e Willenborg, 1996, Fienberg e Makov, 1998, Skinner e Holmes, 1998). Da notare che la violazione consiste nel permettere l’acquisizione di

informazioni riservate (o confidenziali) relative a un soggetto. Non è rilevante, al momento, che queste informazioni siano veritiere o un’approssimazione più o meno accurata della verità o di quanto è stato rilevato.

In base a questo approccio i record che intuitivamente presentano un più alto rischio di violazione sono quelli che rappresentano degli outlier rispetto alle variabili chiave in quanto riferiti a soggetti più facilmente identificabili. Si noti la differenza rispetto all’approccio predittivo in cui si può considerare un file dati privo di outlier più informativo per l’acquisizione di informazioni riservate nel senso che un “buon” modello che permetta di stimare informazioni confidenziali su un individuo “tipico” sarà più facile da ottenere se il file non presenta outlier.

Assumiamo che un ipotetico intruso (intruder) sia intenzionato ad ottenere informazioni riservate su una più unità statistiche (target) utilizzando i dati rilasciati. Si possono fare diverse ipotesi su quali siano le intenzioni di un intruso e su quali informazioni abbia a disposizione. Ad esempio può trattarsi di un’impresa che vuole ottenere informazioni relative a una sua concorrente oppure un malintenzionato che vuole solo dimostrare che il sistema consente violazioni. Diverse ipotesi possono farsi anche riguardo le informazioni a priori a disposizione dell’utente. A questo proposito assumiamo che riguardo alle unità statistiche l’utente abbia a disposizione un archivio nominativo in cui a ogni nome e cognome sono associate alcune variabili che almeno in parte coincidono con l’insieme delle variabili chiave.

Per archivio nominativo intendiamo un insieme di soggetti identificati, ad esempio:

ID Nome Indirizzo Provincia

1 Mario Rossi Via Tirreno,1 Pisa

2 Luigi Bianchi Viale Ionio,2 Roma

3 Gino Verdi Viale Adriatico,34 Roma

.. …. …. …..

Per semplicità indichiamo l’identificativo di un soggetto unicamente con ID. I dati a disposizione dell’utente possono, allora, essere rappresentati con una matrice dati:

( )

'= , '

A ID X

dove l’insieme delle variabili in X' è un sottoinsieme delle variabili chiave in X. Diciamo allora che:

• un’unità statistica è identificabile se è associabile ad un identificativo, ossia a un soggetto identificato;

• definiamo re-identificazione la possibilità di stabilire una relazione biunivoca tra un record del file di dati elementari rilasciato, A e il suo identificativo nel file A';

• il contenuto della violazione è la conseguenza della re-identificazione cioè la conoscenza illecita di informazioni riservate;

• una re-identificazione è una relazione biunivoca stabilita tra un record di A e un record di A' basata esclusivamente sulle informazioni comuni ai due file.

Oltre alle informazioni contenute nell’archivio nominativo si considerano anche tutte le informazioni che in qualche modo possono aumentare il rischio di identificazione. Queste possono riguardare, ad esempio, la conoscenza del processo di produzione dei dati relativamente a disegno campionario, procedure di imputazione e correzione nonché le tecniche di protezione a tutela della riservatezza.

Quello appena descritto è lo schema generalmente utilizzato dagli Istituti nazionali di statistica per definire la violazione della riservatezza. Il processo di anonimizzazione di un file di dati elementari consiste allora nel rendere improbabile (al di sotto di una soglia ragionevole) la re-identificazione delle unità statistiche nel file rilasciato.

Definiamo, allora, il rischio di re-identificazione per un’unità statistica come la probabilità che il record i nel file rilasciato appartenga al soggetto identificato ID date le informazioni a disposizione dell’intruso, ossia la matrice delle variabili chiave rilasciata X, e i valori delle variabili chiave x'ID presenti nell’archivio esterno assunti dal soggetto identificato ID:

[ ]

Pr ID ID i= ( ) / , 'X xID .

Nel valutare questa probabilità si può tenere conto di alcuni fattori che influenzano il rischio di re-identificazione come il fatto che le variabili chiave note all’utente non necessariamente sono classificate allo stesso modo delle corrispondenti nel file rilasciato, o che per entrambi gli archivi le variabili possono essere affette da errori, o ancora che l’archivio esterno a disposizione dell’utente non contiene necessariamente le stesse unità statistiche del file rilasciato: il target non è nel file rilasciato (si veda il Paragrafo 5.5 per dettagli).

Rispetto agli approcci descritti in precedenza, quello basato sul rischio di re-identificazione è più aderente al concetto di violazione della riservatezza stabilito dalla legge, che impone che i dati vengano rilasciati a condizione che non sia possibile trarne “riferimenti individuali”. Rispetto all’approccio predittivo, è più facilmente interpretabile l’idea di un livello di rischio accettabile definito come probabilità. Ad esempio, “la probabilità che un rispondente venga re-identificato è pari a uno su diecimila” è immediatamente valutabile rispetto a “la variabilità implicita al modello predittivo stimato per la variabile c è pari a 0.4”. Inoltre, il livello così definito non è dipendente dalla variabile cui si riferisce e può essere unico per ogni c in C e anche per ogni unità statistica i nel file.

E’ chiaro a questo punto che il processo di anonimizzazione messo in opera dagli Istituti nazionali di statistica consiste nell’applicare una serie di metodi statistici, ma anche tecnici e amministrativi, per contenere al di sotto di una soglia fissata il rischio di re-identificazione.

Nel documento A cura di (pagine 89-93)