• Non ci sono risultati.

Modelli di protezione

Nel documento A cura di (pagine 119-123)

PARTE TERZA

Capitolo 8. Le tecniche di protezione per i dati individuali (*)

8.2 Modelli di protezione

Si noti che tutte le procedure menzionate nel paragrafo precedente possono essere classificate come strategie di imputazione, consistendo tutte nella formalizzazione di un modello di protezione e nel rilascio, in sostituzione dei dati originali, di valori generati dal modello in questione.

A nostro avviso, l’ingrediente basilare di qualunque tecnica di tutela della riservatezza è il modello di protezione. Come evidenziato dagli esempi visti finora, per modello di protezione si intende una relazione che lega i valori protetti ai valori osservati tramite una qualche trasformazione.

È opportuno a questo punto introdurre la notazione che verrà adottata in seguito: si considererà una matrice X di dati osservati di dimensione n per k. Al solito, le righe di X corrispondono alle unità rilevate, le colonne alle variabili osservate sugli n

individui; le singole variabili verranno indicate con il simbolo Xl, l=1, ,… k. Con una tilde si indicheranno le corrispondenti quantità rilasciate, di modo che X denoterà la matrice rilasciata, Xl la variabile rilasciata l-ma e così via.

Usando la notazione appena introdotta, si deduce che il modello di protezione sopra richiamato, che può essere espresso formalmente tramite la relazione

( )

m

=

X X

permette di specificare, direttamente o attraverso assunzioni sulla famiglia di leggi che governano la matrice X, una classe di distribuzioni per i dati da rilasciare X. Il grado di specificazione della componente distribuzionale del modello di protezione varia da modello a modello: alcuni metodi non utilizzano alcuna assunzione in merito alla distribuzione da cui provengono i dati, altri invece specificano una classe parametrica per la legge di probabilità dei dati rilasciati, di solito tramite assunzioni sulla matrice dei dati originali. Talvolta, inoltre, si assegna una distribuzione prefissata soltanto ad una componente del modello di protezione. In alcuni casi, poi, vengono specificate soltanto alcune caratteristiche del modello distribuzionale, ad esempio le medie condizionate.

In quest’ottica si distingueranno i modelli di protezione in non parametrici, semi parametrici e completamente parametrici; a partire da tali modelli, si classificheranno i metodi proposti in letteratura per la tutela della riservatezza come non parametrici, semi parametrici e parametrici. Questa classificazione si basa sull’assunto che è il grado di formalizzazione del modello a rendere le strategie intimamente differenti tra loro.

8.2.1 Metodi non parametrici per la tutela della riservatezza

Supponiamo che la distribuzione di X sia completamente generale e che il modello per la matrice rilasciata X abbia la forma di un mascheramento matriciale (matrix masking),

=

X XB. (8.1)

Come si vedrà più nel dettaglio nel Paragrafo 8.3.11, l’ultima espressione rappresenta una notazione compatta che comprende diverse procedure di protezione, come discusso in Little (1993) e formalizzato in Cox (1994). Cox ha dimostrato che, a seconda della forma che assume la matrice B, detta matrice di trasformazione delle modalità, questo modello di protezione produce, tra l’altro, dati protetti secondo soppressione locale, microaggregazione, data swapping.

L’introduzione di una componente additiva nel modello di mascheramento (8.1) lo generalizza ulteriormente a comprendere altri tipi di trasformazione, quali ad esempio la censura (topcoding); in questo caso il modello assume la forma X XB C= + .

L’esclusione di unità selezionate è poi conseguita nel modello (8.1) tramite l’introduzione di una nuova matrice di mascheramento A, detta matrice di trasformazione delle unità: X :X= .

Infine, l’esclusione di alcune unità selezionate (sottocampionamento) seguita dalla soppressione di alcune modalità o valori di record predeterminati è ottenuta tramite il modello più generale X AXB= ; in effetti, Cox (ibidem) utilizza la formalizzazione

= +

X AXB C, che racchiude tutti i casi precedenti.

Quanto all’uso di metodi di simulazione per la tutela della riservatezza, strategie di protezione di tipo non parametrico possono essere generate facendo ricorso a procedure quali il bootstrap, o versioni modificate di esso. Un esempio è fornito dal metodo proposto in Dandekar et al. (2001), basato sul campionamento da ipercubi

latini, in cui la funzione di ripartizione empirica è usata per creare intervalli equiprobabili che permettono di utilizzare per l’estrazione di unità artificiali una procedura di campionamento stratificato. Il lavoro di Fienberg et al. (1998) discute strategie analoghe che classifichiamo tra i metodi di protezione non parametrici.

8.2.2 Metodi semi parametrici per la tutela della riservatezza

Nel paragrafo precedente, il modello di protezione contiene, per ciò che riguarda la componente distribuzionale, null’altro che la funzione di ripartizione empirica, più costanti note, quali le matrici di trasformazione richiamate al paragrafo precedente.

Attraverso assunzioni relative alle matrici di mascheramento A B C, , e/o alla matrice dei dati osservati X, è possibile introdurre nel modello di protezione una struttura semi parametrica.

Introduciamo in particolare una matrice casuale C con distribuzione nota; la matrice protetta X ottenuta aggiungendo a X o a una sua trasformazione AXB una realizzazione di C rappresenta allora una perturbazione dei dati originali. Naturalmente anche a C è possibile applicare un mascheramento matriciale D operante sulle variabili, di modo che sia possibile aggiungere disturbo casuale solo alle variabili che necessitano di tale protezione. Quanto alla perturbazione, Duncan e Mukherjee (2000) studiano fino a che punto essa possa essere applicata se si vogliono ottenere inferenze valide, ossia precise sui parametri di interesse; il problema è studiato nel contesto della protezione di database; in particolare, gli autori ottengono limiti da imporre alla varianza della distribuzione di un disturbo normale a media nulla.

Per una disamina approfondita della perturbazione tramite aggiunta di disturbo casuale si consulti Brand (2002) e le citazioni riportate nel lavoro.

Un caso particolarmente semplice di mascheramento semiparametrico è il modello discusso in Little (1993), che sostituisce i dati osservati con la media campionaria più un disturbo casuale, il che è ottenuto ponendo A 1= n k× .

I modelli del tipo appena richiamato in generale prescrivono per i dati da rilasciare una convoluzione della distribuzione dei dati, eventualmente trasformati in modo opportuno, con la distribuzione del disturbo. La distribuzione dei dati può essere lasciata non specificata, nel qual caso si otterrà una convoluzione della distribuzione del disturbo con la funzione di ripartizione empirica.

Possiamo classificare come semi parametrico anche il modello di imputazione basato sul rilascio di stime di particolari modelli di regressione ottenute con il metodo dei minimi quadrati e perturbate con l’aggiunta di un disturbo casuale; la versione più elementare di questa procedura consiste nel rilascio delle medie campionarie; introducendo variabili di tipo qualitativo tra i regressori e rilasciando quindi le medie condizionate “di strato” opportunamente perturbate si ottiene una procedura che può essere considerata una generalizzazione della microaggregazione.

8.2.3 Metodi parametrici per la tutela della riservatezza

Un gradino ulteriore nel processo di specificazione del modello è rappresentato dalla introduzione di una classe di distribuzioni per i dati da rilasciare. Se le variabili sono quantitative continue, molto spesso la scelta ricade sulla normale multivariata, eventualmente in congiunzione con l’uso di una trasformazione dei dati che renda più verosimile tale assunzione.

Un’opzione nella protezione basata su modello è la pubblicazione dei valori stimati a partire da un modello di regressione normale per una o più variabili Xl della matrice dei dati X. Tale principio è alla base della proposta in Franconi e Stander (2002). Una variante del metodo basato su regressioni consiste nel rilasciare i valori previsti dal modello più un disturbo casuale, estratto dalla distribuzione dell’errore stimata (si veda in proposito Little, 1993). Tale strategia è tesa a compensare la riduzione della variabilità dei valori stimati rispetto ai valori originali.

Naturalmente la procedura di protezione basata su modelli di regressione può essere applicata soltanto ad un sottogruppo delle unità osservate. Nella notazione dei paragrafi precedenti, ciò può essere ottenuto introducendo nel modello di protezione una matrice A di selezione delle unità.

Tra i metodi che definiamo parametrici di tutela della riservatezza un ulteriore esempio è costituito dal rilascio di intervalli di predizione per le variabili da proteggere. Tali intervalli possono essere derivati in base ad assunzioni distribuzionali, utilizzando o meno un modello di tipo regressivo. Per una strategia analoga, si veda Franconi e Stander (2000).

Infine, la protezione per simulazione di individui artificiali può essere basata su un modello parametrico completamente specificato. A questa classe di procedure appartiene il modello proposto in Grim et al. (2001); si tratta di un modello mistura i cui parametri vengono stimati col metodo della massima verosimiglianza, utilizzando l’algoritmo EM.

Per variabili categoriali, Fienberg et al. (1998) propongono di rilasciare data set sintetici estratti da un modello loglineare non saturato “che catturi le caratteristiche essenziali dei dati”. In pratica, si tratta di individuare un modello loglineare non saturato che abbia un buon accostamento ai dati (misurato, nella fattispecie, con il test del rapporto delle verosimiglianze) e che inoltre contenga i parametri di interazione considerati di interesse per gli utenti. A partire da tale modello, è possibile generare una o più tabelle artificiali, nell’ottica dell’imputazione multipla.

Ancora nel contesto della protezione per simulazione, Franconi e Stander (2000) e (2003), nell’ambito di una formulazione Bayesiana, utilizzano modelli spaziali gerarchici, avvalendosi di metodi Markov Chain Monte Carlo per la stima dei parametri. Il medesimo tipo di simulazione permette di rilasciare, per le variabili da proteggere, intervalli estratti dalla distribuzione predittiva dei dati anziché singoli valori individuali.

Per una breve rassegna dei metodi Bayesiani per la tutela della riservatezza, si può consultare il lavoro di Cox (2000).

Nel documento A cura di (pagine 119-123)