Sistemi automatici per la protezione soppressiva di Swdd

PARTE SECONDA

**Capitolo 4. Tutela statistica della riservatezza per dati rilasciati da siti Web(*)**

4.4 Sistemi automatici per la protezione soppressiva di Swdd

. " # " # " # = $_$ % $_{% $} %_% $_$ %_%/

& ' & ' ^…& '0

Analogamente, i limiti superiori al passo (s+1) vengono aggiornati come

( 1) ( 1) ( 1) ( 1) 1 1 2 2 1 3 1 3 1 ( 1) 1 ( 1) 1 2 ,...,s min ,...,s , , ,..., , ,...,s , , , ,..., , , ,...,s , , ,..., , ,...,s , . k k k k k k k k k L U _U L L i i i i i i i i i i i i i i i i i i i i i i i i i i i n + n n n + n n + n n + + + + . " # " # " # = $_$ % $_{% $} %_% $_$ %_%/

& ' & ' ^… & '0

Questo algoritmo è di facile implementazione e converge in un numero finito di passi (Buzzigoli e Giusti, 1999), Cox (2000) nota che questo algoritmo porta a limiti non peggiori di quelli di Fréchet e di Bonferroni e che, però, può dare intervalli che contengono valori non ammissibili.

Dobra e Fienberg (2001) propongono una generalizzazione dello shuttle algorithm per un insieme qualsiasi di tabelle marginali di una tabella k-dimensionale. Questo algoritmo si basa sulle stesse disuguaglianze sfruttate dallo shuttle algorithm, però applicate alle tabelle dicotomizzate fondendo le modalità, come fatto sopra per il calcolo dei limiti di Fréchet. Data una generica cella n1, si consideri una marginale corrispondente n3 e la cella unificata n2= n3- n1. I limiti inferiori e superiori vengono aggiornati come ( 1) 1L_s max( 1Ls , 2L_s 3U_s) n = n n n e ( 1) 1_U_s min( 1Us , 2_U_s 3_L_s) n = n n n .

Si noti che questa formulazione è estremamente generica in quanto si sono lasciati indeterminati tutti i valori considerati, mentre durante il corso delle iterazioni alcuni totali marginali possono divenire noti. L’algoritmo termina quando si ottiene una inconsistenza. Maggiori dettagli su questo algoritmo possono essere trovati in Dobra (2001).

4.4 Sistemi automatici per la protezione soppressiva di Swdd

Come detto sopra, la protezione soppressiva di una tabella con molte dimensioni necessita di procedure automatiche. Karr et al. (2002) e Dobra et al. (2002) ne descrivono due: uno per la protezione statica ed uno per la protezione dinamica. Entrambi i sistemi sono formulati in maniera abbastanza generica da consentire l’utilizzo di metodologie diverse al loro interno. In entrambi i sistemi i dati vengono protetti sopprimendo completamente le tabelle il cui rilascio comporta un rischio eccessivo. In questo modo vengono eliminati i problemi computazionali legati al calcolo delle soppressioni secondarie (vedi Paragrafo 3.1.2). Quindi, la protezione statica consiste nel determinare un sottoinsieme di tabelle marginali che possano essere rilasciate, mentre la protezione dinamica consiste nel valutare, considerando l’informazione già rilasciata, se una tabella richiesta possa essere rilasciata o meno.

4.4.1 Protezione soppressiva dei Swdd statici: selezione di un insieme di tabelle di frequenza rilasciabili

Dato un insieme di variabili classificatrici di cui si conoscono le frequenze e per cui la tabella di massima dimensione contiene celle a rischio, il problema relativo ai Swdd statici è quello di determinare un sottoinsieme di tabelle marginali che possano essere rilasciate senza compromettere la riservatezza. Quando il numero delle variabili è elevato non è pensabile di applicare gli algoritmi di soppressione complementare visti sopra: più realisticamente conviene sopprimere completamente alcune tabelle. La protezione soppressiva statica dell’Swdd si riduce, così, ad individuare un insieme di tabelle marginali che possano essere rilasciate senza essere protette.

La scelta di pubblicare solo un sottoinsieme di tabelle marginali è la più naturale e comunemente utilizzata. In genere, questo sottoinsieme viene selezionato manualmente, in base a criteri di opportunità e convenienza, da persone che conoscono i dati. Questa procedura, però, è arbitraria, non sempre replicabile e, spesso, iperprotettiva; l’ Optimal Tabular Release (Otr) è un sistema automatico per la determinazione di questo sottoinsieme, sviluppato presso il National Institute of Statistical Sciences (Niss) nell’ambito del Digital Government (Dg) project, e sarà descritto brevemente di seguito.

Optimal Tabular Releases

Nell’Optimal Tabular Release (Dobra et al., 2001) l’insieme ottimo da rilasciare è determinato secondo l’approccio rischio-utilità. Supponendo che almeno una cella della tabella massima sia a rischio, tra tutti i possibili sottoinsiemi di tabelle che garantiscono un rischio globale inferiore ad una soglia 1e viene scelto quello, D*, che ha massima utilità.

Come misura globale del rischio per un insieme di tabelle D, viene presa l’ampiezza minima dell’intervallo di esistenza calcolabile per le celle a rischio della tabella massima. Detti UB(C, D) e LB(C, D) il limite inferiore e superiore calcolabili per una generica cella della tabella massima, C, la misura del rischio utilizzata è

{ }

( ) min ( , ) - ( , ) : #( )

R D = UB C D LB C D C <k

dove #(C) indica il numero di contributi della cella C e k la soglia di rischio accettabile, in genere si pone k>2. La scelta di questa misura globale di rischio assicura che la soglia venga rispettata per tutte le celle, però richiede il calcolo degli intervalli di esistenza per tutte le celle della tabella massima.

L’utilità di un insieme di tabelle può essere misurata in diversi modi. Una delle misure più semplici, che è quella utilizzata per esemplificare l’OTR, è il numero di tabelle rilasciate:

( ) #( )

U D = D .

Come altre misure dell’utilità che si possono considerare, per esempio: il numero di celle indipendenti rilasciate (quantificabile con i gradi di libertà che esse rappresentano) oppure l’errore quadratico medio, ottenuto stimando le celle della tabella massima dai dati rilasciati, per esempio con un modello log-lineare. In quest’ultimo caso, però, è necessario adoperare il fitting proporzionale iterativo (Bishop et al., 1975),

che può essere dispendioso in termini computazionali. In certi casi può essere opportuno aggiungere alla funzione di utilità una qualche misura di differenziazione dell’informazione rilasciata, per esempio, che tenga in considerazione l’informazione rilasciata rispetto a ciascuna variabile. Questo potrebbe evitare di rilasciare sottoinsiemi che contengano poche tabelle con certune variabili.

Per l’Otr vengono suggeriti due approcci per il calcolo degli intervalli di esistenza. Il primo consiste nel limitare la ricerca dell’ottimo ai soli insiemi di tabelle marginali associate a modelli grafici scomponibili. Come visto, questa restrizione, oltre a ridurre il numero di sottoinsiemi che è necessario visitare, riduce drasticamente la complessità del calcolo del rischio. Poiché la restrizione degli insiemi rilasciabili alla classe delle statistiche sufficienti minimali di modelli scomponibili non è completamente giustificabile, viene anche considerato un accorgimento alternativo per il calcolo del rischio. Il secondo approccio che viene considerato è un algoritmo greedy, di tipo bottom-up, che aggiunge tabelle all’insieme D * fino a che sia possibile senza violare il vincolo di massimo rischio. Le tabelle sono aggiunte secondo l’ordine determinato da una particolare misura euristica del rischio individuale.

Nel prototipo di Otr realizzato presso il Niss, l’ottimo viene ricercato nella classe dei modelli grafici scomponibili. Il prototipo è stato applicato a dati con 13 variabili classificatrici. Il numero dei modelli scomponibili esistenti per tredici variabili è, comunque, troppo elevato per poter essere affrontato, quindi la soluzione ottima è stata determinata per mezzo del simulated annealing, un metodo iterativo di tipo Monte Carlo per la determinazione di un massimo. Maggiori dettagli sull’Otr e sull’implementazione di questi accorgimenti possono essere trovati in Karr et al. (2002).

4.4.2 Protezione soppressiva dei Swdd dinamici: valutazione al volo del rischio di rilasciare tabelle aggiuntive

L’approccio alla tutela della riservatezza per i Swdd dinamici, è necessariamente basato sulla conoscenza accumulata. In questo approccio, i dati sono protetti sequenzialmente in risposta ad una serie di richieste (Hoffman, 1977, Keller-McNulty e Unger, 1998 e Fienberg et al., 1998). L’applicazione della protezione dinamica richiede la definizione di regole per la restrizione dell’insieme delle richieste ammissibili (Hoffman, 1977). In queste restrizioni, il rischio che comporta il rilascio di una nuova tabella richiesta è calcolato sulla base dell’informazione già rilasciata. Più avanti si discuterà sulle implicazioni di considerare l’informazione totale rilasciata o solo quella rilasciata a ciascun utente.

Di seguito andiamo ad illustrare un sistema per la protezione dinamica di Swdd realizzato dai ricercatori del Dg project, chiamato Table Server.

Table Server

Un Table Server è un sistema che applica la soppressione totale di tabelle dinamicamente, cioè decidendo se rilasciare o meno una tabella marginale richiesta sulla base del rischio calcolato tenendo conto anche delle tabelle marginali precedentemente rilasciate.

All’istante t, l’insieme delle tabelle rilasciate, T( )t , contiene tutte le tabelle rilasciate direttamente ed indirettamente (cioè anche le marginali non rilasciate ma figlie di marginali rilasciate). L’insieme T (t) è completamente individuato dalla frontiera rilasciata,FT (t), che contiene gli elementi massimi di T(t) (cioè le tabelle marginali rilasciate di cui non siano state rilasciate marginali madri). Avendo adottato una misura di rischio globale, R, ed una soglia di rischio accettabile, 1, l’insieme delle tabelle rilasciate deve sempre soddisfare R( ( ))T t 1 . Quando giunge una richiesta per una tabella T non contenuta in T (t), essa verrà rilasciata se

( ( ) )

R t T 1.

Questa formulazione del rischio prevede che gli utenti cooperino tra di loro, quindi il rischio è calcolato su l’informazione rilasciata a tutti gli utenti. Anche per i Table Server una misura del rischio globale che può essere adottata è quella dell’ampiezza minima degli intervalli di esistenza calcolabile per le celle a rischio della tabella massima. Usando la quale, una tabella verrà rilasciata se

{

T T

}

min UB C( ,( ( )t T)) -LB C( ,( ( )t T)) : #(C)<k 1 .

Quando il numero delle variabili nel database è grande, lo sforzo computazionale per il calcolo di questo rischio può essere tale da richiedere tempi troppo lunghi per il rilascio al volo. Per rendere più spediti i calcoli è possibile ricorrere allo shuttle algorithm e alla sua generalizzazione. Altrimenti, si può pensare di associare ad ogni nuova richiesta anche altre tabelle in modo da formare l’insieme minimale delle statistiche sufficienti di un modello grafico scomponibile che permetta il computo diretto dei limiti di Fréchet con l’approccio di Dobra e Fienberg (ibidem).

Il rilascio di una tabella marginale può rendere altre tabelle non più rilasciabili. Da questo punto di vista, la misura del rischio globale additiva vista sopra può essere insufficiente a proteggere il database dall’essere, casualmente o dolosamente, deviato rilasciando informazione di interesse ristretto, impedendo il rilascio di altra informazione di maggior interesse generale. Come osservano anche Karr et al. (2002), che chiamano la misura di rischio vista sopra miope, può allora essere opportuno aggiungere criteri di differenziazione dell’informazione rilasciata. Un’altra possibilità è quella di attendere che siano sottoposto più interrogazioni per applicare simultaneamente la protezione all’insieme richiesto, rilasciando le tabelle richieste con ritardo.

Nel documento A cura di (pagine 74-77)