• Non ci sono risultati.

Funzioni di Rischio globale

Nel documento A cura di (pagine 98-102)

PARTE TERZA

Capitolo 6. Rischio di violazione di dati individuali in ambito sociale(*)

6.2 Funzioni di Rischio globale

In questo paragrafo si considera la funzione del rischio di violazione come una misura del rischio associato all’intero file dei dati. In quest’ottica un ufficio di statistica che è interessato al rilascio di dati individuali dovrà stabilire una soglia di massimo livello di rischio che si è disposti ad accettare e ogni qualvolta un file presenti un rischio superiore a tale soglia, questo verrà modificato secondo alcune tecniche di protezione. L’applicazione di tali tecniche, dette anche di “contenimento del rischio”, comporta una diminuzione dell’informazione contenuta nel file e di conseguenza una riduzione del rischio di violazione ad esso associato. Questi metodi sono discussi nel Paragrafo 8.3 che è dedicato a una trattazione unitaria delle tecniche di protezione per i dati elementari (si veda in particolare i Paragrafi 8.3.1 e 8.3.2).

Tenendo conto di quanto detto nel Paragrafo 5.5 risulta che il rischio di identificazione globale è funzione di diversi fattori ed è quindi esprimibile come:

( , , , , ) g u c a I T R = f f f f f f .

dove con fu indichiamo la frequenza dei casi unici nel campione, con fc il tasso di campionamento della collezione campionaria, fa la frequenza relativa delle unità presenti nell’archivio esterno, fI la probabilità che le variabili siano codificate identicamente nei due file ed infine con fT la propensione dell’utente all’identificazione.

Per poter ottenere una effettiva stima del valore del rischio globale associato ad un determinato file bisognerà specificare la forma della funzione f e fissare o stimare i valori dei fattori di cui è funzione il rischio stesso.

Nel Paragrafo 6.2.1 si analizza la stima del numero di casi unici nella popolazione. Nel Paragrafo 6.2.2 è presentata una breve rassegna dei modelli di rischio.

6.2.1 Stima del numero dei casi unici

Il fattore che maggiormente influenza il rischio di violazione è sicuramente il numero dei casi unici nella popolazione. Come precedentemente notato tale valore è direttamente osservabile nel caso in cui il file dei microdati da rilasciare proviene da un’indagine censuaria, mentre nel caso di un’indagine campionaria tale valore dovrà essere stimato.

A tale scopo sono stati proposti diversi modelli. Il più noto tra questi è quello proposto da Bethlehem et al. nel 1990 detto anche modello Poisson-Gamma.

Consideriamo la tabella di contingenza associata all’insieme delle variabili identificative indirette; (ad esempio se nel file sono presenti sesso, età, stato civile e regione di residenza allora la tabella associata sarà sesso×età× stato civile× regione di residenza) ed indichiamo con:

N= numero delle unità della popolazione;

K= numero di combinazioni possibili di modalità di variabili identificative indirette ovvero il numero delle celle della tabella di contingenza associata;

Fi= numero di unità della popolazione che presentano la i-ma combinazione di modalità di variabili identificative indirette (i=1,…,K) ovvero frequenza della cella i-ma;

Up= numero dei casi unici nella popolazione ovvero il numero delle celle che presentano frequenza unitaria (Fi=1).

Nel modello teorico di Bethlehem si considera la tabella di contingenza associata alla popolazione di N unità come la realizzazione di K variabili aleatorie Yi (i=1,…,K) con distribuzione di Poisson di media µi= N:i, dove :i rappresenta la probabilità di una singola unità della popolazione di appartenere alla cella i-ma. La variabile Yi descrive quindi il numero delle unità della popolazione aventi combinazione i-ma e le sue realizzazioni y (y=0,1,…,N) corrispondono alle frequenze Fi; in particolare abbiamo:

exp( ) Pr( ) ! y i i i Y y y µ µ = = .

Per poter ottenere la stima del numero dei casi unici occorre stimare i valori attesi

i

µ per i=1,…,K. Essendo K generalmente piuttosto elevato, per risolvere il problema di stima si assume che le :isiano realizzazioni di K variabili aleatorie indipendenti di tipo Gamma con parametri 1 e (con 1 =1/K) ed inoltre si assume che tali parametri siano indipendenti dalle caratteristiche delle celle e quindi uguali per tutte. Sotto queste ipotesi (modello Poisson-Gamma) otteniamo che la distribuzione marginale di ogni Y è una binomiale negativa ovvero:

( ) ( ) Pr( ) ( ) ( 1) (1 ) y i y y N Y y y N 1 1 1 + ; + = = ; ; + + (6.1)

dove ; <( )è la funzione gamma.

In base alla (6.1) la probabilità di avere un caso unico nella cella i-ma è dato da:

( 1)

Pr(Yi 1) N(1 N )

K

1+

= = +

e il numero atteso dei casi unici nella popolazione sarà dato da:

( 1)

E(Up)=KPr(Yi = =1) N(1+N ) 1+

e dipende dai parametri incogniti 1 e . Per ottenere una stima di tale valore bisogna stimare i parametri 1 e i quali, a partire dai dati campionari disponibili, possono essere stimati con diversi metodi, ad esempio come il metodo dei momenti o quello della massima verosimiglianza. Nell’ottica di questo approccio otteniamo: Uˆp=E Uˆ ( )p , ossia una stima del numero atteso di casi unici nella popolazione.

Diverse applicazioni a dati reali o simulati hanno dimostrato che l’uso del modello Poisson-Gamma per la stima del numero dei casi unici porta a risultati instabili. In particolare ricordiamo lo studio condotto da Biggeri e Zannella (1991) i quali hanno utilizzato due diversi insiemi di microdati relativi ad indagini condotte in Italia e hanno stimato il numero di casi unici fissando diversi insiemi di variabili identificative. La stima è risultata accettabile solo nel caso di un numero ridotto di variabili identificative, con una distorsione crescente al crescere del numero delle variabili stesse; inoltre l’applicazione di tale metodo ha messo in evidenza una crescente sottostima dei casi unici al diminuire della numerosità campionaria e ad una instabilità nel caso in cui il numero dei casi unici da stimare è relativo a delle sottopopolazioni.

A partire dalle considerazioni appena fatte Skinner e Holmes (1993) propongono un diverso modello nel quale, come nel modello proposto da Bethlehem, si assumono le Yi distribuite come una Poisson con parametri µi ma, a differenza del modello precedentemente analizzato, tali parametri vengono considerati come realizzazioni di variabili di tipo Lognormale.

Un netto miglioramento è stato ottenuto da Crescenzi (1993) considerando un modello che si basa sulla combinazione di una Binomiale Negativa con una Gamma. Consideriamo 1 e = i parametri di una tale distribuzione e due insiemi di dati di dimensione N1ed N2. Conoscendo il numero dei casi unici contenuti nel primo insieme dei dati è possibile prevedere il numero dei casi unici contenuti nel secondo insieme

mediante una funzione, del tipo: ( 1) 2 2 1 1 1 1 log N ( , ) U U U PF N 1 = 1 = + " " ## = $$ + $ %%% = & ' & ' .

La funzione PF( )< è detta funzione di previsione e stabilisce una relazione fra la dimensione del file di dati ed il numero dei casi unici in esso presenti. Se con

2

U indichiamo Up, il numero dei casi unici nella popolazione, e con U1 il numero dei casi unici campionari, la funzione di previsione indica la relazione intercorrente tra i casi unici campionari e quelli nella popolazione. La funzione di previsione dipende dai parametri incogniti 1 e = quindi per ottenere la stima Uˆp bisogna stimare detti parametri. A tale scopo Crescenzi (1993) propone un metodo iterativo che fornisce una soluzione numerica per la stima di 1e=.

6.2.2 Modelli di rischio

Abbiamo precedentemente sottolineato come per ottenere un’effettiva stima del rischio di un file di microdati sia necessario, oltre alla determinazione o stima dei diversi fattori che lo influenzano, specificare la forma della funzione f.

In letteratura è possibile trovare diverse proposte. Il primo tentativo di quantificazione del rischio di violazione associato ad un file di microdati lo troviamo in Bethlehem et al. (1990).

Il modello proposto si basa esclusivamente sulla stima del numero atteso di casi che sono unici nella popolazione e che sono stati inclusi nel campione, Upc. Secondo questo criterio, detto criterio assoluto, il rischio globale Rg associato al file dei microdati viene posto uguale a tale quantità, la cui stima sarà data da:

ˆ ˆ ˆ g pc p n R U U N = =

dove Uˆp è la stima del numero atteso dei casi unici nella popolazione ottenuta con il modello Poisson-Gamma proposto dallo stesso Bethlehem e precedentemente descritto.

Nella letteratura internazionale vengono prese in considerazione due particolari funzioni del rischio (RV1 e RV2) le quali, a differenza della funzione proposta da Bethlehem, non dipendono solo dal numero dei casi unici nella popolazione ma sono funzioni anche di altri fattori (descritti nel Paragrafo 5.5), che influenzano il rischio stesso come: il tasso di campionamento della collezione campionaria, la frequenza relativa delle unità presenti nell’archivio esterno, la probabilità che le variabili siano codificate identicamente nei due file e la propensione dell’utente all’identificazione.

Indicando con X la variabile casuale che rappresenta il numero di identificazioni nel file da rilasciare, il numero medio atteso può essere scritto come:

( ) u c a I T

E X N f f f f f

µ = = .

probabilità che si abbia almeno una identificazione è data da:

{ }

Pr(X > =0) 1 Pr(X = =0) 1 exp µ .

Una prima misura del rischio di violazione può essere data dal numero atteso di unità del file che sono identificabili rapportato alla numerosità del campione, ottenendo così: 1 RV n µ = .

In generale il valore di RV1 è minore di 1. Per tale motivo si usa spesso esprimere il valore di RV1 in termini di numero di unità campione necessarie per avere un’identificazione.

Alternativamente la probabilità che, estratto un campione, esso contenga almeno un caso identificabile, può essere considerata come misura del rischio di violazione ovvero:

2 1 exp( ) 1 exp( u c a I T)

RV = µ = N f f f f f .

La funzione del rischio RV2 è un’estensione della funzione proposta da Mokken et al. (1992) in cui, come fattori che influenzano il rischio, vengono considerati esclusivamente il tasso di campionamento, la frequenza nel campione di casi unici della popolazione e la proporzione di unità presenti anche nell’archivio esterno.

In particolare ricordiamo che la procedura di controllo di violazione della riservatezza di file di microdati che veniva applicata in precedenza in Istat prevedeva l’utilizzo della funzione RV1 come funzione del rischio, mentre come procedura per la stima del numero dei casi unici della popolazione veniva applicata la procedura proposta da Crescenzi (1993) descritta nel paragrafo precedente.

Nel documento A cura di (pagine 98-102)