• Non ci sono risultati.

Metodologia Cbs

Nel documento A cura di (pagine 109-114)

PARTE TERZA

passo 3 cercando di sfruttare ulteriormente le informazioni relative al gruppo

6.3.2 Metodologia Cbs

(1 ) (1 )

ger ind ind ind

r r j v j h j r v h v r j r v j v j e e e e C C = = < =

3

dove : ( ) ( ) (1 ind) 1 v v h v r v s v s e C = < =

3

quando non ci sono valori di v che soddisfano la relazione v<j. Possiamo notare che il rischio per i record appartenenti allo stesso gruppo è costante. Ciò è legato al fatto che, grazie all’informazione relativa al gruppo di appartenenza, l’intruso, una volta individuato uno dei componenti del gruppo, ha contemporaneamente individuato anche gli altri componenti.

Anche se entrambi i metodi sopra descritti prevedono la costruzione di un rischio individuale le differenze sono comunque sostanziali

Infatti mentre Skinner e Holmes definiscono un rischio esclusivamente per i record che risultano essere casi unici nel file da rilasciare, Franconi e Benedetti definiscono un rischio per tutti i record contenuti in detto file, ciò fa si che in quest’ultimo approccio è possibile tener conto anche della eventuale struttura gerarchica del file stesso.

6.3.2 Metodologia Cbs

La metodologia di controllo del rischio di violazione che analizzeremo in questo paragrafo è stata sviluppata all’interno dell’Istituto nazionale di statistica olandese (Cbs) come riportata in Willenborg e de Waal, 1996, e Willenborg e de Waal, 2001.

Un importante concetto nell’ambito di questa teoria è la cosiddetta “chiave”, che indicheremo con k. Definiamo con il termine chiave una generica combinazione di modalità di variabili identificative indirette. Ad esempio supponiamo di avere tre variabili identificative indirette (sesso, stato civile, regione), le combinazioni delle modalità “maschio×celibe”, “maschio×Lazio” o anche “maschio×celibe×Lazio”, sono delle chiavi.

Da notare che ogni singolo record contenuto nel file dei microdati, così come le unità contenute nel registro esterno, è caratterizzato da più di una chiave in quanto nella stessa definizione non è fissato il numero delle variabili identificative indirette coinvolte nella combinazione.

La chiave è utilizzata per l’identificazione di un generico record contenuto nel file dei microdati e, in particolare, ciò può avvenire nel caso in cui l’unità da cui proviene il record è unica nella popolazione rispetto alla chiave considerata. Lo scopo della metodologia di Willenborg e de Waal è quello di evitare che tale situazione si verifichi. A tale scopo si applicano misure protettive ai record che provengono da unità che risultano essere casi unici nella popolazione rispetto ad una generica chiave. In pratica però non è detto che sia corretto proteggere esclusivamente tali record. Per questo si introduce il concetto di rarità e si considera la strategia che evita la presenza di record che presentano chiavi rare piuttosto che controllare esclusivamente i casi unici.

Per poter definire come rara una chiave è necessario fissare un valore soglia Dk, valore che può dipendere dalla chiave k considerata. Definiremo quindi una combinazione di modalità di variabili identificative indirette rara se essa si verifica nella popolazione per non più di Dk volte.

Ovviamente non sono note le frequenze delle chiavi nella popolazione (Fk) ed inoltre in molti casi si dispone esclusivamente del file dei microdati da rilasciare. Quindi, per poter stabilire se una chiave è rara o meno, è necessaria una stima della frequenza nella popolazione della chiave stessa. Verrà considerata rara la chiave per la quale la frequenza stimata Fˆk risulta minore del valore soglia Dk. Successivamente verranno descritti gli stimatori maggiormente utilizzati per ottenere la stima Fˆk.

Una volta definito il concetto di rarità per una combinazione chiave bisogna individuare quali combinazioni devono essere controllate. La determinazione di tale insieme di combinazioni dipende dal livello di rischio che l’istituto che rilascia i dati è disposto ad accettare. In pratica, per semplificare la definizione di tale insieme gli autori suddividono le variabili identificative indirette in gruppi sulla base dei quali è poi possibile definire le combinazioni da controllare.

Ad esempio la metodologia suddivide le variabili identificative indirette associando ad esse un particolare livello di “identificabilità”; ovvero variabili estremamente identificative, variabili molto identificative, variabili identificative. I criteri da utilizzare per una tale suddivisione in classi possono essere diversi, ad esempio si può far riferimento alla rarità, alla visibilità o alla rintracciabilità di particolari valori delle variabili stesse. Nelle intenzioni degli autori esiste una struttura gerarchica nella suddivisione in classi secondo i livelli di identificabilità sopra considerati, ovvero una variabile definita estremamente identificativa è anche molto identificativa per definizione e così via. Una volta associato un livello di identificabilità

a ciascuna variabile identificativa indiretta, è possibile decidere quali chiavi devono essere controllate. Per esempio è possibile richiedere un controllo solo per le chiavi del tipo variabile estremamente identificativa × variabile molto identificativa × variabile identificativa (nella definizione delle combinazioni bisogna ricordare la struttura gerarchica dei livelli di identificabilità). Possiamo notare che in una situazione come quella appena descritta verranno controllate chiavi che coinvolgono solo tre variabili identificative indirette.

La procedura appena descritta, unitamente ad alcune procedure di protezione, è stata implementata in un software statistico, µ-Argus, sviluppato dallo stesso Istituto di statistica olandese all’interno del progetto europeo Casc (Computational Aspects of Statistics Confidentiality) sulla tutela della riservatezza dei dati (per maggiori informazioni si rimanda al sito http://neon.vb.cbs.nl/casc/default.htm).

6.3.2.1 Stimatori delle frequenze nella popolazione nella metodologia Cbs

Nel seguito descriveremo molto brevemente gli stimatori più frequentemente utilizzati per la stima delle frequenze nella popolazione delle combinazioni di modalità di variabili identificative indirette Fk. In particolare l’interesse è stato rivolto all’individuazione di un buon stimatore per la quantità Fi k, , la frequenza della chiave k nella regione i, e definiscono una notazione che si accordi con quella utilizzata nella letteratura per la stima per piccole aree.

6.3.2.2 Stimatore indiretto

Sia fi k, la frequenza campionaria della chiave k nella regione i ed ni il numero degli individui campionati nella regione i. La frazione delle persone che presentano la combinazione di modalità k nella regione i, indicata con Di,k, può essere stimata con

, ,

ˆi k fi k/ni

D = . Lo stimatore diretto del numero delle persone nella regione i che presentano la chiave k è dato da:

, ,

ˆ ˆ

i k i k i F =D N

dove Niè il numero delle persone nella popolazione che vivono nella regione i.

Tale stimatore presenta dei problemi nel caso in cui i valori di fi siano piccoli. Per limitare tali problemi gli autori ipotizzano che gli individui nella popolazione che presentano la chiave k siano distribuiti in maniera omogenea su tutta la popolazione. Sotto queste ipotesi gli autori considerano la stima della frequenza relativa

,

ˆk i k/ i

i i

f n

D = e definiscono lo stimatore sintetico come:

,

ˆ ˆ

i k k i F =D N .

cui non sia soddisfatta la condizione di omogeneità di distribuzione degli individui che presentano la combinazione k, tale stimatore risulta essere fortemente distorto. Per mediare le proprietà dei due stimatori appena descritti gli autori considerano uno stimatore ulteriore detto stimatore di compromesso dato dalla combinazione dei due stimatori considerati in precedenza Dˆi k, ,Dˆk ovvero:

, ,

ˆˆi k Wi i kˆ (1 Wik

D = D + D

Capitolo 7. Rischio di violazione di dati elementari di

Nel documento A cura di (pagine 109-114)