I dati individuali - Il rilascio dei dati individuali (*)

PARTE TERZA

**Capitolo 5. Il rilascio dei dati individuali (*)**

5.2 I dati individuali

Consideriamo l’insieme dei dati che si intende rilasciare come una matrice (*) Capitolo redatto da Giovanni Seri eccetto i paragrafi 5.4 e 5.5 redatti rispettivamente da Luisa Franconi e da Alessandra Capobianchi

{ } (

a_ij ( , )_{n k} , ( , )_{n q}

)

= =

A X C dove il generico elemento a_ij è il valore della j ma variabile assunta dalla i ma unità statistica. Fino a questo momento i dati contenuti nella matrice A non hanno subito nessun trattamento ai fini della tutela statistica della riservatezza.

Le righe della matrice (o i record del file) corrispondono, pertanto alle n unità statistiche campionarie rilevate da un’indagine su una popolazione U ampiezza N

(N n> ) individui. Le colonne della matrice A rappresentano, invece, le variabili da rilasciare. Ai fini della tutela della riservatezza statistica la matrice A è partizionata in due sottomatrici che raccolgono due differenti gruppi di variabili:

matrice X: k “variabili chiave” o “identificativi indiretti”; matrice C: q “variabili confidenziali” o “riservate”.

Per tale distinzione la matrice A si presenta nel seguente modo:

11 1 11 1 1 1 1 1 k q i ik i iq n nk n nq x x c c x x c c x x c c " # $ % $ % $ % = $ % $ % $ % & ' A … … … … … … … … … … .

Prima di descrivere la matrice precisiamo che, per quanto riguarda gli aspetti statistici trattati nel seguito, solo le variabili chiave hanno rilevanza; pertanto, considereremo equivalente riferirsi alla sola matrice X piuttosto che alla matrice A.

Le unità statistiche possono essere persone, famiglie, imprese o altre entità. Senza perdere in generalità possiamo considerare le unità statistiche come i soggetti il cui diritto alla riservatezza deve essere tutelato o anche, più sinteticamente, come “rispondenti”. Può capitare, infatti, che l’unità statistica non sia un soggetto da tutelare o che le notizie non siano fornite direttamente dagli interessati, ma che il contenuto dei dati sia comunque riservato. Ad esempio, si consideri un file in cui le unità statistiche sono le merci esportate da una nazione e che, quindi, i dati siano rilevati dai registri doganali. Una merce, in generale, non è portatrice del diritto alla tutela della riservatezza, ma, se la classificazione dei prodotti è sufficientemente dettagliata, il produttore di certi articoli può facilmente essere unico. Di conseguenza, tutte le informazioni riferite a quel prodotto sono automaticamente associate al produttore che è invece un soggetto da tutelare. Ancora, il caso di un file in cui le unità statistiche sono le famiglie dove i soggetti da tutelare sono i singoli componenti più che la famiglia stessa.

Va osservato, inoltre, che possono sussistere relazioni di dipendenza fra le unità statistiche di cui si deve tenere conto. Un esempio è stato appena citato e riguarda la relazione gerarchica fra un individuo e la famiglia a cui appartiene. Un’informazione sulla famiglia può contribuire a identificare un suo componente, come pure un’informazione su un individuo può contribuire all’identificazione di un altro componente della stessa famiglia. Analogamente per le imprese può essere identificata una struttura gerarchica che mette in relazione imprese appartenenti ad uno stesso gruppo proprietario.

file di microdati viene normalmente trattato dal punto di vista statistico con riferimento al rilascio di “collezioni campionarie” di dati elementari in quanto il rischio di violazione associato al rilascio di archivi censuari è generalmente ritenuto troppo elevato. D’altro canto la normativa è conforme a questa impostazione considerando la possibilità di rilascio di dati elementari solo sotto la forma di “collezioni campionarie” a prescindere che la rilevazione abbia avuto carattere censuario o meno. Le stesse considerazioni valgono anche per quelle indagini, più frequenti in ambito economico, che possono essere considerate parzialmente censuarie poiché alcune unità statistiche (ad esempio tutte le imprese con più di 50 addetti nel settore dei servizi) vengono incluse nel campione con probabilità 1.

Ovviamente, nell’ambito di un manuale metodologico, come vuole essere questo, non hanno interesse quei casi di rilascio di informazioni regolati da norme specifiche e che quindi non richiedono interventi dal punto di vista statistico come ad esempio il trasferimento di dati all’ufficio statistica della Comunità Europea in adempimento ai Regolamenti ufficiali che governano talune indagini.

Per quanto riguarda le colonne della matrice A, assumiamo, come è già stato fatto in precedenza, che gli identificativi diretti (o identificativi), ossia quelle caratteristiche quali il nome o la ragione sociale, l’indirizzo, il codice fiscale, eccetera che rendono l’unità statistica unica e quindi riconoscibile nella popolazione, siano sempre esclusi dal file di microdati che si intende rilasciare. Questa operazione a volte viene indicata come anonimizzazione di un file di microdati, ma vedremo in seguito che il processo di anonimizzazione è più complesso e consiste nell’eliminazione dei possibili riferimenti individuali, sia diretti che indiretti.

Per “variabili chiave” o “identificativi indiretti” intendiamo quelle variabili le cui modalità, da sole o in combinazione con le modalità di altre variabili chiave associate ad una unità statistica, contengono elementi che contribuiscono alla possibile identificazione dell’unità statistica stessa. In questa categoria rientrano quelle variabili che sono facilmente disponibili a chi volesse tentare l’identificazione di una unità statistica, ad esempio: l’età, la professione o il luogo di residenza per gli individui, oppure l’attività economica e la collocazione geografica per le imprese. Un laureato in statistica in un piccolo comune di 300 abitanti della Toscana è probabilmente un caso unico nella popolazione U e, quindi, riconoscibile da chiunque sia in grado di associare le due informazioni sul titolo di studio e il luogo di residenza a nome e cognome di quella unità statistica (ad esempio un suo conoscente impiegato nell’ufficio statistico dello stesso comune). In tale modo sarebbero rese note a chi effettua l’identificazione le informazioni contenute nelle q variabili “riservate” dell’indagine relative a quella persona. D’altro canto, riducendo il dettaglio dell’informazione geografica, l’informazione rilasciata sulla stessa unità potrebbe essere: “un laureato in statistica che vive in Toscana” e la sua identificazione risulterebbe certamente operazione ben più complessa. Nella stessa categoria di variabili chiave vanno considerate anche quelle variabili che, pur non essendo facilmente disponibili al destinatario del file rilasciato, consentono di acquisire elementi per l’identificazione. Un esempio tipico è il fatturato di un’impresa, che è rappresentativo (variabile proxy) della dimensione dell’impresa stessa. Dati il tipo di attività economica e la collocazione geografica di un’impresa, la sua dimensione può spesso consentire l’identificazione, specie per le grandi imprese. Si

pensi ad esempio alla Benetton nel settore tessile in Veneto o alla Fiat nel settore fabbricazione autovetture in Piemonte (o perfino in Italia). Analogo ragionamento è valido per le variabili quantitative correlate con la dimensione dell’impresa (numero di addetti, costi, eccetera). Anche per gli individui una variabile come il reddito può costituire un identificativo indiretto molto efficace (soprattutto se associato alla professione). Per questo, in genere, variabili particolarmente sensibili come il reddito degli individui vengono rilasciate solo previa adeguata riduzione in classi o addirittura escluse dal rilascio.

Le variabili “riservate”, invece, sono quelle reperibili esclusivamente nel file rilasciato e che non contengono informazioni utilizzabili per identificare le unità statistiche. Ad esempio, per un’impresa può essere considerata riservata una variabile come la “Quota di fatturato destinata a ricerca e sviluppo”, il “Paese di destinazione delle esportazioni” o anche il “Numero di presenze stagionali” per gli esercizi turistici. Per le persone gli esempi vanno da variabili come “Spese per l’acquisto di elettrodomestici” ad altre che toccano argomenti molto delicati quali la salute come “Causa del ricovero”.

Nell'ambito delle indagini sociali, dove le unità statistiche sono generalmente persone fisiche, le variabili chiave sono state talvolta definite “pubbliche” per il fatto che gli identificativi indiretti sono perlopiù informazioni contenute in registri pubblici come l’Anagrafe (data di nascita, residenza, eccetera).

Con l'introduzione della Legge 675/1996 il concetto di dato pubblico ha assunto il significato di "dati contenuti o provenienti da pubblici registri, elenchi, atti o documenti conoscibili da chiunque" ma per i nostri fini crediamo sia meglio definito il concetto di variabile chiave.

Un aspetto da considerare è che, in alcuni casi, informazioni su un singolo soggetto possono essere acquisite in forma nominativa dietro richiesta specifica agli opportuni organismi amministrativi, mentre le stesse informazioni eventualmente rilasciate da un Istituto nazionale di statistica sarebbero al più rintracciabili in un archivio non nominativo. Si pensi alle variabili contenute nei bilanci delle imprese. Queste sono disponibili mediante visura presso i Tribunali, tuttavia non possono essere diffuse da un Istituto nazionale di statistica che le ha rilevate direttamente presso l’impresa durante una rilevazione proprio perché la finalità statistica non contempla questo tipo di esigenza ed è, pertanto, soggetta al segreto statistico. Questo contribuisce ad ipotizzare che un intruso intenzionato a scoprire informazioni su un individuo o un’impresa preferisca richiederle direttamente se disponibili presso qualche registro, piuttosto che tentare di rintracciarle in un archivio non nominativo costituito per motivi statistici.

Nel documento A cura di (pagine 86-89)