PARTE TERZA
Capitolo 7. Rischio di violazione di dati elementari di impresa(*)
7.1 Introduzione
Nella pratica, trattare dati sulle persone fisiche è sostanzialmente diverso dal trattare dati sulle imprese, e questo si riflette necessariamente anche sui metodi di protezione. Per i dati sociali sono generalmente ritenute sufficienti tecniche di protezione non perturbative, che comportano una riduzione, ma non un’alterazione, del contenuto informativo dell’informazione rilevata.
Nel caso delle imprese, invece, a causa dell’elevato rischio di identificazione connesso a questo tipo di dati per le ragioni che si vedranno in seguito, i metodi proposti sono prevalentemente di tipo “perturbativo”: il file di microdati viene prodotto a partire dai dati originali modificandoli, secondo qualche criterio, con l’obiettivo primario di rendere più difficile e incerta l’eventuale identificazione e disincentivare i tentativi di violazione. In caso di re-identificazione l’intruso acquisisce informazioni “alterate” e quindi potenzialmente meno utili perché difformi rispetto alle originali, in misura non nota all’utente stesso. E’ chiaro che l’efficacia di questi metodi dipende dall’entità delle modifiche apportate ai dati e che la stessa incide sulla qualità dell’informazione rilasciata. Questi due aspetti sono, generalmente, in contrasto tra di loro. Obiettivo delle tecniche di perturbazione è quello di trovare il miglior equilibrio che garantisca la protezione del dato e riduca al massimo la perdita di informazione.
Un’osservazione si rende necessaria riguardo alle tecniche di protezione dei dati di impresa e riguarda il rischio di identificazione. Nel caso dei dati sociali il rischio di identificazione è generalmente misurato a priori della protezione dei dati, come visto nel Capitolo 6 e ridotto con opportuni provvedimenti che garantiscono il rispetto di una soglia di rischio fissata. Nel caso dei metodi di protezione proposti per i dati di impresa questo controllo può essere fatto solo a posteriori, verificando che i dati prodotti non consentano l’identificazione di qualche unità statistica, anche se in alcuni casi si potrebbe ragionevolmente assumere che tale eventualità sarebbe molto remota. Le proposte per effettuare questa operazione afferiscono alle tecniche di record linkage e di abbinamento statistico (statistical matching), ma una soluzione soddisfacente non è ancora stata raggiunta sia per la complessità computazionale del problema che per la difficoltà di rappresentare i comportamenti dei possibili intruder e le informazioni a loro disposizione, operazione quest’ultima che introduce inevitabilmente degli elementi di arbitrarietà.
7.2 Fattori di rischio nei dati di impresa
La comunicazione della presidenza Istat prot. n.SP/250.94 del 23.3.94 permette il rilascio ad utenti esterni al Sistan di collezioni campionarie di dati elementari resi anonimi per quanto concerne indagini su individui e famiglie, evidenziando che il (*) Capitolo redatto da Giovanni Seri
rischio di identificazione delle unità statistiche in ambito economico risulta troppo elevato soprattutto per le imprese grandi e/o quelle che vengono incluse nel campione con probabilità di inclusione uno. D’altro canto le esperienze di rilascio di microdati di impresa riportate in letteratura sono rare e molti tentativi di produrre file di questo tipo non sono andati a buon fine o perché non si è riusciti a ridurre sufficientemente il rischio di identificazione o perché non si è riusciti a riprodurre con qualità accettabile le peculiarità dei dati originali (Mc Guckin e Nguyen, 1990). Infatti, i metodi statistici utilizzati per limitare il rischio di identificazione nel caso di file di microdati per gli individui non sono efficaci nel caso delle imprese e quelli specifici proposti per la protezione dei dati economici hanno un impatto più consistente sul contenuto informativo del file. Tale limitazione è dovuta alla natura stessa dell’impresa come unità di rilevazione e alle sue caratteristiche in termini di distribuzione per classi dimensionali. In particolare, le principali caratteristiche che rendono difficoltosa la tutela della riservatezza di tale tipologia di dati possono essere così sintetizzate:
- la popolazione: l’identificabilità dei dati di impresa è facilitata dal tipo di popolazione. Le popolazioni di imprese sono sparse e con distribuzioni fortemente asimmetriche: ciò significa che alcune aziende, soprattutto quelle di elevate dimensioni, possono essere riconosciute facilmente (Cox, 1995b);
- la distribuzione territoriale: esistono aree ad alta concentrazione di imprese e di conseguenza, al di fuori di queste realtà locali, le imprese possono essere facilmente identificabili;
- i legami gerarchici: le imprese sono caratterizzate da legami aventi struttura gerarchica - ciascuna impresa è suddivisa in unità locali e talvolta può appartenere ad un gruppo o cartello di imprese. Ciò facilita i collegamenti tra dati di impresa e, di conseguenza, facilita la violazione della riservatezza: è infatti possibile analizzare i dati collegando le unità locali all’impresa e le imprese al gruppo;
- il disegno campionario: in alcune indagini, per ottenere una visione non distorta e rappresentativa del fenomeno in studio, è necessario includere (con probabilità uno) le grandi imprese, che sono altamente riconoscibili e per le quali è indispensabile sia l’accuratezza che la completezza delle informazioni. Il disegno campionario deve prevedere che queste imprese vengano sempre inserite nel campione, fornendo così ulteriori informazioni all’utente esterno che tenti l’identificazione (Cox, 1995b). Per gli stessi motivi di completezza e accuratezza delle informazioni non è sempre possibile rimuovere i record relativi a queste imprese dal file prodotto;
- la “motivazione”: esiste un interesse particolare nel violare la riservatezza delle imprese. In genere, la riservatezza di un individuo rappresenta un problema sociale che riguarda la sua privacy; per quanto concerne l’impresa, invece, l’interesse si rivolge essenzialmente ad informazioni di tipo economico e quindi a delicati meccanismi di concorrenza di mercato.
Il rischio di violazione, interpretato come rischio di identificazione, porta intuitivamente a considerare maggiormente identificabili le unità statistiche che presentano caratteristiche uniche, o comunque rare, nella popolazione rispetto alle
variabili che vengono rilevate sulle imprese. In particolare, rispetto a variabili strutturali come la classificazione delle unità statistiche secondo l’attività economica prevalente e la collocazione geografica. In Italia la classificazione delle attività economiche (Ateco) ha una struttura gerarchica su sei livelli e consente un dettaglio di informazione notevole, tant’è che raramente si riesce ad utilizzare l’ultimo livello per la diffusione. Analogamente il dettaglio geografico che è normalmente basato sulle suddivisioni amministrative del territorio. In molti casi basta avere queste due informazioni a un livello sufficientemente dettagliato per individuare un’impresa. Per questo, in genere, la popolazione che viene presa in considerazione per l’applicazione di metodi di protezione è definita proprio dalla combinazione di queste due variabili tenendo conto della numerosità e delle caratteristiche delle imprese presenti.
La dimensione dell’impresa è un aspetto critico da considerare. Infatti, molte variabili rilevate sulle imprese sono di natura quantitativa e rappresentano direttamente o indirettamente (variabili proxy) la dimensione di impresa. Anche per questo uno schema della valutazione del rischio di identificazione basato sulla “rarità” di certe caratteristiche nella popolazione rispetto a un insieme di variabili chiave mal si adatta al caso delle imprese. Infatti, poiché le variabili quantitative proxy della dimensione di impresa si prestano naturalmente come variabili chiave (identificativi indiretti) il rischio di re-identificazione per le imprese è generalmente molto elevato perché le stesse presentano caratteristiche uniche (o rare) nella popolazione rispetto a un (limitato) insieme di variabili chiave. Per fare un esempio, supponiamo di aver limitato la popolazione alla ripartizione geografica del Nord-ovest e al settore di attività economica “Produzione di mezzi di trasporto”. E’ sufficiente che venga rilasciato una caratteristica rappresentativa della dimensione dell’impresa come il “fatturato”, il “numero di addetti” o il “costo per acquisto di materie prime”, perché un’impresa grande e ben nota come la Fiat venga quasi certamente riconosciuta.