• Non ci sono risultati.

P RIVACY E P ROTEZIONE DEI D ATI PERSONALI : LE CONTROMISURE S OMMARIO : 1 Tecnologie per la protezione dei dati e delle informazion

2. P RIVACY E NHANCING T ECHNOLOGIES

2.1. L' ANONIMATO E LA PROTEZIONE DEI DATI PERSONALI

2.1.2. L E TECNICHE DI ANONIMIZZAZIONE

Di seguito sono illustrate le principali tecniche di anonimizzazione secondo un analisi comparariva tratta dal parere Working Party ex art. 29 n. 216 - Opinion 05/2014 on Anonymisation Techniques del 10 Aprile 2014, che - fissati i mezzi tecnologici concorrenti sia in fase di anonimizzazione che re-idendentificazione e ragionevolmente utilizzabili per grado di sviluppo e disponibilità, ne evidenzia la capacità di prevenire i rischi o contrastare gli attacchi di individuazione, correlazione e deduzione; sono brevemente indicati i punti di forza – quindi garanzie e grado efficacia, e di debolezza – quindi vulnerabilità e insuccesso, impatto e ulteriori rischi per l'interessato. Il dominio delle funzioni di anonimizzazione è composto dai dati di trattamento originale rappresentanti, ad esempio, comportamento, attività o caratteristiche del soggetto interessato (includenti informazioni personali, private o anche sensibili)212. Nella figura proposta al paragrafo 2.1. si tratta delle informazioni contenute, tipicamente, nel livello intermedio o più esterno.

Le tecniche di anonimizzazione si distinguono in due categorie: randomizzazione e generalizzazione, entrambe puntano a rompere (o indebolire) il legame associativo tra i quasi- identificatori e gli attributi privati, introducendo nell'insieme di dati trattati un certo grado di incertezza (probabilistica) sull'attribuzione di un dato anonimizzato ad un soggetto interessato.

Nessuna delle due tecniche è esente da carenze: fissato il contesto informazionale, la tipologia di dati, i dispositivi e i soggetti interessati, alla più ottimale strategia di anonimizzazione concorrono funzioni diverse a maggior garanzia del mantenimento della de-identificazione. In generale tutte le tecniche sono precedute dalla eliminazione degli attributi ovvi o dei quasi- identificatori. Teoricamente - ad anonimizzazione avvenuta, dovrebbero essere mantenute distribuzione statistica complessiva, gamma di valori possibili, rendendo statisticamente uguali i valori aggregati indipendentemente se calcolati sui valori veri o randomizzati213.

Sul rispetto di quest'ultimo requisito si misurano efficacia e vulnerabilità delle varie funzioni, come sintetizzato nelle seguenti tabelle 3.1. e 3.2.

212 Si assume che tali dati possano essere rappresentati in modalità tabellare nella forma (attibuto_di_trattamento,

valore_immesso); i quasi-identificatori sono combinazioni qualsiasi di caratteristiche della persona utili ad identificarla; se l'identificazione è diretta i quasi-identificatori coincidono con i dati identificativi ai sensi dell'art. 4 comma 1) lettera n) del CODICE, ad esempio risulta un quasi-identificatore la combinazione (nome, cognome, data di nascita). In generale i dati da voler proteggere tramite anonimato sono quelli relativi agli attributi privati che tramite i quasi-identificatori e a loro volta tramite gli identificatori identificano il soggetto. Ad esempio nella combinazione (nome, cognome, codice fiscale, stipendo annuo) i primi 3 attributi formano un identificatore che identifica direttamente la persona e al contempo la associa al quarto attributo privato.

213 Ad esempio se in un insieme di dati gli attributi privati attengono dati economici di una persona (stipendio annuo)

l'anonimizzazione punta a scollegare questo dato dai dati identificativi la persona, ma dovrebbe essere mantenuta – senza variarne la correttezza e l'effettiva utilizzabilità, la finalità (ad esempio) di poter effettuare analisi statistiche sia aggregate (es. calcolo della media) sia longitudinali incrociando (in maniera invisibile) gli attributi privati con i quasi-identificatori (es. la media per fasce di età).

La randomizzazione raggruppa funzioni di anonimizzazione che falsano i dati riducendone la veridicità, puntano ad eliminare (o meglio attenuare) il legame associativo puntuale con la persona a cui si riferiscono, introducendo informazione pseudocasuale (rumore) o disordine nell'insieme di dati. In questo gruppo si distinguono:

(1) la permutazione – consiste nel mescolare casualmente i valori_immessi relativi ai dati di trattamento da anonimizzare permutandoli e disaccoppiandoli; l'attributo pur rimanendo invariato nel suo valore_immesso viene associato ad un diverso soggetto scelto a caso; (2) il rumore statistico – consiste nell'aggiungere informazione aleatoria ai valori_immessi

perturbandoli e rendendoli meno accurati;

(3) la privacy differenziale – consiste nell'affiancare ad un insieme di dati statistico214 un altro insieme che differisce dal primo al più per un solo elemento, tale che le risposte alla stessa interrogazione su entrambi siano indistinguibili con probabilità prossima a 1. Se ciò accade la probabilità di dedurre informazioni sull'unico individuo differente è prossima allo 0. Il secondo insieme viene costruito aggiungendo rumore statistico. Dovendo mantenere il primo insieme di dati, la privacy differenziale è considerabile una tecnica di pseudonimizzazione;

(4) Un'ulteriore tecnica di anonimizzazione per randomizzazione è quella dei questionari deliberati – che consiste nel contrastare la polarizzazione (cioè l'errore sistematico) dei questionari statistici215, anch'essi come nel caso della privacy differenziale presuppongono indagini con risposte aggregate e non specifiche. La tecnica del questionario deliberato consiste nella randomizzazione delle possibili risposte raggruppate a priori in categorie tale da consentire al soggetto di collocare correttamente la propria risposta senza percepire intrusioni per la propria riservatezza, e a chi somministra il questionario di sconoscere in quale gruppo ricade la risposta.

214 Gli insiemi di dati statistici (o base di dati statistici) sono insiemi ai quali si accede per interrogazioni aggregate riguardanti

gruppi di persone e non solo un individuo. Benché questi insiemi di dati non consentano interrogazioni specifiche, sotto certe condizioni è possibile risalire al singolo individuo

215 Il questionario polarizzato è una rilevazione statistica verso la quale la risposta viene omessa o falsata dalla persona che

Punti di Forza

Garanzie/Efficacia Vulnerabilità/InsuccessoPunti di Debolezza l'interessatoImpatto per

R an do m iz za zi on e P er m ut az io ne Invarianza di distribuzione statistica e gamma di valori complessive.

Riduce l'individuazione perché i dati sono (presi singolarmente) più incerti e meno affidabili. Riduce la deduzione perché variata la distribuzione dei

valori_immessi.

Erronea scelta del valore_immesso.

Inefficacia della casualità della permutazione.

Analisi longitudinali (tra quasi-identificatori e attributi) falsate.

Rottura del legame logico e di correlabilità tra i quasi- identificatori e gli attributi privati tremite corrispondenze poco plausibili, con conseguente:

Possibile riparazione del dato anonimizzato e ricostruzione della vera associazione tra gli attributi privati e gli identificatori (persone).

Debole rispetto alla correlabilità.

Associazione di un dato vero ad un'altra persona R um or e st at is ti

co I dati rumorosi riducono laprobabilità di deduzione,