Codice documento: Pag. 14/30
Titolo Documento: Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali
Data: 09/10/2020 Versione: n.1.0
Nome file: SO.RE.SA_ Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali_09_10_2020_v1.0
tipicamente sull’applicazione di un meccanismo di crittografia univoca o sull’assegnazione, tramite una funzione indicizzata, di un numero sequenziale o di un numero generato casualmente che non deriva matematicamente dai dati originali. Rappresenta una soluzione qualora i dati sensibili vengano memorizzati su diversi sistemi distribuiti all'interno dell’infrastruttura informatica.
La tabella seguente riporta i rischi legati all’adozione di una soluzione di tokenizzazione.
RISCHIO DESCRIZIONE
Individuazione È ancora possibile individuare i dati delle persone, in quanto queste ultime sono identificate da un attributo unico che è il risultato della funzione di tokenizzazione.
Correlabilità È ancora possibile correlare i dati, che utilizzano lo stesso attributo cifrato per fare riferimento alla stessa persona. L’operazione è anche molto semplice, benché per la stessa persona interessata siano utilizzati diversi attributi tokenizzati, attraverso la correlazione di ulteriori attributi riferibili al soggetto. Il rischio si riduce
sostanzialmente nel caso in cui nessun altro attributo contenuto nell’insieme di dati possa essere utilizzato per identificare la
persona interessata e se è stato eliminato ogni legame tra l’attributo originario e quello tokenizzato (compresa la cancellazione dei dati originali). In questo caso, infatti, non sussiste alcun riferimento incrociato ovvio tra due insiemi di dati che utilizzano attributi tokenizzati diversi.
Deduzione È ancora possibile dedurre l’identità reale di una persona
interessata, all’interno dell’insieme di dati o tra diversi insiemi di dati che utilizzano lo stesso attributo tokenizzato per una persona. Il rischio permane anche se gli attributi tokenizzati sono molto evidenti e non mascherano adeguatamente l’identitàà originale della persona interessata.
2.3 ANONIMIZZAZIONE
L’anonimizzazione è un meccanismo mirato a rendere anonimi i dati personali, questi devono essere privati di elementi che consentono di ricondurre i dati ad un soggetto identificato o identificabile.
Un’efficace soluzione di anonimizzazione impedisce:
• di identificare un interessato in un insieme di dati;
• di collegare due dati all’interno di un insieme di dati (o tra più insiemi distinti di dati);
• di dedurre informazioni da tale insieme di dati.
Codice documento: Pag. 15/30
Titolo Documento: Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali
Data: 09/10/2020 Versione: n.1.0
Nome file: SO.RE.SA_ Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali_09_10_2020_v1.0
Inoltre, una caratteristica importante dell’anonimizzazione è che tale trattamento deve essere irreversibile e non riproducibile.
In generale, si possono distinguere due meccanismi di anonimizzazione:
• Anonimizzazione non univoca: il meccanismo di anonimizzazione non univoca prevede che il dato personale venga sostituito totalmente, o parzialmente, con caratteri non significativi (es. asterischi), con la conseguente perdita della possibilità di identificare il soggetto associato al dato. L’utilizzo dell’anonimizzazione mediante sostituzione totale dei dati personali con caratteri non significativi, può essere adottata in tutti i casi in cui non è necessario mantenere l'univocità del dato;
Anonimizzazione univoca: il meccanismo di anonimizzazione univoca prevede la sostituzione dei dati personali tramite un algoritmo di trasformazione che permette di rispettare le seguenti caratteristiche:
o conversione del dato identificativo in un codice univoco;
o impossibilità di ricostruzione di tale associazione.
Di fatto, l’anonimizzazione si ottiene rendendo permanente l’impossibilità di riutilizzare la tabella di transcodifica successivamente al suo impiego per la trasformazione dei dati identificativi in codici univoci, e non, senza conservare alcun tipo di informazione circa i dati di input trattati.
Un dato personale reso anonimo cessa di essere un dato identificativo e di conseguenza perde anche la caratteristica di essere considerato personale.
Esistono due diversi approcci per l’anonimizzazione univoca dei dati che permettono di garantire un livello adeguato di protezione ai dati personali: il primo si basa sulla randomizzazione, mentre il secondo si basa sulla generalizzazione.
Randomizzazione
La randomizzazione è una famiglia di tecniche di anonimizzazione che modifica la veridicità dei dati al fine di eliminare la correlazione che esiste tra i dati e la persona. Se i dati sono sufficientemente incerti non possono più essere riferiti a una persona specifica.
Di seguito vengono riportate le principali tecniche di randomizzazione:
• Rumore statistico: questa tecnica consiste nel modificare gli attributi contenuti in un set di dati in modo tale da renderli meno accurati (ad esempio, sostituendo ad ogni valore numerico un arrotondamento dello stesso). Nell’effettuare la trasformazione del dato deve essere mantenuta la coerenza dal punto di vista semantico del dato stesso, altrimenti la tecnica perde di efficacia.
L’aggiunta di rumore statistico deve essere accompagnata da altre tecniche di anonimizzazione, quali l’eliminazione degli attributi ovvi e dei quasi identificatori (un dato che può identificare parzialmente un individuo in un dataset ad esempio la data di nascita, il sesso, il codice postale). La valutazione di questi attributi deve essere condotta all’interno del perimetro di riferimento dei dati stessi.
La tabella seguente riporta i rischi legati all’adozione di una soluzione di anonimizzazione, basata sul rumore statistico.
Codice documento: Pag. 16/30
Titolo Documento: Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali
Data: 09/10/2020 Versione: n.1.0
Nome file: SO.RE.SA_ Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali_09_10_2020_v1.0
RISCHIO DESCRIZIONE
Individuazione È ancora possibile individuare i dati riferiti a una persona (magari in modo non identificabile) anche se i dati sono meno affidabili.
Correlabilità È ancora possibile correlare i dati della stessa persona, ma i dati sono meno affidabili e pertanto un dato reale puòà essere correlato a un altro che è stato aggiunto artificialmente.
Deduzione Gli attacchi tramite deduzione sono possibili, ma la probabilitàà di successo è minore e potrebbero comparire alcuni falsi positivi (e falsi negativi).
• Permutazione: questa tecnica consiste nel mescolare i valori degli attributi all’interno di una tabella in modo tale che alcuni di essi risultino artificialmente collegati a soggetti diversi. Questa tecnica risulta particolarmente utile nei casi in cui è importante mantenere l’esatta distribuzione di ciascun attributo all’interno dell’insieme di dati. La permutazione può essere considerata una forma speciale di aggiunta di rumore statistico infatti, nella tecnica classica di aggiunta del rumore, gli attributi vengono modificati mediante valori randomizzati. Le tecniche di permutazione modificano i valori contenuti nell’insieme di dati semplicemente permutandoli da un dato all’altro. Tali scambi garantiscono che la gamma dei valori e la loro distribuzione rimangano invariate. L’utilizzo di tecniche di permutazione si adatta, inoltre, ai casi in cui tra due o più attributi sussiste un legame logico o di correlazione statistica perché la permutazione indipendente degli stessi elimina tale legame. Nel caso invece tale correlazione debba essere mantenuta, può essere effettuata una permutazione a blocchi, aumentando però il rischio che un attaccante riesca a risalire ai dati originali. Per la permutazione, dovrebbero essere selezionati esclusivamente dati particolari al fine di ridurre i rischi o che questi, a valle della permutazione, risultino ancora associati all’attributo originale.
La tabella seguente riporta i rischi legati all’adozione di una soluzione di anonimizzazione, basata sulla permutazione.
RISCHIO DESCRIZIONE
Individuazione È ancora possibile individuare i dati riferiti a una persona (magari in modo non identificabile) anche se i dati sono meno affidabili.
Correlabilità Impedisce una correlazione “corretta” di attributi a un insieme di dati sia internamente sia esternamente (per attributi e quasi identificatori);
consente una correlabilità “non corretta”, in quanto
un’immissione reale potrebbe essere associata a una persona interessata diversa.
Deduzione Gli attacchi tramite deduzione sono possibili, ma la probabilitàà di successo è minore e potrebbero comparire falsi positivi e negativi).
Generalizzazione
La generalizzazione rappresenta la seconda famiglia di tecniche di anonimizzazione univoca e consiste nel
Codice documento: Pag. 17/30
Titolo Documento: Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali
Data: 09/10/2020 Versione: n.1.0
Nome file: SO.RE.SA_ Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali_09_10_2020_v1.0
generalizzare gli attributi delle persone interessate modificando la rispettiva scala o ordine di grandezza (ad esempio sostituendo la settimana con il mese).
Di seguito vengono riportate le principali tecniche di generalizzazione:
• Aggregazione e k-anonimato: queste tecniche prevedono la classificazione dei dati personali in cluster di numerosità k. A tale scopo, i valori degli attributi sono sottoposti a una generalizzazione tale da attribuire a ciascuna persona il medesimo valore. Questi metodi possono essere utilizzati nei casi in cui la correlazione di valori puntuali di attributi possano costituire dei facili identificatori degli interessati. Poiché lo stesso attributo viene condiviso da k utenti, più alto è il valore di k, maggiori sono le garanzie in termini di protezione dei dati personali.
La tabella seguente riporta i rischi legati all’adozione di una soluzione di anonimizzazione, basata sull’aggregazione e k-anonimato.
RISCHIO DESCRIZIONE
Individuazione I medesimi attributi sono condivisi da k utenti, non dovrebbe piùà essere possibile individuare una persona all’interno di un gruppo di k utenti.
Correlabilità Permane la possibilitàà di collegare i dati per gruppi di k utenti.
All’interno di tale gruppo, la probabilitàà che due dati corrispondano agli stessi pseudoidentificatori è pari a 1/k.
Deduzione Non protegge da alcun tipo di attacco tramite deduzione; in contesti
“protetti”, ovvero k persone appartenenti allo stesso gruppo o gruppo di appartenenza noto, è facile risalire al fattore k.
• L-L-diversità: questa tecnica amplia la tecnica di k-anonimato assicurando che, all’interno di ogni classe di equivalenza, ogni attributo abbia almeno i valori diversi. In questo modo viene limitata la presenza di classi di equivalenza con una scarsa variabilità degli attributi e assicurando una maggiore protezione dei dati personali in caso di attacco.
La tabella seguente riporta i rischi legati all’adozione di una soluzione di anonimizzazione, basata sulla L-L-diversità.
RISCHIO DESCRIZIONE
Individuazione Garantisce che i dati relativi a una persona non possano essere individuati all’interno della banca dati.
Correlabilità Permane la possibilità di collegare i dati per gruppi di utenti. La probabilitàà che le stesse informazioni appartengano alla medesima persona interessata è piùà elevata di 1/N (dove N rappresenta il numero di persone interessate nella banca dati).
Deduzione Viene eliminata la possibilitàà di attaccare tramite deduzione una banca dati “l-diversa” con una sicurezza del 100%.
Codice documento: Pag. 18/30
Titolo Documento: Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali
Data: 09/10/2020 Versione: n.1.0
Nome file: SO.RE.SA_ Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali_09_10_2020_v1.0
• T-vicinanza: questa tecnica rappresenta un affinamento della l-l-diversità nel senso che mira a creare classi equivalenti che assomigliano alla distribuzione iniziale di attributi. L’impiego di questa tecnica è consigliato quando è importante mantenere i dati quanto più possibile prossimi a quelli originali.
La tabella seguente riporta i rischi legati all’adozione di una soluzione di anonimizzazione, basata sulla T-Vicinanza.
RISCHIO DESCRIZIONE
Individuazione Garantisce che i dati relativi a una persona non possano essere individuati all’interno della banca dati.
Correlabilità Permane la possibilità di collegare i dati per gruppi di utenti. La probabilitàà che le stesse informazioni appartengano alla medesima persona interessata è piùà elevata di 1/N (dove N rappresenta il numero di persone interessate nella banca dati).
Deduzione Viene eliminata la possibilitàà di attaccare tramite deduzione una banca dati “t-vicina” con una sicurezza del 100%.