Data Masking - So.Re.Sa. Linea guida sull'uso della crittografia, pseudonimizzazione e anonimiz

Codice documento: Pag. 18/30

Titolo Documento: Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali

Data: 09/10/2020 Versione: n.1.0

Nome file: SO.RE.SA_ Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali_09_10_2020_v1.0

• T-vicinanza: questa tecnica rappresenta un affinamento della l-l-diversità nel senso che mira a creare classi equivalenti che assomigliano alla distribuzione iniziale di attributi. L’impiego di questa tecnica è consigliato quando è importante mantenere i dati quanto più possibile prossimi a quelli originali.

La tabella seguente riporta i rischi legati all’adozione di una soluzione di anonimizzazione, basata sulla T-Vicinanza.

RISCHIO DESCRIZIONE

Individuazione Garantisce che i dati relativi a una persona non possano essere individuati all’interno della banca dati.

Correlabilità Permane la possibilità di collegare i dati per gruppi di utenti. La probabilitàà che le stesse informazioni appartengano alla medesima persona interessata è piùà elevata di 1/N (dove N rappresenta il numero di persone interessate nella banca dati).

Deduzione Viene eliminata la possibilitàà di attaccare tramite deduzione una banca dati “t-vicina” con una sicurezza del 100%.

2.4 DATA MASKING

Le tecniche di mascheramento dei dati, o Data Masking, prevedono la sostituzione, in modo irreversibile, del dato personale originale con un dato fittizio, preservando l’integrità sintattica e semantica del dato stesso.

Le tecniche di Data Masking, pertanto, risultano particolarmente utili per l’utilizzo dei dati in ambiente di test e sviluppo.

Le tecniche di Data Masking vengono suddivise in due tipologie principali:

• Mascheramento statico dei dati, o Static Data Masking;

• Mascheramento dinamico dei dati, o Dynamic Data Masking.

Nei paragrafi che seguono, sono descritte le principali proprietà delle due tipologie di tecniche indicate.

Mascheramento statico dei dati

Il mascheramento statico dei dati, o Static Data Masking, viene impiegato per il mascheramento dei dati residenti.

Le principali tecniche di mascheramento statico di dati sono:

• Extract, Transform, and Load (ETL): questa tecnica prevede tre fasi logiche per il mascheramento dei dati (Extract, Transform, e Load) eseguite mediante l’impiego di un server di mascheramento che gestisce la trasformazione dei dati tra la fonte di dati sorgente e il repository destinazione. Il server di mascheramento estrae i dati appositamente formattati dal repository (DB, Filesystem, etc.) (Extract), applica il Data Masking sulle colonne che contengono i dati personali estratti

Codice documento: Pag. 19/30

Titolo Documento: Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali

dall’ambiente di produzione mediante librerie di masking (Transform) e invia i dati mascherati al repository destinazione (Load);

• In Place Masking: questa tecnica viene utilizzata quando si ha la necessità di creare una copia dei dati all’interno del Database stesso, mascherando però tutti i campi che contengono dati personali.

Esistono due possibili approcci per realizzare la tecnica di In Place Masking, il primo prevede che venga prima creata una copia dell’intero Database e poi venga applicato il mascheramento sulla copia così realizzata prima che tali dati risultino disponibili, ciò comporta che il Database risulta offline fintanto che i dati personali non sono stati sovrascritti; il secondo prevede, invece, l’utilizzo di un Database di supporto al quale il Database sorgente trasferisce, in modo protetto, tutti i dati contenuti al suo interno e i quali vengano successivamente rinviati, a seguito del mascheramento, al Database sorgente. Questa tecnica, a differenza della ETL, prevede che il repository sorgente e quello di destinazione coincidono. Il principale vantaggio di questa tecnica è legato alle grandi possibilità tecniche e prestazionali di gestire e manipolare i dati offerte dai Database per realizzare tecniche di Data Masking ad alte prestazioni attraverso sfruttando funzionalità built-in e processi di archiviazione native del Database stesso per velocizzare il processo di mascheramento dei dati stesso.

Mascheramento dinamico dei dati

Il mascheramento dinamico dei dati, o Dynamic Data Masking, permette di limitare l’esposizione dei dati personali, nascondendoli agli utenti che non hanno i privilegi di accedervi. In questo caso, il mascheramento dei dati avviene in tempo reale.

Al fine di definire politiche di Dynamic Data Masking che garantiscano un adeguato livello di protezione, in linea con i principi descritti dal GDPR, devono essere valutati e definiti:

• i campi contenenti dati personali del Database che devono essere mascherati (data filtering);

• i criteri da utilizzare per il mascheramento;

• gli utenti ai quali devono essere attribuiti privilegi di accesso ai dati personali con copertura per le singole istruzioni di manipolazione dei dati (DML: select, insert, update, delete);

• le funzionalità di Dynamic Data Masking, ovvero mascheramento completo o parziale.

Le funzionalità di Dynamic Data Masking possono essere configurate sul Database per mascherare i dati personali presenti sui campi designati, senza alterare né le query precedentemente impostate sui Database né i dati presenti sullo stesso.

Il mascheramento dinamico può essere impiegato insieme ad altre tecniche, quali la cifratura dei dati, per garantire una maggiore protezione dei dati personali presenti sul Database.

Le principali tecniche di mascheramento dinamico dei dati sono:

• View-based Masks: questa tecnica prevede che sul Database vengano archiviati sia i dati in chiaro e sia una copia degli stessi dati mascherati. Pertanto, nel momento in cui viene lanciata una query, la piattaforma di mascheramento esamina le credenziali dell’utente che effettua la richiesta. Sulla base delle verifiche condotte dalla piattaforma di mascheramento, gli utenti abilitati ricevono una copia dei dati in chiaro mentre, gli utenti che non posseggono le credenziali, o ne posseggono solo una parte, ricevono una copia dei dati mascherati. Questa tecnica è applicabile solo alle operazioni SQL eseguite direttamente sulla base dati, previo accesso con autenticazione diretta dell’utente che

Codice documento: Pag. 20/30

Titolo Documento: Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali

sta richiedendo l’operazione (es: sviluppatori, DBA). Nel caso in cui l’accesso ai dati avvenga da una fonte applicativa, non sempre è possibile risalire all’utente che sta effettuando l’operazione (come ad esempio se l’accesso al Database avviene tramite un pool di connessioni), e quindi è necessario implementare una tecnica di mascheramento “Proxy-Based Masks”.

• Proxy-based Masks: questa tecnica prevede che la maschera ai dati venga applicata da un in-line service quando questi vengono inseriti o estratti dal Database. Nel momento in cui viene lanciata una query, questa viene intercettata e mascherata on the fly, i dati quindi vengono mascherati in maniera “trasparente” prima di essere restituiti all’utente che ha lanciato la query.

Principali vincoli al mascheramento dei dati

Esistono differenti tecniche che possono essere impiegate per il mascheramento dei dati personali. Tali tecniche presentano diversi livelli di efficacia e un differente impatto in termini di onerosità computazionale. Ad esempio, risulta più semplice sostituire una stringa numerica con una serie di ‘X’

piuttosto che applicare la cifratura dei dati stessi.

Tuttavia, nella scelta della tecnica di Data Masking più opportuna, esistono dei vincoli relativi alla tipologia dei dati di partenza e al formato che questi devono avere a seguito del mascheramento.

Di seguito si riportano alcuni dei principali vincoli da considerare, in funzione del campo di applicazione delle tecniche di mascheramento dei dati:

• Format Preserving: il processo di Data Masking deve restituire valori con la stessa struttura del dato originale. Un tipico esempio per illustrare la complessità introdotta da tale vincolo è rappresentato dalle date. In questo caso, infatti, l’algoritmo di mascheramento deve essere in grado di riconoscere il formato dei dati originali, restituendo una data in cui i valori ricadono nel range corretto per giorno, mese e anno (ad esempio la data “31.02.2010” è priva di significato e quindi non ammissibile).

• Data Type Preservation: nei Database relazionali, è essenziale mantenere il format dei dati quanto vengono mascherati da un Database ad un altro. In questi casi, infatti, le colonne delle tabelle devono essere formalmente definite e non ammettono stringhe di testo nei campi associate a date o valori numerici.

• Gender preservation: nella sostituzione di nomi di persona, i nomi maschili non devono essere sostituiti con nomi femminili e viceversa.

• Integrità semantica: alcuni Database contengono vincoli aggiuntivi sui dati archiviati al loro interno come il LUHN check per le carte di credito o il valore massimo per lo stipendio degli impiegati. In questo modo, viene assicurata sia l’integrità formale e che la tipologia del dato trattato.

• Integrità referenziale: un attributo in una tabella o in un file può referenziare valori presenti un’altra tabella o un altro file, pertanto tale referenza deve essere costantemente mantenuta.

L’ottimizzazione delle prestazioni dei Database relazionali si basano sulle relazioni esistenti tra i vari dati e tabelle. Utilizzare tecniche quali lo Shuffling su tali dati, potrebbe compromettere tali

relazioni. In questo caso, quindi, le tecniche di Data Masking devono essere in grado di mantenere l’integrità referenziale dei Database al fine di assicurare che i nuovi dati non generino errori e/o interruzioni sulle applicazioni che si basano su tali relazioni referenziali.

• Valore aggregato: la tecnica di Data Masking deve garantire che il valore aggregato e la media dei valori della colonna di dati ai quali viene applicato il mascheramento venga preservato.

Codice documento: Pag. 21/30

Titolo Documento: Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali

Data: 09/10/2020 Versione: n.1.0

Nome file: SO.RE.SA_ Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali_09_10_2020_v1.0

• Distribuzione di frequenza: in alcuni casi deve essere mantenuta la distribuzione dei dati originale, pertanto le tecniche che utilizzano distribuzioni randomiche per il mascheramento dei dati non possono essere utilizzate.

• Unicità: la tecnica utilizzata per il mascheramento dei dati deve garantire l’unicità dei dati stessi.

Questo requisito è particolarmente rilevante quando il mascheramento deve essere applicato su colonne utilizzate per relazionare le tabelle all’interno di un Database relazionale.

• Limitazioni e restrizioni: ogni implementazione Database prevede delle limitazioni e restrizioni sulla definizione delle regole per il mascheramento dei dati (es: data type non supportati, tabelle

temporanee, ...).

La tabella seguente riporta i rischi legati all’adozione di una soluzione di mascheramento.

RISCHIO DESCRIZIONE

Individuazione È ancora possibile individuare i dati riferiti a una persona (magari in modo non identificabile) anche se i dati sono meno affidabili.

Correlabilità È ancora possibile correlare i dati della stessa persona, ma i dati sono meno affidabili e pertanto un dato reale puòà essere correlato a un altro che è stato aggiunto artificialmente.

Deduzione Gli attacchi tramite deduzione sono possibili, ma la probabilitàà di successo è minore e potrebbero comparire alcuni falsi positivi (e falsi negativi).

Codice documento: Pag. 22/30

Titolo Documento: Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali

Data: 09/10/2020 Versione: n.1.0

Nome file: SO.RE.SA_ Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali_09_10_2020_v1.0

3 AMBITI TECNOLOGICI

Le differenti tecniche per la protezione dei dati personali possono essere applicate nei differenti ambiti tecnologici in base alle diverse modalità di trattamento dei dati:

• Dati a riposo;

• Dati in transito.

Nei paragrafi successivi, per ognuna di tali modalità, vengono descritte le principali tecniche di protezione applicabili.

Nel documento So.Re.Sa. Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali (pagine 18-22)