So.Re.Sa. Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali

(1)

Codice documento: Pag. 1/30

Titolo Documento: Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali

Data: 09/10/2020 Versione: n.1.0

Nome file: SO.RE.SA_ Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei dati personali_09_10_2020_v1.0

So.Re.Sa.

Linea guida sull'uso della crittografia, pseudonimizzazione e anonimizzazione dei

dati personali

Autore/i: Francesco Daniele EY Advisory S.p.A.

Rivisto Da Helga Fineo IBM S.p.A.

Approvato Da: Nome e Cognome del Responsabile

So.Re.Sa. S.p.A.

Accettato Da: Nome e Cognome del Responsabile

So.Re.Sa. S.p.A.

Storia del documento

Data Versione Descrizione modifiche Autore

09/10/2020 1.0 Prima emissione Francesco Daniele

(2)

Indice

1 Introduzione...4

1.1 Campo di applicazione...4

1.2 Riferimenti...4

1.3 Definizioni...5

2 Tecniche per l’offuscamento dei dati personali...7

2.1 Tipologia di dati da proteggere...8

2.2 Pseudonimizzazione...9

2.2.1 Crittografia e tecniche...10

2.2.2 Tokenizzazione...13

2.3 Anonimizzazione...14

2.4 Data Masking...18

3 Ambiti tecnologici...22

3.1 Dati a riposo...22

3.1.1 Database...22

3.1.2 File system...24

3.1.3 Dispositivi portatili...24

3.1.4 Backup...25

3.2 Dati in transito...25

4 Gestione delle chiavi crittografiche...27

4.1 Ruoli...27

4.2 Processo di gestione delle chiavi...27

4.2.1 Tool a supporto del processo di gestione delle chiavi...29

4.2.2 Monitoraggio del processo di gestione delle chiavi di crittografia...29

(3)

Indice delle Tabelle

Tabella 1 – Definizioni...6 Tabella2 – Ruoli e Responsabilità...6

(4)

1 INTRODUZIONE

Le norme in materia di sicurezza delle informazioni e di protezione dei dati, in particolare quelli personali, introducono per le imprese l’obbligo di attuare misure tecniche di protezione adeguate (es.

pseudonimizzazione, mascheramento e anonimizzazione), per prevenire ed impedire l’accesso e l’utilizzo non autorizzato nelle operazioni di trattamento.

Il livello di sicurezza può ritenersi adeguato quando è in grado di contrastare in maniera efficace i rischi informatici connessi ai dati (distruzione, perdita, modifica, divulgazione non autorizzata, accesso in modo accidentale o illegale alle informazioni/dati trattati), tenendo conto dei seguenti fattori:

• la soglia di propensione al rischio definita all’interno dell’organizzazione;

• il contesto normativo del mercato di riferimento;

• la natura, l'oggetto, il contesto e le finalità del trattamento;

• lo stato dell’arte degli strumenti di sicurezza disponibili sul mercato.

1.1 CAMPO DI APPLICAZIONE

Il presente documento si applica a tutte le strutture aziendali, ai dipendenti e ai collaboratori.

1.2 RIFERIMENTI

Il presente paragrafo contiene la lista dei documenti di riferimento applicabili.

• D.Lgs.196/2003 - Codice in materia di protezione dei dati personali, emendato dal D.Lgs. 101/2018;

• Regolamento UE n. 679/2016 del Parlamento Europeo e del Consiglio del 27/04/2016 relativo alla protezione delle persone fisiche con riguardo al trattamento dei dati personali, nonché alla libera circolazione di tali dati e che abroga la direttiva 95/46/CE – General Data Protection Regulation (GDPR);

• D.Lgs.101/2018 - Disposizioni per l'adeguamento della normativa nazionale alle disposizioni del regolamento (UE) 2016/679 del Parlamento europeo e del Consiglio, del 27 aprile 2016, relativo alla protezione delle persone fisiche con riguardo al trattamento dei dati personali, nonché alla libera circolazione di tali dati e che abroga la direttiva 95/46/CE (regolamento generale sulla protezione dei dati);

• ARTICLE 29 Data Protection Working Party - Statement of the WP29 on encryption and their impact on the protection of individuals with regard to the processing of their personal data in the EU;

• ARTICLE 29 Data Protection Working Party - Opinion 05/2014 on Anonymisation Techniques;

• Direttiva (UE) 2015/2366 relativa ai servizi di pagamento nel mercato interno che modifica le direttive

(5)

1.3 DEFINIZIONI

Di seguito sono riportate le definizioni utilizzate nel documento:

Termine Descrizione

Crittografia È la tecnica che permette di cifrare un messaggio in una forma tale che l’informazione in esso contenuta possa essere riportata in forma originale solo dal destinatario.

Chiave Sequenza di simboli (numeri, caratteri, bit, ecc.) di lunghezza finita che viene impiegata come ingresso ad un algoritmo crittografico il quale ha un’uscita dipendente da essa.

Algoritmo di cifratura Algoritmo che, ricevuti in ingresso un messaggio in chiaro e una chiave di cifratura, produce in uscita messaggio cifrato.

Algoritmo di decifratura Algoritmo che, ricevuti in ingresso un messaggio cifrato, e la corrispondente chiave di decifratura, o decodifica, restituisce il messaggio in chiaro.

Cifrario o Sistema di Crittografia

Sistema costituito da un algoritmo di cifratura e dal corrispondente algoritmo

di decifratura e che si avvale quindi delle rispettive chiavi di cifratura e di decifratura.

Autorità di certificazione (CA)

Soggetto pubblico o privato che gode della fiducia di tutti gli utenti che operano nel sistema: effettua l’identificazione e la certificazione dei titolari di

chiavi, rilascia i certificati digitali, li inserisce in un archivio pubblico, pubblica e aggiorna gli elenchi dei certificati sospesi e revocati.

Chiavi asimmetriche La coppia di chiavi crittografiche, una privata (personale e segreta) ed una pubblica (che può essere distribuita), correlate tra loro, utilizzate nell'ambito dei sistemi di validazione di documenti informatici; a differenza della cifratura

simmetrica, la chiave di crittazione e decrittazione sono differenti.

Dato personale Qualsiasi informazione riguardante una persona fisica identificata o

identificabile («interessato»); si considera identificabile la persona fisica che può essere identificata, direttamente o indirettamente, con capticolare riferimento a un identificativo come il nome, un numero di identificazione, dati relativi all'ubicazione, un identificativo online o a uno o più elementi caratteristici della sua identità fisica, fisiologica, genetica, psichica, economica, culturale o sociale.

Trattamento Qualsiasi operazione o insieme di operazioni, compiute con o senza l'ausilio di processi automatizzati e applicate a dati personali o insiemi di dati personali, come la raccolta, la registrazione, l'organizzazione, la

strutturazione, la conservazione, l'adattamento o la modifica, l'estrazione, la consultazione, l'uso, la comunicazione mediante trasmissione, diffusione o

(6)

Termine Descrizione

qualsiasi altra forma di messa a disposizione, il raffronto o l'interconnessione,

la limitazione, la cancellazione o la distruzione.

Pseudonimizzazione Trattamento dei dati personali in modo tale che i dati personali non possano più essere attribuiti a un interessato specifico senza l'utilizzo di informazioni aggiuntive, a condizione che tali informazioni aggiuntive siano conservate separatamente e soggette a misure tecniche e organizzative intese a garantire

che tali dati personali non siano attribuiti a una persona fisica identificata o identificabile (Art. 4, Par. 5 del GDPR).

Anonimizzazione Tecnica di offuscamento, che impedisce che i dati personali selezionati siano riconducibili irreversibilmente all’interessato, a cui si riferiscono.

Tabella di transcodifica Tabella nella quale viene mantenuto il legame tra il dato pseudonimizzato e il dato personale originale.

Dati a riposo Dati archiviati sui database o su device portati quali hard disk, laptop e flash drive.

Dati in transito Dati scambiati tra due sistemi tramite la rete internet o la rete interna aziendale, o intranet.

Tabella 1 – Definizioni

(7)

2 TECNICHE PER L’OFFUSCAMENTO DEI DATI PERSONALI

Il Regolamento UE n. 679/2016 (GDPR) impone l’adozione di misure tecniche idonee a garantire un livello di sicurezza adeguato al rischio dei trattamenti (es. profilazione) e alla natura dei dati trattati (es. dati biometrici, dati di minori).

In materia di sicurezza del trattamento, la pseudonimizzazione e la cifratura dei dati personali rappresentano misure tecnico-organizzative in grado di garantire un livello di sicurezza adeguato al rischio, in grado di assicurare su base permanente la riservatezza e l'integrità dei dati stessi. La valutazione del livello di sicurezza adeguato deve tener conto dei rischi, relativamente al trattamento, derivanti dalla distruzione, dalla perdita, dalla modifica, dalla divulgazione non autorizzata o dall'accesso, in modo accidentale o illegale, a dati personali trasmessi, conservati o comunque trattati.

Le misure di sicurezza adottate devono, inoltre, essere frutto di un bilanciamento che tenga conto da un lato della valutazione dei rischi inerenti al trattamento e dall’altro delle misure tecnico organizzative disponibili per limitare tali rischi per i diritti e le libertà delle persone che i trattamenti presentano.

Nel caso in cui si verifichi una violazione di sicurezza impattante la riservatezza, l’integrità e/o la disponibilità dei dati personali, l’utilizzo di adeguate tecniche per la loro protezione (cifratura, mascheramento e/o anonimizzazione) permette di non dover effettuare alcuna comunicazione agli interessati ai sensi dell’art. 34, paragrafo 3, lett. a) del GDPR.

Infine, la scelta dei requisiti di sicurezza da adottare per aumentare il livello di protezione dei dati e delle informazioni presenti sugli applicativi, sui sistemi, sui Database e sui dispositivi portatili di pertinenza deve sempre privilegiare standard tecnologici riconosciuti, ricorrendo a tecniche proprietarie solamente in situazioni particolari espressamente giustificate e autorizzate. L’impiego di queste tipologie di tecniche, come ad esempio eventuali algoritmi di cifratura proprietari, deve sempre essere opportunamente documentato e sotto a validazione.

L'utilizzo di adeguati meccanismi di protezione deve essere valutato e applicato anche per categorie di dati differenti da quelli personali quali i dati aziendali classificati come confidenziali (requisito opzionale), riservati e segreti.

Nei prossimi paragrafi vengono approfondite le tecniche di offuscamento dei dati personali in coerenza con la loro tipologia, le modalità di applicazione e gli ambiti tecnologici di impiego per le suddette tecniche.

In particolare, per ognuna delle tecniche di protezione proposte, vengono analizzati i rischi residui relativi a:

 individuazione, possibilità di isolare alcuni, o tutti, i dati che identificano una persona all’interno dell’insieme di dati;

 correlabilità, possibilità di correlare almeno due dati concernenti la medesima persona interessata, o un gruppo di persone interessate, all’interno della medesima banca dati o in due o più banche dati;

 deduzione, possibilità di desumere, con un alto grado di probabilità, il valore di un attributo dai valori di un insieme di altri attributi.

(8)

2.1 TIPOLOGIA DI DATI DA PROTEGGERE

Nella tabella sottostante, sono riportate le tipologie di dati per le quali devono essere individuate ed applicate adeguate misure di protezione.

TIPOLOGIA DI DATI DESCRIZIONE

Dati personali comuni I dati personali comuni sono tutti i dati che permettono

l'identificazione diretta, come i dati anagrafici (nome e cognome) e le immagini, o l'identificazione indiretta, come un numero di

identificazione (il codice fiscale, l'indirizzo IP, il numero di targa).

Dati personali particolari Dati personali che rivelino l’origine razziale o etnica, le opinioni politiche, le convinzioni religiose o filosofiche, o l’appartenenza sindacale, nonché dati genetici, dati biometrici intesi a identificare in modo univoco una persona fisica, dati relativi alla salute o alla vita sessuale o all’orientamento sessuale della persona.

Dati personali giudiziari I dati personali giudiziari sono i dati relativi a condanne penali e reati, ovvero quelli che possono rivelare l'esistenza di determinati

provvedimenti giudiziari soggetti ad iscrizione nel casellario

giudiziale (ad esempio, i provvedimenti penali di condanna definitivi, la liberazione condizionale, il divieto od obbligo di soggiorno, le misure alternative alla detenzione) o la qualità di imputato o di indagato. In accordo con quanto previsto dal GDPR, rientrano all’interno di tale nozione anche i dati relativi alle condanne penali e ai reati o a connesse misure di sicurezza.

Dati personali sanitari Sono i dati personali attinenti alla salute fisica o mentale di una persona fisica, compresa la prestazione di servizi di assistenza sanitaria, che rivelano informazioni relative al suo stato di salute”.

Dati personali genetici I dati genetici sono quei “dati personali relativi alle caratteristiche genetiche ereditarie o acquisite di una persona fisica che forniscono informazioni univoche sulla fisiologia o sulla salute di detta persona fisica, e che risultano in particolare dall’analisi di un campione biologico della persona fisica in questione”.

Dati personali biometrici I dati biometrici sono “dati personali ottenuti da un trattamento tecnico specifico, relativi alle caratteristiche fisiche, fisiologiche o comportamentali di una persona fisica e che ne consentono o confermano l'identificazione univoca, quali l'immagine facciale o i dati dattiloscopici”.

L’individuazione della tecnica più adeguata alla protezione dei dati dipende, inoltre, dalle modalità di trattamento dei dati e dal livello di sicurezza che deve essere garantito ai dati stessi.

(9)

2.2 PSEUDONIMIZZAZIONE

Con il termine pseudonimizzazione, viene indicato il processo di trasformazione attraverso il quale un dato personale non è più riferibile ad un soggetto identificato, ovvero all’interessato al quale i dati stessi appartengono, in assenza di informazioni aggiuntive. Tipicamente, questa dissociazione avviene sostituendo uno o più identificatori personali (es. Nome, cognome, e-mail) con identificatori pseudonimi (c.d. alias), che permettono la ricostruzione dell’identità dell’utente solo mediante l’impiego di aggiuntive (es. correlazione identificatore personale / identificatore pseudonimo).

Ne consegue che, a fronte di un data set in input, il processo di pseudonimizzazione ne restituisce due in output, il data set pseudonimizzato, modificato rispetto al dato originale, e il data set di transcodifica. Per la ricostruzione del dato originale, è necessario accedere congiuntamente ad entrambi i data set.

Per la caratteristica di reversibilità del processo di pseudonimizzazione, le informazioni che consentono la reidentificazione dell’interessato, a partire dai dati pseudonimizzati, devono essere conservate separatamente e protette, a loro volta, con misure di sicurezza efficaci, come la segregazione della chiave di cifratura, l’adozione di soluzioni key manager e la separazione fisica degli ambienti di conservazione del dato pseudonimizzato e delle informazioni di riconversione.

Benefici della pseudonimizzazione La pseudonimizzazione permette di:

 Nascondere l’identità dei soggetti, a cui i dati sono riferiti, a chiunque non ne sia autorizzato (terze parti), pur mantenendo la congruità semantica di ciascun data set (data set pseudonimizzato / data set di transcodifica);

 Garantire il rispetto dei principi della minimizzazione del dato e del “need to know”, laddove le informazioni relative all’identificazione del soggetto interessato non siano necessarie, ad esempio, alle finalità del trattamento. La separazione del data set pseudonimizzato dalla tabella di

transcodifica consente di soddisfare i requisiti normativi imposti dagli art. 4, 5, 25 e 32 del GDPR, limitando l’accesso alle sole informazioni necessarie al trattamento.

Differenza tra pseudonimizzazione by design e cifratura

La cifratura (encryption) è un processo di offuscamento del dato che, mediante l’impiego di un algoritmo matematico, restituisce un output, non intellegibile da parte di un utente che non possiede la chiave di decifratura.

La cifratura, quindi, è un particolare processo di pseudonimizzazione, che presenta le seguenti caratteristiche:

 a partire da un dataset iniziale, ne restituisce esclusivamente uno cifrato;

 le informazioni cifrate sono completamente non intellegibili da un soggetto terzo, viene meno la riconducibilità al dato originale e il valore semantico del dato stesso.

(10)

2.2.1 CRITTOGRAFIA E TECNICHE

La crittografia è una misura di sicurezza che consente di codificare i dati personali in modo tale da renderli accessibili soltanto alle persone autorizzate.

Dal punto di vista tecnico, la codifica dei dati avviene tramite l’utilizzo di algoritmi di cifratura/decifratura dei dati e di chiavi che trasformano un dato, originariamente in chiaro, in una informazione codificata, e viceversa. Il principale scopo della chiave è quello di rendere il processo di cifratura/decifratura dei dati, non ripetibile da parte degli utenti che non ne sono in possesso.

Le principali proprietà degli algoritmi Crittografici sono:

a. Assunzione della Cifratura Perfetta: si può ottenere il contenuto in chiaro di un messaggio solo disponendo dell’apposita chiave di decifratura, o decodifica. Tale proprietà è conosciuta come

“inviolabilità computazionale dell’algoritmo di criptazione”;

b. Principio di Kerckhoffs: la sicurezza di un sistema crittografico è basata esclusivamente sulla conoscenza della chiave. Anche presupponendo che l’algoritmo utilizzato per la cifratura e la decodifica dei dati sia noto a priori, in mancanza della chiave non è possibile accedere ai dati in chiaro;

c. Lunghezza della chiave: il tempo necessario per forzare un algoritmo di cifratura tramite la ricerca completa nello spazio delle chiavi, cresce in modo esponenziale con la lunghezza della chiave. Il numero di chiavi possibili è pari a 2 elevato a lunghezza della chiave.

Le tecniche di crittografia (dette anche sistemi crittografici) si dividono in tre tipologie principali:

d. Crittografia simmetrica;

e. Crittografia asimmetrica;

f. Crittografia ibrida.

Nelle sezioni che seguono, sono descritte le principali proprietà delle tre tipologie di tecniche indicate.

Crittografia simmetrica

La soluzione crittografica si dice a Chiave Segreta, o Simmetrica, se:

 l’algoritmo di crittografia, o cifratura, e quello di decifratura coincidono o sono strutturalmente simili;

 le chiavi di cifratura e di decifratura coincidono o sono ricavabili l’una dall’altra;

 la chiave è segreta.

Le tecniche di crittografia simmetrica sono caratterizzate da una elevata efficienza e velocità nel processo di codifica/decodifica dei dati che li rende particolarmente adatti anche per la cifratura di grosse moli dati a riposo. Lo svantaggio principale di tali sistemi è legato alla distribuzione della chiave che deve avvenire mediante un canale sicuro, la cui complessità cresce esponenzialmente con il numero di destinatari con cui scambiare la chiave.

La principale soluzione di crittografia simmetrica è l’algoritmo AES, un sistema di cifratura simmetrica a blocchi di 128 bit che struttura il testo in chiaro in blocchi composti da 4 righe e 4 colonne prima di procedere con la codifica dei dati, che avviene in 4 fasi. L’algoritmo AES è veloce e facile da implementare

(11)

sia a livello software che a livello hardware, richiede poca memoria ed offre un buon livello di protezione e di robustezza. Lunghezza della chiave: 128 o 192 o 256 bit. L’AES rappresenta l’algoritmo di cifratura simmetrica normalmente utilizzato nei moderni sistemi di cifratura, mentre l’utilizzo delle diverse lunghezze di chiave viene definito in funzione della criticità dei dati da proteggere. Si suggerisce, l’utilizzo della chiave di cifratura a 256 bit.

Crittografia asimmetrica

La crittografia asimmetrica, detta anche a chiave pubblica, è una soluzione crittografica che consente di codificare i dati tramite l’utilizzo di una coppia di chiavi per le operazioni di cifratura e decifratura. Una chiave, detta pubblica, viene utilizzata per le operazioni di cifratura, mentre l’altra chiave, detta privata, viene utilizzata per le operazioni di decifratura. Generalmente gli algoritmi di cifratura e decifratura sono strutturalmente diversi.

A differenza dei cifrari simmetrici, non è più presente il problema della trasmissione delle chiavi. Questi algoritmi sono intrinsecamente sicuri poiché utilizzano tecniche di tipo matematico basate sulla teoria dei numeri, sulla teoria delle curve ellittiche, etc. La lunghezza delle chiavi è variabile.

I sistemi di cifratura asimmetrica sono caratterizzatati dal problema di autenticazione del mittente poiché, in uno scambio di dati tra due soggetti, un intruso potrebbe cifrare un messaggio con la chiave pubblica di uno dei partecipanti e identificarsi come legittimo interlocutore. Per risolvere tale problema vengono utilizzati i Certificati Digitali associati alle coppie di chiavi asimmetriche rilasciate dalle Autorità di Certificazione, tali certificati contengono i dati identificativi dell’utente e della chiave pubblica.

L’utilizzo di due chiavi per la cifratura/decifratura dei dati rende questi sistemi poco efficienti per la cifratura dei dati a riposo, soprattutto se di grosse dimensioni. Viceversa, non richiedendo necessariamente lo scambio delle chiavi, questi sistemi risultano particolarmente adatti alla protezione dei dati in transito e allo sviluppo di tecniche di mutua autenticazione tra i soggetti coinvolti nella comunicazione.

Tra i principali sistemi di cifratura asimmetrici, si annoverano:

 RSA: è un sistema di cifratura asimmetrico che permette di cifrare un messaggio attraverso un procedimento basato sull’utilizzo del prodotto di due numeri primi di dimensioni elevate. La lunghezza delle chiavi è variabile: 512, 1024, 2048, 4096 bit ed oltre. La sicurezza di tale soluzione risiede nella difficoltà di fattorizzare il prodotto dei suddetti numeri primi di dimensioni elevati. Il principale svantaggio è legato alle tempistiche elevate di codifica/decodifica. Per tale motivo, l’RSA viene utilizzato soprattutto nei sistemi crittografici ibridi che utilizzano contemporaneamente sia algoritmi simmetrici che algoritmi a chiave pubblica (come ad esempio nei software PGP e GNUPG);

 DSA: il Digital Signature Algorithm è uno standard FIPS (Federal Information Processing Standards, sono documenti emanati dal governo degli Stati Uniti per la definizione degli standard da utilizzare negli apparati delle agenzie governative) per la firma digitale proposto dal National Institute of Standards and Technology (NIST) nel 1991 per essere impiegato nel Digital Signature Standard (DSS). La sicurezza dell’algoritmo si basa sulla attuale difficoltà nel calcolo dei logaritmi discreti. Le specifiche attuali sono contenute nel documento FIPS 186-4 del 2009;

Nelle implementazioni degli algoritmi di cifratura asimmetrica, quali ad esempio l’utilizzo dei certificati digitali, riveste particolare importanza l’hashing.

(12)

La funzione di hash è una funzione che mappa il contenuto di un messaggio in una sequenza di bit di lunghezza fissa. Tali funzioni vengono chiamate anche message digest (impronta digitale). Ogni impronta digitale è strettamente legata al messaggio originale, poiché ogni messaggio genera un digest unico. Le funzioni di hash vengono utilizzate nei sistemi di firma digitale e nei protocolli di rete come codice di controllo. Una funzione hash è una funzione “one way”, ovvero una funzione impossibile da invertire.

L'unico modo per ricreare i dati di input a partire dall'output di una funzione di hash è quello di tentare un attacco di tipo Brute-force tramite Rainbow Tables. Una funzione di hash si considera sicura quando rispetta le seguenti proprietà:

 non genera, statisticamente, collisioni a partire da informazioni aventi significato;

 produce un output di dimensione fissa, di dimensioni di pochi byte, indipendentemente dai dati in input;

 dati due input molto simili, produce due output molto diversi tra loro;

 dati due input uguali, produce lo stesso output.

Sebbene ci siano diversi algoritmi di hashing, molti dei quali hanno però dimostrato problemi di sicurezza, si consiglia l’uso dell’algoritmo SHA-256 o superiore.

Gli algoritmi asimmetrici vengono utilizzati per lo sviluppo di soluzioni di firma digitale (es. standard PKCS#7).

Crittografia ibrida

La crittografia ibrida combina le tecniche di cifratura simmetriche con quelle asimmetriche al fine di risolvere il problema dello scambio delle chiavi degli algoritmi simmetrici, mantenendo le elevate prestazioni in termini di efficienza e di velocità di codifica/decodifica offerte dalla cifratura simmetrica.

I meccanismi per la cifratura ibrida, infatti, impiegano una prima chiave asimmetrica per scambiare in modo sicuro la chiave di cifratura, detta anche chiave di sessione, che verrà utilizzata in un secondo momento per effettuare la codifica simmetrica dei dati da proteggere. In questo modo, la maggiore sicurezza della crittografia asimmetrica viene sfruttata una sola volta per risolvere i problemi di trasmissione della chiave, risolvendo i problemi di complessità dovuti all’impiego della stessa, e successivamente si utilizza la chiave pubblica per codificare i dati, sfruttando i vantaggi prestazionali offerti dall’utilizzo di quest’ultima.

Tali tecniche vengono utilizzate prevalentemente per la protezione dei dati in transito attraverso lo sviluppo di protocolli di trasmissione sicuri ai diversi livelli della pila ISO/OSI (es HTTP, SSL/TLS, SMTP).

Tecniche di Crittoanalisi

Esistono differenti tecniche che possono essere utilizzate per cercare di accedere al significato di dati cifrati senza essere in possesso della chiave per la decodifica delle stesse. Tali metodi vengono definiti tecniche di crittoanalisi.

Le principali tecniche di crittoanalisi utilizzate per “forzare” un sistema di crittografia sono le seguenti:

 Brute-force attack: ossia un attacco finalizzato a ricreare i dati di input tramite il calcolo di tutte le possibili combinazioni di chiavi del cifrario. Con l’aumento della potenza di calcolo degli elaboratori questa tecnica sta diventando sempre più efficace;

(13)

 Crittoanalisi differenziale: tramite l’analisi delle “distanze” numeriche dei caratteri presenti nel testo cifrato e l’ausilio di sofisticate tecniche matematiche unite ad algoritmi sempre più veloci;

 Man-in-the-middle: sfruttando il sistema delle infrastrutture a chiavi pubbliche, un eventuale intruso può posizionarsi tra un mittente ed un destinatario e scambiare le loro chiavi pubbliche e private con altre opportunamente modificate.

Tutte le tecniche di crittografia, devono sempre garantire un livello di robustezza adeguato, ovvero devono garantire un’ottima capacità di resistere ad eventuali attacchi di Crittoanalisi volti a “forzare” la soluzione di crittografia ed accedere alle informazioni in chiaro.

La tabella seguente riporta i rischi legati all’adozione di una soluzione di cifratura.

RISCHIO DESCRIZIONE

Individuazione È ancora possibile individuare i dati delle persone, in quanto queste ultime sono identificate da un attributo unico che è il risultato della funzione di cifratura.

Correlabilità È ancora possibile correlare i dati, che utilizzano lo stesso attributo cifrato per fare riferimento alla stessa persona. L’operazione è anche molto semplice, benché per la stessa persona interessata siano utilizzati diversi attributi cifrati, attraverso la correlazione di ulteriori attributi riferibili al soggetto. Il rischio si riduce

sostanzialmente nel caso in cui nessun altro attributo contenuto nell’insieme di dati possa essere utilizzato per identificare la

persona interessata e se è stato eliminato ogni legame tra l’attributo originario e quello cifrato (compresa la cancellazione dei dati originali). In questo caso, infatti, non sussiste alcun riferimento incrociato ovvio tra due insiemi di dati che utilizzano attributi cifrati diversi.

Deduzione È ancora possibile dedurre l’identità reale di una persona

interessata, all’interno dell’insieme di dati o tra diversi insiemi di dati che utilizzano lo stesso attributo cifrato per una persona. Il rischio permane anche se gli attributi cifrati sono molto evidenti e non mascherano adeguatamente l’identitàà originale della persona interessata.

2.2.2

TOKENIZZAZIONE

La tokenizzazione implica la sostituzione dei dati personali con numeri di identificazione univoci, detti token, che non hanno alcun valore estrinseco. La scomposizione in token può essere utilizzata per proteggere dati personali come numeri delle carte di credito (PAN), codici dei conti bancari, numeri della previdenza sociale, numeri delle patenti di guida ed altre informazioni di identità personale. È una tecnica che si basa

(14)

tipicamente sull’applicazione di un meccanismo di crittografia univoca o sull’assegnazione, tramite una funzione indicizzata, di un numero sequenziale o di un numero generato casualmente che non deriva matematicamente dai dati originali. Rappresenta una soluzione qualora i dati sensibili vengano memorizzati su diversi sistemi distribuiti all'interno dell’infrastruttura informatica.

La tabella seguente riporta i rischi legati all’adozione di una soluzione di tokenizzazione.

RISCHIO DESCRIZIONE

Individuazione È ancora possibile individuare i dati delle persone, in quanto queste ultime sono identificate da un attributo unico che è il risultato della funzione di tokenizzazione.

Correlabilità È ancora possibile correlare i dati, che utilizzano lo stesso attributo cifrato per fare riferimento alla stessa persona. L’operazione è anche molto semplice, benché per la stessa persona interessata siano utilizzati diversi attributi tokenizzati, attraverso la correlazione di ulteriori attributi riferibili al soggetto. Il rischio si riduce

sostanzialmente nel caso in cui nessun altro attributo contenuto nell’insieme di dati possa essere utilizzato per identificare la

persona interessata e se è stato eliminato ogni legame tra l’attributo originario e quello tokenizzato (compresa la cancellazione dei dati originali). In questo caso, infatti, non sussiste alcun riferimento incrociato ovvio tra due insiemi di dati che utilizzano attributi tokenizzati diversi.

Deduzione È ancora possibile dedurre l’identità reale di una persona

interessata, all’interno dell’insieme di dati o tra diversi insiemi di dati che utilizzano lo stesso attributo tokenizzato per una persona. Il rischio permane anche se gli attributi tokenizzati sono molto evidenti e non mascherano adeguatamente l’identitàà originale della persona interessata.

2.3 ANONIMIZZAZIONE

L’anonimizzazione è un meccanismo mirato a rendere anonimi i dati personali, questi devono essere privati di elementi che consentono di ricondurre i dati ad un soggetto identificato o identificabile.

Un’efficace soluzione di anonimizzazione impedisce:

• di identificare un interessato in un insieme di dati;

• di collegare due dati all’interno di un insieme di dati (o tra più insiemi distinti di dati);

• di dedurre informazioni da tale insieme di dati.

(15)

Inoltre, una caratteristica importante dell’anonimizzazione è che tale trattamento deve essere irreversibile e non riproducibile.

In generale, si possono distinguere due meccanismi di anonimizzazione:

• Anonimizzazione non univoca: il meccanismo di anonimizzazione non univoca prevede che il dato personale venga sostituito totalmente, o parzialmente, con caratteri non significativi (es. asterischi), con la conseguente perdita della possibilità di identificare il soggetto associato al dato. L’utilizzo dell’anonimizzazione mediante sostituzione totale dei dati personali con caratteri non significativi, può essere adottata in tutti i casi in cui non è necessario mantenere l'univocità del dato;

 Anonimizzazione univoca: il meccanismo di anonimizzazione univoca prevede la sostituzione dei dati personali tramite un algoritmo di trasformazione che permette di rispettare le seguenti caratteristiche:

o conversione del dato identificativo in un codice univoco;

o impossibilità di ricostruzione di tale associazione.

Di fatto, l’anonimizzazione si ottiene rendendo permanente l’impossibilità di riutilizzare la tabella di transcodifica successivamente al suo impiego per la trasformazione dei dati identificativi in codici univoci, e non, senza conservare alcun tipo di informazione circa i dati di input trattati.

Un dato personale reso anonimo cessa di essere un dato identificativo e di conseguenza perde anche la caratteristica di essere considerato personale.

Esistono due diversi approcci per l’anonimizzazione univoca dei dati che permettono di garantire un livello adeguato di protezione ai dati personali: il primo si basa sulla randomizzazione, mentre il secondo si basa sulla generalizzazione.

Randomizzazione

La randomizzazione è una famiglia di tecniche di anonimizzazione che modifica la veridicità dei dati al fine di eliminare la correlazione che esiste tra i dati e la persona. Se i dati sono sufficientemente incerti non possono più essere riferiti a una persona specifica.

Di seguito vengono riportate le principali tecniche di randomizzazione:

• Rumore statistico: questa tecnica consiste nel modificare gli attributi contenuti in un set di dati in modo tale da renderli meno accurati (ad esempio, sostituendo ad ogni valore numerico un arrotondamento dello stesso). Nell’effettuare la trasformazione del dato deve essere mantenuta la coerenza dal punto di vista semantico del dato stesso, altrimenti la tecnica perde di efficacia.

L’aggiunta di rumore statistico deve essere accompagnata da altre tecniche di anonimizzazione, quali l’eliminazione degli attributi ovvi e dei quasi identificatori (un dato che può identificare parzialmente un individuo in un dataset ad esempio la data di nascita, il sesso, il codice postale). La valutazione di questi attributi deve essere condotta all’interno del perimetro di riferimento dei dati stessi.

La tabella seguente riporta i rischi legati all’adozione di una soluzione di anonimizzazione, basata sul rumore statistico.

(16)

RISCHIO DESCRIZIONE

Individuazione È ancora possibile individuare i dati riferiti a una persona (magari in modo non identificabile) anche se i dati sono meno affidabili.

Correlabilità È ancora possibile correlare i dati della stessa persona, ma i dati sono meno affidabili e pertanto un dato reale puòà essere correlato a un altro che è stato aggiunto artificialmente.

Deduzione Gli attacchi tramite deduzione sono possibili, ma la probabilitàà di successo è minore e potrebbero comparire alcuni falsi positivi (e falsi negativi).

• Permutazione: questa tecnica consiste nel mescolare i valori degli attributi all’interno di una tabella in modo tale che alcuni di essi risultino artificialmente collegati a soggetti diversi. Questa tecnica risulta particolarmente utile nei casi in cui è importante mantenere l’esatta distribuzione di ciascun attributo all’interno dell’insieme di dati. La permutazione può essere considerata una forma speciale di aggiunta di rumore statistico infatti, nella tecnica classica di aggiunta del rumore, gli attributi vengono modificati mediante valori randomizzati. Le tecniche di permutazione modificano i valori contenuti nell’insieme di dati semplicemente permutandoli da un dato all’altro. Tali scambi garantiscono che la gamma dei valori e la loro distribuzione rimangano invariate. L’utilizzo di tecniche di permutazione si adatta, inoltre, ai casi in cui tra due o più attributi sussiste un legame logico o di correlazione statistica perché la permutazione indipendente degli stessi elimina tale legame. Nel caso invece tale correlazione debba essere mantenuta, può essere effettuata una permutazione a blocchi, aumentando però il rischio che un attaccante riesca a risalire ai dati originali. Per la permutazione, dovrebbero essere selezionati esclusivamente dati particolari al fine di ridurre i rischi o che questi, a valle della permutazione, risultino ancora associati all’attributo originale.

La tabella seguente riporta i rischi legati all’adozione di una soluzione di anonimizzazione, basata sulla permutazione.

RISCHIO DESCRIZIONE

Correlabilità Impedisce una correlazione “corretta” di attributi a un insieme di dati sia internamente sia esternamente (per attributi e quasi identificatori);

consente una correlabilità “non corretta”, in quanto

un’immissione reale potrebbe essere associata a una persona interessata diversa.

Deduzione Gli attacchi tramite deduzione sono possibili, ma la probabilitàà di successo è minore e potrebbero comparire falsi positivi e negativi).

Generalizzazione

La generalizzazione rappresenta la seconda famiglia di tecniche di anonimizzazione univoca e consiste nel

(17)

generalizzare gli attributi delle persone interessate modificando la rispettiva scala o ordine di grandezza (ad esempio sostituendo la settimana con il mese).

Di seguito vengono riportate le principali tecniche di generalizzazione:

• Aggregazione e k-anonimato: queste tecniche prevedono la classificazione dei dati personali in cluster di numerosità k. A tale scopo, i valori degli attributi sono sottoposti a una generalizzazione tale da attribuire a ciascuna persona il medesimo valore. Questi metodi possono essere utilizzati nei casi in cui la correlazione di valori puntuali di attributi possano costituire dei facili identificatori degli interessati. Poiché lo stesso attributo viene condiviso da k utenti, più alto è il valore di k, maggiori sono le garanzie in termini di protezione dei dati personali.

La tabella seguente riporta i rischi legati all’adozione di una soluzione di anonimizzazione, basata sull’aggregazione e k-anonimato.

RISCHIO DESCRIZIONE

Individuazione I medesimi attributi sono condivisi da k utenti, non dovrebbe piùà essere possibile individuare una persona all’interno di un gruppo di k utenti.

Correlabilità Permane la possibilitàà di collegare i dati per gruppi di k utenti.

All’interno di tale gruppo, la probabilitàà che due dati corrispondano agli stessi pseudoidentificatori è pari a 1/k.

Deduzione Non protegge da alcun tipo di attacco tramite deduzione; in contesti

“protetti”, ovvero k persone appartenenti allo stesso gruppo o gruppo di appartenenza noto, è facile risalire al fattore k.

• L-L-diversità: questa tecnica amplia la tecnica di k-anonimato assicurando che, all’interno di ogni classe di equivalenza, ogni attributo abbia almeno i valori diversi. In questo modo viene limitata la presenza di classi di equivalenza con una scarsa variabilità degli attributi e assicurando una maggiore protezione dei dati personali in caso di attacco.

La tabella seguente riporta i rischi legati all’adozione di una soluzione di anonimizzazione, basata sulla L-L- diversità.

RISCHIO DESCRIZIONE

Individuazione Garantisce che i dati relativi a una persona non possano essere individuati all’interno della banca dati.

Correlabilità Permane la possibilità di collegare i dati per gruppi di utenti. La probabilitàà che le stesse informazioni appartengano alla medesima persona interessata è piùà elevata di 1/N (dove N rappresenta il numero di persone interessate nella banca dati).

Deduzione Viene eliminata la possibilitàà di attaccare tramite deduzione una banca dati “l-diversa” con una sicurezza del 100%.

(18)

• T-vicinanza: questa tecnica rappresenta un affinamento della l-l-diversità nel senso che mira a creare classi equivalenti che assomigliano alla distribuzione iniziale di attributi. L’impiego di questa tecnica è consigliato quando è importante mantenere i dati quanto più possibile prossimi a quelli originali.

La tabella seguente riporta i rischi legati all’adozione di una soluzione di anonimizzazione, basata sulla T- Vicinanza.

RISCHIO DESCRIZIONE

Individuazione Garantisce che i dati relativi a una persona non possano essere individuati all’interno della banca dati.

Correlabilità Permane la possibilità di collegare i dati per gruppi di utenti. La probabilitàà che le stesse informazioni appartengano alla medesima persona interessata è piùà elevata di 1/N (dove N rappresenta il numero di persone interessate nella banca dati).

Deduzione Viene eliminata la possibilitàà di attaccare tramite deduzione una banca dati “t-vicina” con una sicurezza del 100%.

2.4 DATA MASKING

Le tecniche di mascheramento dei dati, o Data Masking, prevedono la sostituzione, in modo irreversibile, del dato personale originale con un dato fittizio, preservando l’integrità sintattica e semantica del dato stesso.

Le tecniche di Data Masking, pertanto, risultano particolarmente utili per l’utilizzo dei dati in ambiente di test e sviluppo.

Le tecniche di Data Masking vengono suddivise in due tipologie principali:

• Mascheramento statico dei dati, o Static Data Masking;

• Mascheramento dinamico dei dati, o Dynamic Data Masking.

Nei paragrafi che seguono, sono descritte le principali proprietà delle due tipologie di tecniche indicate.

Mascheramento statico dei dati

Il mascheramento statico dei dati, o Static Data Masking, viene impiegato per il mascheramento dei dati residenti.

Le principali tecniche di mascheramento statico di dati sono:

• Extract, Transform, and Load (ETL): questa tecnica prevede tre fasi logiche per il mascheramento dei dati (Extract, Transform, e Load) eseguite mediante l’impiego di un server di mascheramento che gestisce la trasformazione dei dati tra la fonte di dati sorgente e il repository destinazione. Il server di mascheramento estrae i dati appositamente formattati dal repository (DB, Filesystem, etc.) (Extract), applica il Data Masking sulle colonne che contengono i dati personali estratti

(19)

dall’ambiente di produzione mediante librerie di masking (Transform) e invia i dati mascherati al repository destinazione (Load);

• In Place Masking: questa tecnica viene utilizzata quando si ha la necessità di creare una copia dei dati all’interno del Database stesso, mascherando però tutti i campi che contengono dati personali.

Esistono due possibili approcci per realizzare la tecnica di In Place Masking, il primo prevede che venga prima creata una copia dell’intero Database e poi venga applicato il mascheramento sulla copia così realizzata prima che tali dati risultino disponibili, ciò comporta che il Database risulta offline fintanto che i dati personali non sono stati sovrascritti; il secondo prevede, invece, l’utilizzo di un Database di supporto al quale il Database sorgente trasferisce, in modo protetto, tutti i dati contenuti al suo interno e i quali vengano successivamente rinviati, a seguito del mascheramento, al Database sorgente. Questa tecnica, a differenza della ETL, prevede che il repository sorgente e quello di destinazione coincidono. Il principale vantaggio di questa tecnica è legato alle grandi possibilità tecniche e prestazionali di gestire e manipolare i dati offerte dai Database per realizzare tecniche di Data Masking ad alte prestazioni attraverso sfruttando funzionalità built-in e processi di archiviazione native del Database stesso per velocizzare il processo di mascheramento dei dati stesso.

Mascheramento dinamico dei dati

Il mascheramento dinamico dei dati, o Dynamic Data Masking, permette di limitare l’esposizione dei dati personali, nascondendoli agli utenti che non hanno i privilegi di accedervi. In questo caso, il mascheramento dei dati avviene in tempo reale.

Al fine di definire politiche di Dynamic Data Masking che garantiscano un adeguato livello di protezione, in linea con i principi descritti dal GDPR, devono essere valutati e definiti:

• i campi contenenti dati personali del Database che devono essere mascherati (data filtering);

• i criteri da utilizzare per il mascheramento;

• gli utenti ai quali devono essere attribuiti privilegi di accesso ai dati personali con copertura per le singole istruzioni di manipolazione dei dati (DML: select, insert, update, delete);

• le funzionalità di Dynamic Data Masking, ovvero mascheramento completo o parziale.

Le funzionalità di Dynamic Data Masking possono essere configurate sul Database per mascherare i dati personali presenti sui campi designati, senza alterare né le query precedentemente impostate sui Database né i dati presenti sullo stesso.

Il mascheramento dinamico può essere impiegato insieme ad altre tecniche, quali la cifratura dei dati, per garantire una maggiore protezione dei dati personali presenti sul Database.

Le principali tecniche di mascheramento dinamico dei dati sono:

• View-based Masks: questa tecnica prevede che sul Database vengano archiviati sia i dati in chiaro e sia una copia degli stessi dati mascherati. Pertanto, nel momento in cui viene lanciata una query, la piattaforma di mascheramento esamina le credenziali dell’utente che effettua la richiesta. Sulla base delle verifiche condotte dalla piattaforma di mascheramento, gli utenti abilitati ricevono una copia dei dati in chiaro mentre, gli utenti che non posseggono le credenziali, o ne posseggono solo una parte, ricevono una copia dei dati mascherati. Questa tecnica è applicabile solo alle operazioni SQL eseguite direttamente sulla base dati, previo accesso con autenticazione diretta dell’utente che

(20)

sta richiedendo l’operazione (es: sviluppatori, DBA). Nel caso in cui l’accesso ai dati avvenga da una fonte applicativa, non sempre è possibile risalire all’utente che sta effettuando l’operazione (come ad esempio se l’accesso al Database avviene tramite un pool di connessioni), e quindi è necessario implementare una tecnica di mascheramento “Proxy-Based Masks”.

• Proxy-based Masks: questa tecnica prevede che la maschera ai dati venga applicata da un in-line service quando questi vengono inseriti o estratti dal Database. Nel momento in cui viene lanciata una query, questa viene intercettata e mascherata on the fly, i dati quindi vengono mascherati in maniera “trasparente” prima di essere restituiti all’utente che ha lanciato la query.

Principali vincoli al mascheramento dei dati

Esistono differenti tecniche che possono essere impiegate per il mascheramento dei dati personali. Tali tecniche presentano diversi livelli di efficacia e un differente impatto in termini di onerosità computazionale. Ad esempio, risulta più semplice sostituire una stringa numerica con una serie di ‘X’

piuttosto che applicare la cifratura dei dati stessi.

Tuttavia, nella scelta della tecnica di Data Masking più opportuna, esistono dei vincoli relativi alla tipologia dei dati di partenza e al formato che questi devono avere a seguito del mascheramento.

Di seguito si riportano alcuni dei principali vincoli da considerare, in funzione del campo di applicazione delle tecniche di mascheramento dei dati:

• Format Preserving: il processo di Data Masking deve restituire valori con la stessa struttura del dato originale. Un tipico esempio per illustrare la complessità introdotta da tale vincolo è rappresentato dalle date. In questo caso, infatti, l’algoritmo di mascheramento deve essere in grado di riconoscere il formato dei dati originali, restituendo una data in cui i valori ricadono nel range corretto per giorno, mese e anno (ad esempio la data “31.02.2010” è priva di significato e quindi non ammissibile).

• Data Type Preservation: nei Database relazionali, è essenziale mantenere il format dei dati quanto vengono mascherati da un Database ad un altro. In questi casi, infatti, le colonne delle tabelle devono essere formalmente definite e non ammettono stringhe di testo nei campi associate a date o valori numerici.

• Gender preservation: nella sostituzione di nomi di persona, i nomi maschili non devono essere sostituiti con nomi femminili e viceversa.

• Integrità semantica: alcuni Database contengono vincoli aggiuntivi sui dati archiviati al loro interno come il LUHN check per le carte di credito o il valore massimo per lo stipendio degli impiegati. In questo modo, viene assicurata sia l’integrità formale e che la tipologia del dato trattato.

• Integrità referenziale: un attributo in una tabella o in un file può referenziare valori presenti un’altra tabella o un altro file, pertanto tale referenza deve essere costantemente mantenuta.

L’ottimizzazione delle prestazioni dei Database relazionali si basano sulle relazioni esistenti tra i vari dati e tabelle. Utilizzare tecniche quali lo Shuffling su tali dati, potrebbe compromettere tali

relazioni. In questo caso, quindi, le tecniche di Data Masking devono essere in grado di mantenere l’integrità referenziale dei Database al fine di assicurare che i nuovi dati non generino errori e/o interruzioni sulle applicazioni che si basano su tali relazioni referenziali.

• Valore aggregato: la tecnica di Data Masking deve garantire che il valore aggregato e la media dei valori della colonna di dati ai quali viene applicato il mascheramento venga preservato.

(21)

• Distribuzione di frequenza: in alcuni casi deve essere mantenuta la distribuzione dei dati originale, pertanto le tecniche che utilizzano distribuzioni randomiche per il mascheramento dei dati non possono essere utilizzate.

• Unicità: la tecnica utilizzata per il mascheramento dei dati deve garantire l’unicità dei dati stessi.

Questo requisito è particolarmente rilevante quando il mascheramento deve essere applicato su colonne utilizzate per relazionare le tabelle all’interno di un Database relazionale.

• Limitazioni e restrizioni: ogni implementazione Database prevede delle limitazioni e restrizioni sulla definizione delle regole per il mascheramento dei dati (es: data type non supportati, tabelle

temporanee, ...).

La tabella seguente riporta i rischi legati all’adozione di una soluzione di mascheramento.

RISCHIO DESCRIZIONE

Correlabilità È ancora possibile correlare i dati della stessa persona, ma i dati sono meno affidabili e pertanto un dato reale puòà essere correlato a un altro che è stato aggiunto artificialmente.

Deduzione Gli attacchi tramite deduzione sono possibili, ma la probabilitàà di successo è minore e potrebbero comparire alcuni falsi positivi (e falsi negativi).

(22)

3 AMBITI TECNOLOGICI

Le differenti tecniche per la protezione dei dati personali possono essere applicate nei differenti ambiti tecnologici in base alle diverse modalità di trattamento dei dati:

• Dati a riposo;

• Dati in transito.

Nei paragrafi successivi, per ognuna di tali modalità, vengono descritte le principali tecniche di protezione applicabili.

3.1 DATI A RIPOSO

Le tecniche di protezione e offuscamento dei dati a riposo trovano applicazione principalmente nei seguenti ambiti tecnologici:

• Database (DB);

• File system (file e cartelle);

• Dispositivi Portatili (PC portatili, smartphone, tablet, dispositivi di memorizzazione rimovibili, etc.);

• Backup.

3.2.1 DATABASE

La strategia da utilizzare per la protezione dei dati in ambito Database deve essere considerata già dalla fase di progettazione (Security by design) tenendo conto delle regole stabilite nei paragrafi precedenti.

Le tecniche per la protezione dei dati, quali la cifratura e il mascheramento dei dati, consumano risorse sul server (in termini di risorse computazionali, quali CPU e RAM, e di storage) con il conseguente decadimento delle prestazioni dello stesso, pertanto uno dei principali aspetti che devono essere presi in considerazione nella scelta della soluzione riguarda l’identificazione dei dati ai quali devono essere applicate. È infatti necessario individuare un set di attributi per i quali risulta indispensabile applicare tecniche di securizzazione, come la codifica e/o il mascheramento, tenendo in considerazione che l’applicazione di tali tecniche a campi chiave o a campi associati ad indici può generare un elevato sovraccarico dovuto alla decodifica ad ogni scansione della tabella a cui appartengono. Il livello di overhead dipende dalla tecnologia del Database e dalla tecnica di securizzazione individuata, pertanto risulta necessario effettuare preliminarmente delle opportune analisi di fattibilità al fine di determinare l’impatto delle tecniche di securizzazione sulle prestazioni del DB stesso.

Di seguito, vengono approfondite le tecniche di cifratura e di data masking applicabili ai Database:

1. Cifratura applicata al Database:

(23)

Per l’implementazione di tecniche di cifratura sui dati a riposo archiviati nei Database, è possibile attuare due differenti strategie, la prima prevede che la cifratura venga realizzata a livello applicativo, la seconda, invece, prevede che la cifratura venga implementata al livello del Database, sfruttando le feature native offerte dallo stesso.

Di seguito vengono riportati i dettagli sul funzionamento di tali strategie:

• Cifratura a livello applicativo: tutta la gestione del processo di cifratura è demandata ad apposite librerie crittografiche del linguaggio di programmazione usato nello sviluppo dell’applicazione per la gestione della base dati (come ad esempio le Java Cryptographic Extensions). Questo approccio è completamente trasparente al Database. L’utilizzo di tecniche di questo tipo permette di soddisfare norme di sicurezza molto stringenti, ma risulta poco pratico perché limita l’utilizzo di stored

procedure e appesantisce lo sviluppo dell’applicazione;

• Cifratura a livello del Database: in questo caso si usano le funzionalità offerte dal DBMS o da estensioni sviluppate da terzi. Questo approccio prevede l’associazione di una chiave simmetrica ad ogni attributo da cifrare e la distribuzione di una chiave pubblica ed una privata personali agli utenti del Database. Per consentire ad un utente di accedere è necessario cifrare la chiave simmetrica associata all’attributo con la chiave pubblica dell’utente ed immagazzinare la chiave così ottenuta in una locazione accessibile. In questo modo, l’utente può accedere, mediante la sua chiave privata, all’attributo cifrato ed operare sullo stesso. Per implementare questa strategia di cifratura è necessario definire un apposito processo di gestione delle chiavi di cifratura pubbliche e private.

Un ulteriore aspetto relativo alle tecniche di cifratura da considerare riguarda le funzionalità di backup e ripristino.

2. Data Masking applicato ai Database:

Per implementare il mascheramento sui dati a riposo archiviati nei Database esistono due principali tecniche: il Data Masking statico e il Data Masking dinamico.

Nelle tecniche di Data Masking statico, il mascheramento dei dati viene applicato all’interno del Database stesso prima che questi risultino disponibili per le applicazioni che li richiedono. I dati quindi risultano mascherati indipendentemente dall’utenza o dall’applicazione che li richiede. Tuttavia, esiste il rischio che i dati personali siano ancora presenti in chiaro nei log, nei file di transazioni o nei file temporanei, oppure che i dati risultino esposti durante lo spostamento dal repository sorgente a quello di destinazione.

Per le tecniche di Data Masking dinamico, invece, il mascheramento dei dati si adatta all’utenza o all’applicazione che li richiede. Devono, pertanto, essere definite delle apposite policy per il mascheramento dei dati in funzione dei privilegi posseduti dall’utenza o dall’applicazione che effettua la query. In alcuni casi, per rendere più efficiente il processo di mascheramento è necessario posizionare un proxy nel flusso tra la richiesta dell’utente e l’estrazione dei dati. Tale agent si posiziona esternamente rispetto al Database, in modo da garantire un livello adeguato di protezione dei dati personali senza dover alterare il Database stesso. Tuttavia, l’impiego di tale tecnica richiede che vengano definite delle policy specifiche che tengano in considerazione le varie tipologie di richieste da parte degli utenti per le quali è necessario effettuare il Data Masking.