• Non ci sono risultati.

Tecniche di protezione perturbative: arrotondamento

Nel documento A cura di (pagine 56-60)

PARTE SECONDA

Capitolo 3. La protezione statistica di tabelle (*)

3.3 Tecniche di protezione perturbative: arrotondamento

L’arrotondamento consiste nel rilasciare tabelle in cui i valori veri sono stati cambiati con multipli di una certa base. Questo metodo di protezione è esteticamente migliore della soppressione ma di dubbia efficacia. Infatti, la necessità di rilasciare tabelle che siano additive, cioè in cui i totali marginali siano la somma dei valori interni, richiede tecniche di calcolo alquanto sofisticate che rendono il controllo della perturbazione difficile. Inoltre le tecniche ottimali non sono applicabili a tabelle con tre o più dimensioni, le quali richiedono metodi euristici che possono avere alta complessità computazionale e che non assicurano la convergenza. Per questi motivi è difficile mantenere il controllo del livello di protezione ottenuto e dell’informazione persa.

L’arrotondamento fornisce una protezione tanto più alta quanto più grande è la base, in quanto l’intervallo di esistenza dei valori delle celle è funzione crescente di questa. Quindi, il valore della base di arrotondamento dovrebbe essere scelto rispetto all’intervallo di esistenza ricavabile, che è costante per ogni cella ma differisce a seconda del tipo di arrotondamento scelto.

z kb r= + , dove k è un intero e 0 r (b 1) è il resto in base b. Il valore arrotondato in base b di z è

[ ]z =kb+-( )r , dove ( ) {0, }- r = b .

Un arrotondamento è ristretto a zero quando i valori multipli della base scelta vengono lasciati invariati, cioè se -(0)=0. Un arrotondamento è stocastico se -(r) assume il valore b con probabilità p ed il valore 0 con probabilità (1-p) altrimenti è deterministico. Quando il valore atteso dell’arrotondamento è il valore vero, cioè se si verifica E([z])=z, l’arrotondamento è detto non distorto. Un arrotondamento ristretto a zero che produce tabelle additive è detto controllato.

Esistono diversi metodi di arrotondamento. Presenteremo ora brevemente quelli più comunemente utilizzati; per maggiori dettagli sui metodi di arrotondamento qui presentati si veda Willenborg e de Waal (2001).

3.3.1 Arrotondamento deterministico

L’arrotondamento deterministico convenzionale è quello più semplice ma anche quello più grezzo, si attua sostituendo i valori delle celle con i loro multipli di una base b più prossimi. Quindi il valore arrotondato [ ]z si ottiene ponendo

0 1 2 ( ) 1 2. r b r b r b < - =

E’ facile vedere che l’ampiezza dell’intervallo di esistenza per ogni cella è uguale a b. Come tutti i metodi di arrotondamento non controllati, questa tecnica non assicura l’additività della tabella protetta. Come esempio si consideri la Tabella 3.12 ottenuta arrotondando in base cinque la Tabella 3.11. Dai totali marginali evidenziati in neretto si nota come la tabella protetta non sia additiva.

Tabella 3.11 Esempio di tabella prima dell’arrotondamento

X Y W Totale

A 12 9 16 37

B 6 8 12 26

C 2 20 13 35

Totale 20 37 41 98

Tabella 3.12 Tabella ottenuta arrotondando in base cinque la Tabella 3.11. I valori marginali che non rispettano l’additività sono evidenziati in neretto

X Y W Totale

A 10 10 15 35

B 5 10 10 25

C 0 20 15 35

La perdita di informazione dovuta all’arrotondamento convenzionale è bassa, se paragonata a quella degli altri metodi di arrotondamento, ma anche la protezione offerta è inferiore; per alcune indicazioni sugli effetti della scelta della base nell’arrotondamento deterministico convenzionale si rimanda a Shackis (1993). La Tabella 3.13 mostra un arrotondamento convenzionale in base cinque di una tabella d’intensità con i totali marginali non arrotondati. Poiché i valori originali devono essere compresi tra zero e due, è facile desumere dai totali marginali che devono essere tutti uguali a due. Quindi, in quest’esempio la protezione non è adeguata.

Tabella 3.13 Esempio di arrotondamento convenzionale in base 5

C1 C2 Totale

R1 0 0 4

R2 0 0 4

Totale 4 4 8

3.3.2 Arrotondamento stocastico non controllato

L’arrotondamento stocastico è spesso preferito a quello deterministico in quanto, per l’aleatorietà della regola, l’intervallo di esistenza dei valori delle celle sarà uguale a 2b, quindi doppio a quello ottenibile con i metodi deterministici. Si sottolinea, però, che, per lo stesso motivo, la perdita di informazione non è prevedibile.

Il metodo stocastico più semplice è quello in cui si sceglie arbitrariamente una probabilità p uguale per tutte le celle, e si pone

0 con probabilità 1 ( ) con probabilità . p r b p - =

L’arrotondamento stocastico non distorto e controllato a zero differisce da quello sopra per il fatto che si richiede che -(0) 0= e che il valore atteso dell’arrotondamento sia uguale al valore del resto, cioè che -( )r =r. Perciò le probabilità di arrotondamento superiore o inferiore dipendono dal valore del resto. Dato che E[ ( )]- r = pb, la non distorsione si ottiene ponendo

0 0 ( ) 0 con probabilità 1 0. con probabilità r r r b r b r b = - = . / 0

In Tabella 3.14 sono indicate queste probabilità per l’arrotondamento in base 5.

Tabella 3.14 Probabilità di arrotondamento superiore ed inferiore nell’arrotondamento stocastico non distorto controllato a zero, per b=5.

Resto 1 2 3 4

Pr[-(r)=5] 1/5 2/5 3/5 4/5

La giustificazione per l’adozione di questo metodo è proprio la non distorsione, anche se, in questo frangente, tale proprietà non sembra rivestire la stessa importanza che nella teoria della stima. Entrambi questi metodi prevedono che anche i totali marginali siano arrotondati e, quindi, non assicurano l’additività.

3.3.3 Arrotondamento stocastico controllato

I metodi di arrotondamento stocastico controllato sono i più importanti ed utilizzati, in quanto assicurano l’additività della tabella ottenuta. Come accennato sopra, l’individuazione di soluzioni che soddisfino questo vincolo richiedono l’impiego di metodi di soluzione alquanto complessi.

In Fellegi (1975) è presentato un metodo per tabelle unidimensionali ristretto a zero e non distorto, che andiamo ora a descrivere. Si consideri una tabella con n celle con valori zi e totale T, che si vogliono arrotondare in base b. Siano Si = ij=1ri le somme cumulate dei resti, dove S0=0, e 1 R1 b un intero casuale. Si definiscono le quantità Ri=R1 (+ i 1)b e l’arrotondamento si applica ponendo

1 ( ) 0 altrimenti; i i i i b S R S r < - =

il totale marginale si ottiene come [T]= i[ ]zi , in modo da ottenere l’additività. Si può dimostrare che questo metodo è ristretto a zero e non distorto. in Tabella 3.15 è mostrata un’applicazione di questo metodo in base 5. Poiché le somme cumulate sono S=( 0, 0, 2, 6, 10, 14, 15, 19, 19, 20, 24) e avendo ottenuto R1=1, risulta R=(1, 6, 11, 16, 21, 26, 31, 36, 41, 46), e quindi tutti i valori saranno arrotondati al multiplo di cinque inferiore.

Per comparazione, nella Tabella 3.15 sono riportati i valori arrotondati convenzionalmente; le differenze tra i due metodi di arrotondamento sono evidenziate in neretto. Il totale del metodo di Fellegi differisce da quello vero molto di più di quello convenzionale, evidenziando come la protezione offerta dal primo metodo sia maggiore, così come sacrificio di informazione.

Tabella 3.15 Tabella unidimensionale arrotondata con il metodo di Fellegi e con l’arrotondamento convenzionale deterministico. I valori diversi tra i due metodi sono evidenziati in neretto.

Celle 1 2 3 4 5 6 7 8 9 10 Totale

z 25 37 4 14 49 26 39 50 36 24 304

[z] Fellegi 25 35 0 10 45 25 35 50 35 20 280

[z] Deterministico 25 35 5 15 50 25 40 50 35 25 305

Lo stesso tipo di arrotondamento per tabelle bidimensionali può essere ottenuto con il metodo descritto in Cox (1987), quello per le tabelle a maggiori dimensioni può essere ottenuto, in alcune circostanze, con metodi euristici basati sul metodo del simplesso per interi. Per maggiori dettagli su questi metodi si rimanda al testo di Willenborg e de Waal (2001) e alle referenze ivi citate.

Capitolo 4. Tutela statistica della riservatezza per dati

Nel documento A cura di (pagine 56-60)