Sviluppi necessari - Metodi statistici per il record linkage

Come anticipato all’inizio di questo capitolo, la procedura proposta da Fellegi e Sunter non `e direttamente applicabile. I passi per renderla applicabile verranno descritti nei capitoli successivi, dove si discutono i seguenti aspetti.

1. I problemi di ordine computazionale rendono spesso necessario restringere l’insieme delle coppie che il computer deve abbinare. Il metodo suggerito va sotto il nome di bloccaggio ed `e analizzato nel paragrafo 5.1.

2. Quando sono vere le (2.3) e (2.4) si devono modificare i risultati della procedura nel paragrafo 4.3 per far s`ı che vengano rispettati i vincoli (2.5), (2.6) e (2.7). Nel paragrafo 5.2 si discutono le proposte per soddisfare questi requisiti.

3. In questo capitolo le distribuzioni m(y) e u(y) sono state considerate note, ma questo avviene raramente. Senza queste informazioni non è possibile definire i pesi t(y) né le probabilità di errore µ e λ. Il problema della stima delle distribuzioni è di gran lunga il più dibattuto nella letteratura sul record linkage, e viene affrontato nel capitolo 6.

4. La qualit`a del record linkage `e ben rappresentata da µ e λ, come visto nei paragrafi precedenti. Ma quando i punti 1, 2 e 3 vengono applicati, anche µ e λ devono essere stimati. I metodi di stima finora formulati vengono esposti nel capitolo 8.

Capitolo 5

Alcune modifiche alla procedura di Fellegi e Sunter

In questo capitolo, vengono definite due tecniche che modificano l’input e l’output della procedura proposta da Fellegi e Sunter. Per quanto riguarda l’input, è possibile che le coppie sottoposte alla procedura di record linkage siano un numero talmente grande da risultare ingestibile anche per i moderni elaboratori. Per risolvere questo tipo di problema è stata definita la fase di “bloccaggio” delle due basi dati A e B (paragrafo 5.1). Per quanto riguarda l’output, è possibile che le coppie considerate match non rispettino i vincoli (2.6) e (2.7). Jaro (1989) utilizza un algoritmo di ricerca operativa per ovviare a questo problema (paragrafo 5.2).

5.1 Il bloccaggio

Spesso il numero di coppie che le procedure di record linkage devono analizzare è particolarmente elevato. Come già detto, se i due gruppi di unità A e B sono rispettivamente di ν_Ae ν_Bunità, il numero di coppie presenti in A × B è di ν_A× ν_Bunità.

Esempio 5.1 Si supponga di dover abbinare i record di due basi dati A e B. Se i record contenuti

in A e in B sono 1.000.000, il numero di coppie da considerare sono 1.000.000.000.000. Per basi

dati pi`u grandi, le cifre diventano ancora maggiori. ₂

Questi numeri risultano ingestibili anche per gli elaboratori pi`u potenti. Se, ad esempio, un programma di record linkage `e in grado di controllare un milione di coppie al minuto, il controllo di tutte le coppie dell’esempio 5.1 richiederebbe:

1.000.000.000.000

1.000.000 × 60 × 24 ^{≈ 695}

giorni.

Per ovviare a questo problema, Fellegi e Sunter (1969) propongono di eliminare dal controllo le coppie che possono essere considerate “improduttive”. Infatti la maggior parte delle coppie risultanti dal prodotto cartesiano A × B sono non-match, e l’incidenza dei non-match sul totale delle coppie cresce al crescere delle dimensioni di A e B. Il metodo proposto va sotto il nome di

5.1.1 Come si esegue un bloccaggio

Si consideri una variabile Z presente sia in A che in B che si suppone non sia affetta da errori o mancate risposte. Supponiamo anche che la semplice conoscenza di Z non individui univocamente le singole unità, altrimenti sarebbe sufficiente eseguire un merge fra le due liste attraverso Z per risolvere l’obiettivo del record linkage (capitolo 2). Supponiamo infine che Z assuma vZmodalità distinte nelle due liste (per semplicità z = 1, ..., v_Z) rispettivamente con frequenza ν_A;z e ν_B;z,

z = 1, ..., vZ. Gli insiemi A e B vengono quindi divisi in vzgruppi Aze Bz, dove le unit`a a ∈ Az e b ∈ Bzsono tali che:

z_a= z_b = z, ∀ a ∈ A_z, b ∈ B_z, z = 1, ..., v_z.

Invece di studiare le νA× ν_B_{coppie in A × B, Fellegi e Sunter propongono di analizzare solo le}

coppie nei vz sottoinsiemi:

vz [

z=1

A_z× B_z, (5.1)

ovvero solo le coppie di unità che presentano la stessa modalità di Z. Il numero complessivo di coppie che compongono l’unione in (5.1) è:

vZ X

z=1

ν_A;zν_B;z.

Esempio 5.2 Continuando con l’esempio 5.1, se una variabile Z `e distribuita uniformemente in

A e in B e assume 1000 modalit`a (ad esempio Z pu`o essere definita dalla combinazione di tre

variabili con 10 modalità ciascuna), gli insiemi Az e Bz sono composti ognuno da 1000 unità, e il tempo necessario ai calcoli è:

1000 × 1000 × 1000

1.000.000 × 24 × 60 ^{= 0, 69}

giorni. ₂

Questa procedura porta ad un aumento dell’efficienza del record linkage in quanto vengono eliminate quelle coppie che non possono essere match in quanto non coincidono nella variabile

Z. Se la variabile Z `e affetta da errori e/o mancate risposte, `e necessario porre estrema attenzione

agli effetti dell’operazione del bloccaggio.

Si denoti con D^∗ l’insieme dei vettori di confronto nel sottoinsieme di unit`a

D^∗ = ( yab, (a, b) ∈ vz [ z=1 A_z× B_z ) .

Lasciando inalterati gli elementi della procedura di Fellegi e Sunter τ_µ, τ_λ e il peso t(y), una volta eseguito il bloccaggio la procedura controlla solamente le coppie nel rettangolo pi`u interno della figura 5.1. La procedura viene quindi sintetizzata dalle decisioni:

d^∗(y) =    A_m se t(y) ≥ τ_µe y ∈ D^∗ A_∅ se τλ < t(y) < τ_µe y ∈ D^∗ Au se t(y) ≤ τλo y ∈ D − D^∗

Figura 5.1 - Il rettangolo pi `u grande corrisponde all’insieme delleνA×νBcoppie. Il rettangolo interno corrisponde all’insieme delle coppie dopo avere effettuato il bloccaggio. L’insiemeD∗

u è formato dall’unione delle sezioni in grigio chiaro e grigio scuro. L’insiemeDuè invece la sezione di rettangolo a sinistra diτλ, l’insiemeDm è delimitato daτµmentreD∅è la zona compresa fraτλeτµ.

In pratica, sempre controllando la figura 5.1, ora si prende la decisione A_mnella regione dei confronti y: D_m^∗ = nn y : t(y) ≥ τµ o \ D^∗^o

e la decisione A∅nella regione

D^∗_∅ =ⁿⁿy : τ_λ < t(y) < τ_µ^{o \}D^∗^o

mentre nella regione

D_u^∗ = D_u^[(D^∗)^c

si prende la decisione Au.

A questa regola di decisione non corrispondono più i livelli di errore λ e µ. La probabilità che un non-match venga considerato un match (decisione A_m) è ora:

Pd^∗(Y) = A_m c = 0= Pt(Y) ≥ τ_µ c = 0− PY ∈ [D_m− D^∗_m] c = 0< µ (5.2) mentre viene presa la decisione A_u quando la coppia `e un match con probabilit`a:

P d^∗(Y) = Au c = 1 = P t(Y) ≤ τλ c = 1 + P Y ∈ [D_u^∗− D_u] c = 1 > λ (5.3) Quindi la procedura di bloccaggio presenta uno svantaggio e un vantaggio. Lo svantaggio `e rappresentato dall’aumento di probabilit`a nel perdere dei match per via del bloccaggio:

PY ∈ [D^∗_u− D_u]

Il vantaggio `e legato alla diminuzione di probabilit`a di dichiarare dei match falsi per tutti quei confronti y che si trovano al di fuori di D^∗:

P Y ∈ [Dm− D_m^∗] c = 0 .

Oltre a Fellegi e Sunter, anche Kelley (1984, 1985) si `e occupato delle procedure di bloccaggio. L’autore mostra in un esempio che la regola d^∗(y) `e migliore rispetto ad altre regole definibili dopo

il bloccaggio (Kelley, 1984) e fornisce una trattazione formale di come scegliere la procedura di bloccaggio migliore (Kelley, 1985). La procedura definita da Kelley `e comunque applicabile solo quando i confronti fra variabili chiave sono fra loro indipendenti e soddisfano la definizione (2.10). Commento 5.1 A volte vengono eseguite pi`u operazioni di bloccaggio. Ad esempio Armstrong e

Saleh (2000) considerano 6 fasi successive di record linkage per abbinare il National Register of

Electors e il Canada Custums and Revenue Agency Data Base. Ogni fase successiva analizza solo

le coppie che non sono state dichiarate match precedentemente e le coppie analizzate vengono bloccate secondo combinazioni diverse di variabili.

Torelli e Paggiaro (1999) hanno invece considerato un “doppio blocco alternativo” per abbinare le basi dati delle forze lavoro relative a due rilevazioni successive. In pratica i blocchi sono formati dalle unit`a che coincidono o nel codice familiare o nella data di nascita. ₂

Commento 5.2 La procedura di bloccaggio `e stata introdotta essenzialmente per risolvere

problemi di tipo computazionale, come si `e gi`a detto. Ma queste procedure sono importanti anche per le successive applicazioni di metodi statistici. In proposito si veda il commento 6.2. ₂

Nel documento Metodi statistici per il record linkage (pagine 41-46)