• Non ci sono risultati.

Il metodo iterativo di Larsen e Rubin (2001)

Nel documento Metodi statistici per il record linkage (pagine 74-78)

Larsen e Rubin introducono un metodo innovativo rispetto a quelli visti fino ad ora. In primo luogo, la loro procedura pu`o definirsi come una “mistura” fra la procedura di decisione di Fellegi e

Sunter, con pesi definiti come in Torelli (paragrafo 4.2) e stima dei parametri basata su modelli, e una procedura iterativa, basata sul controllo manuale dei dati. L’obiettivo `e quello di minimizzare la presenza degli errori nella regola di decisione, e nel contempo di minimizzare l’insieme delle coppie il cui status `e incerto (ovvero per le quali si prende la decisione A secondo la notazione del capitolo 4).

In secondo luogo, Larsen e Rubin generalizzano un modello studiato da Winkler (1992), definendo un modello statistico per i confronti fra le variabili chiave Yhquando le νA× νBcoppie vengono raggruppate in G (≥ 3) classi distinte (finora, tranne che nel paragrafo 6.4.1, `e sempre stata considerata una bipartizione nelle coppie che sono match, M, e nelle coppie che sono non-match, U ). Il motivo che ha condotto Larsen e Rubin a considerare un modello cos`ı generale `e il seguente: `e stato sempre notato che le relazioni di dipendenza che si vengono a instaurare fra i confronti delle variabili chiave Yhpossono essere molto complesse, e non identificabili con un unico modello di dipendenza. Quindi si suppone che il gruppo dei match e il gruppo dei non-match si possono dividere a loro volta in sottogruppi di coppie caratterizzati da diversi “gradi” di relazione fra le variabili di confronto. Il tipo di relazione fra le variabili di confronto in ogni gruppo viene descritto da un modello loglineare. La verosimiglianza (6.4), definita nel caso in cui le coppie potevano appartenere a due soli gruppi (gli abbinamenti e i non abbinamenti), viene generalizzata al caso in cui la verosimiglianza `e una mistura di G distribuzioni (modelli loglineari), una per ogni gruppo. Per questi modelli `e necessario considerare una notazione leggermente pi`u sofisticata rispetto a quella adottata fino ad ora. Sia:

• pg: frazione di coppie che appartengono alla classe g, g = 1, ..., G, P

gpg = 1. Nella

verosimiglianza (6.5) questi parametri erano solo 2: p per le coppie in M e (1 − p) per le coppie in U .

• py;g= P (Yab = y|g), ovvero la probabilit`a che il vettore di confronto per la coppia (a, b)

assuma il valore y sapendo che la coppia appartiene al gruppo g, g = 1, ..., G, y ∈ D.

• La matrice c registra per ogni coppia (a, b) il gruppo di appartenenza, ovvero: ca,b∈ {1, 2, ..., G}, (a, b) ∈ A × B.

La verosimiglianza diventa allora:

L(p, p.;g, g = 1, ..., G|y, c) = νA Y a=1 νB Y b=1    G Y g=1 pg   Y y∈D pd(yab,y) y;g   d(ca,b;g)   (7.1) dove: d(η; θ) =  1 se η = θ 0 altrimenti.

Il metodo di record linkage proposto da Larsen e Rubin si pu`o dividere in due fasi. Nella prima, si “stima” il modello 7.1 fra un insieme di modelli plausibili. La seconda fase `e la fase di decisione vera e propria.

7.2.1 La scelta del modello

La fase di scelta del modello si compone di 4 passi.

1. Il primo passo consiste nel decidere un insieme di modelli loglineari candidati a spiegare i dati (i confronti) a disposizione. Si vuole sottolineare che i modelli specificano due elementi.

• Il numero di gruppi G ≥ 3. Si suppone ancora che le coppie possano essere match

o non-match, ma si ammette che i due gruppi M e U possano a loro volta dividersi in sottogruppi che hanno un comportamento omogeneo, ovvero che rispondono alla stessa distribuzione di probabilit`a.

• Per ogni gruppo si suppone un modello loglineare.

Si ipotizzi ci siano S modelli candidati.

2. Usando l’algoritmo EM (appendice B), si stimano i parametri {psg} e {ps

y;g} in (7.1), s = 1, ..., S. Siano {ˆpsg} e {ˆpsy;g}, s = 1, ..., S, le stime corrispondenti.

3. Fra i diversi modelli proposti, s = 1, ..., S si sceglie quello le cui probabilit`a stimate si avvicinano di pi`u alle probabilit`a che Larsen e Rubin chiamano “semi-empiriche”, e che indicano con il simbolo ˜psg e ˜psi;g. Queste probabilit`a uniscono informazioni provenienti dai dati con opinioni personali, e quindi rappresentano valori plausibili delle probabilit`a cercate. Supponendo che G = 3 e che il gruppo g = 1 sia il gruppo dei match M (che non viene diviso) mentre il gruppo dei non-match U viene diviso in due sottogruppi, Larsen e Rubin danno i seguenti suggerimenti.

• Un valore iniziale per ˜p1, (cio`e per il gruppo dei match), pu`o essere definito da una frazione del rapporto fra il numero di unit`a nel dataset pi`u piccolo (cio`e N = νA∧ νB) ed il numero di coppie totali che si hanno (cio`e νA× νB). Questa scelta `e dovuta al fatto che il numero massimo di abbinamenti non pu`o superare il numero di unit`a presenti in ognuno dei due dataset.

• Dato che le coppie che sono un match tendono a avere molte variabili di confronto

uguali (cio`e i vettori di confronto sono composti per lo pi`u da valori 1), Larsen e Rubin consigliano di adattare la distribuzione ˜py;1 per il gruppo dei match alle frequenze relative associate ai vettori di confronto con un numero elevato di 1. Le restanti due distribuzioni possono essere calibrate tenendo conto delle frequenze relative osservate sui vettori di confronto con un numero elevato di 0.

Queste scelte si basano sui dati a disposizione sia su opinioni personali, ma non su dati provenienti da altri siti e controllati da impiegati, data la forte “site-to-site variability” (Winkler 1985a, 1985b, Arellano 1992, Belin 1993).

4. Si considera la distanza di Kullback-Leibler (si veda l’appendice C; in particolare si faccia riferimento a Bishop et al., 1975, p. 344-348, per l’estensione al caso delle tabelle di contingenza) fra la distribuzione semi-empirica e quella stimata al passo 2:

∆(˜p, ˆp) = X

y∈D G

X

g=1

nggy;glog ˜pgy;g

ˆ ps gs y;g  , s = 1, ..., S,

per individuare quale fra gli S modelli candidati si avvicina di pi`u alla situazione indicata dalle probabilit`a semiempiriche. Sia sil modello scelto.

Si sottolinea che una volta scelto il modello al passo 4, le stime dei parametri del modello (7.1) sono le stime di massima verosimiglianza ottenute al passo 2.

7.2.2 La fase decisionale: una procedura iterativa

Una volta scelto il modello per i dati a disposizione, Larsen e Rubin propongono una procedura iterativa, che combina fasi statistiche con fasi di revisione di dati attraverso impiegati. Sottostante questa procedura c’`e l’ipotesi che il controllo manuale da parte degli impiegati determina senza errore lo status delle coppie.

Questa procedura pu`o essere sintetizzata nei seguenti passaggi.

1. Si ordinano i vettori di confronto osservati y in senso decrescente rispetto alla stima di massima probabilit`a di appartenenza al gruppo degli abbinamenti (supponiamo g = 1)1:

ˆ ps1sy;1 PG g=1s∗ gs∗ y;g . (7.2)

2. Secondo il meccanismo di decisione di Fellegi-Sunter (si veda il capitolo 4) si decide se la coppia (a, b) `e un match (Am), un non-match (Au) o un match incerto (A).

3. Fra le coppie il cui status `e incerto, si selezionano le coppie con vettore di confronto y alle quali corrisponde una probabilit`a (7.2) vicina al livello di soglia φ. Queste coppie vengono sottoposte a revisione manuale con impiegati per una decisione definitiva. Larsen e Rubin suggeriscono di fissare φ pari al valore pi`u piccolo fra i seguenti:

• 80%(νA∧ νB);

• la numerosit`a stimata attraverso il modello del gruppo di coppie che sono match M.

La scelta di questo livello di soglia `e legata a considerazioni di ordine pratico. Se l’insieme dei match `e molto pi`u grande dell’ampiezza della lista pi`u piccola, questo insieme conterr`a molte coppie abbinate erroneamente. Se il gruppo dei match possiede un numero di coppie molto inferiore al numero di unit`a presenti nella lista pi`u piccola, ci potrebbero essere molti abbinamenti che non sono stati individuati.

4. I parametri del modello s vengono ora di nuovo stimati tenendo conto di tutte le informazioni raccolte. In particolare alle coppie analizzate dagli impiegati viene assegnata probabilit`a di appartenenza al gruppo dei match pari a 1 se `e stato appurato che la coppia `e un match; viceversa viene assegnata probabilit`a 0. Per gli altri parametri si ricorre, come al solito, alla stima di massima verosimiglianza attraverso l’algoritmo EM. Il modello al quale si fa riferimento `e leggermente diverso. Si indichi con V l’insieme delle coppie per le quali lo status `e stato accertato manualmente, ovvero i valori {ca,b, (a, b) ∈ V} sono

ora conosciuti. I restanti valori {ca,b, (a, b) 6∈ V} vengono considerati ancora incogniti (in

pratica non vengono tenute in considerazione le decisioni sulle coppie prese dalla procedura

1

di record linkage). La funzione di densit`a dei dati che si deve analizzare ora si compone di due parti: Y (a,b)∈V G Y g=1  pg   Y y∈D pd(yab,y) y;g     d(cab,g) Y (a,b)6∈V G Y g=1  pg   Y y∈D pd(yab,y) y;g     d(cab,g)

Nel documento Metodi statistici per il record linkage (pagine 74-78)