Metodi di linkage - -– Variabili di linkage

Le procedure di abbinamento 92

Tavola 3.1 -– Variabili di linkage

3.3 Metodi di linkage

Come già sottolineato nei paragrafi precedenti, la procedura di abbinamento è stata complessa ed è stata realizzata in diversi passi, con metodi di tipo deterministico essenzialmente per quanto concerne la deduplicazione dell’indagine PES, e con tecniche più sofisticate di tipo probabilistico, per gli abbinamenti tra la PES e il Censimento. Da ultimo si è provveduto alla ricerca manuale dei record della PES risultati non ancora abbinati. Nei paragrafi successivi si delineano brevemente le metodologie sottostanti, con specifici rimandi bibliografici per approfondimenti.

3.3.1 Record linkage deterministico

Il record linkage deterministico è stato adottato per eliminare dal file PES i record che erroneamente erano stati inclusi più di una volta nella PES, per errori nella rilevazione o nella raccolta e codifica dei questionari. Non essendo disponibile una chiave esatta come il codice fiscale nel questionario PES, si è considerata come chiave di aggancio per le coppie, al fine di identificare i duplicati, quella costituita dalla esatta coincidenza delle informazioni riportate in alcuni campi identificativi dell’unità. I file duplicati sono stati sottoposti, comunque, anche a revisione manuale. L’approccio deterministico è stato usato solo per questo passo della strategia complessiva.

3.3.2 Record linkage probabilistico

La procedura di abbinamento tra gli individui della PES e del Censimento è stata una fase complessa. Le variabili nome, cognome e data di nascita dell’individuo sono fortemente discriminanti per l’identificazione delle coppie e, quindi, potevano essere usate per implementare i metodi di record linkage probabilistico che riuscivano a discriminare bene le coppie dalle non coppie.

Nel modello probabilistico per l’individuazione degli abbinamenti, si ipotizza che la distribuzione del vettore dei confronti, γ, i cui elementi k sono il risultato del confronto tra le variabili di match comuni ai due insiemi e fortemente discriminanti per le unità, sia una mistura di due distribuzioni, una generata dalle coppie (a,b) che effettivamente rappresentano la stessa unità, distribuzione m, e una generata dalle coppie (a,b) che rappresentano unità diverse, distribuzione u. A partire dalla stima di tali distribuzioni, è possibile costruire il peso composto di abbinamento (Fellegi and Sunter, 1969), dato dal rapporto delle verosimiglianze

 

 U

M

u

m

r

Pr

|

Pr

)

(

)

(



 _



dove M è l’insieme delle coppie che rappresentano degli abbinamenti e U è l’insieme delle coppie che non rappresentano degli abbinamenti, con MU=  e MU=. In generale, la stima dei parametri delle distribuzioni viene generalmente ottenuta per mezzo dell’applicazione dell’algoritmo EM (Jaro, 1985).

Sulla base del rapporto r, le coppie sono ordinate e sottoposte ad un processo di classificazione negli insiemi M ed U in modo tale da minimizzare gli errori di classificazione e la dimensione dell’area per cui non viene presa nessuna decisione. Le coppie che hanno una probabilità di abbinamento superiore ad una certa soglia, T_m, sono classificate come match, quelle al di sotto dalla soglia T_u come non match, per quelle con una probabilità compresa tra T_u e T_m non viene presa una decisione e sono mandate a revisione manuale.

In generale, la qualità dei risultati del processo di abbinamento può essere compromessa dalla elevata dimensione dei dati da abbinare e dalla presenza di errori nelle variabili testuali (principalmente nome e cognome) candidate ad essere variabili di matching. Tali problematiche possono essere affrontate con metodi specifici.

L’elevata dimensione dei dati causa, a sua volta, due generi di problemi: uno di tipo informatico dovuto all’eccessivo carico computazionale nella fase di confronto ed uno di tipo statistico, ossia la difficoltà di rilevare un fenomeno (quello di individuazione di M) che diventa molto raro se le coppie sono troppo poche rispetto alle non coppie. È stato in questo contesto necessario, dunque, diminuire la complessità del problema (ridurre lo spazio di ricerca di ricerca delle coppie) ed i metodi presi in considerazione sono stati essenzialmente tre: Blocking, Sorted Neighborhood e SimHash.

La presenza di errori nei valori testuali di alcuni attributi comporta confronti con esito negativo (non concordanza) a causa di minime differenze del tutto irrilevanti anche quando i due attributi sono riferiti alla stessa unità. Questi esiti possono causare un’errata classificazione della coppia dovuta a distorsioni nelle stime del modello. Il problema si supera utilizzando degli algoritmi che valutano la similitudine delle stringhe in modo che due valori molto simili anche se non identici risultino concordanti. In particolare sono state trovate utili 3 metriche Jaro, Soundex e 3grams.

Di seguito una breve descrizione di tutti i metodi utilizzati. Metodi di riduzione:

Blocking method: è il modo più semplice di realizzare una riduzione dello spazio di ricerca delle coppie, si limitano i confronti ai soli elementi delle liste, PES e Censimento, che presentano valori coincidenti per la variabile (le variabili) selezionata come variabile di blocco (numerica o alfanumerica).

Si introduce un elemento deterministico per cui tutte le unità che differiscono per la variabile di bloccaggio hanno probabilità pari a 1 di essere considerate non abbinamenti.

Sorted Neighborhood: il metodo prevede di ordinare le unità delle due liste considerate insieme (come fossero una unica lista) secondo la variabile di blocco (in questo caso più propriamente si tratta di variabile di ordinamento) e scorrere, in maniera sequenziale, l’ordinamento attraverso una finestra di ampiezza fissa w, la cui dimensione viene fissata dall’utente. I record all’interno della finestra sono confrontati tra loro e abbinati tra loro e solo queste coppie sono incluse nell’insieme delle coppie candidate. In questo caso quindi va specificata sia la variabile di blocco secondo cui fare l’ordinamento che l’ampiezza della finestra dei confronti. Questo metodo riduce il numero di confronti, rispetto al semplice bloccaggio, in quanto la scelta dell’ampiezza della finestra limita il numero dei possibili confronti per ogni record a 2w-1.

Nel fissare l’ampiezza della finestra bisogna tener presente che si rischia di perdere veri abbinamenti se tale ampiezza è più piccola del numero di unità che presentano uno stesso valore nella variabile d’ordinamento.

Approfondimenti circa alcuni algoritmi sono disponibili in Baxter et al. (2003).

Simhash:è un metodo innovativo che si basa sull’analisi delle impronte hash dei valori della variabile in esame. Queste impronte hash sono delle stringhe di bit (ovvero concatenazione di 0 e 1) che hanno due caratteristiche fondamentali: 1) mantengono informazioni dei valori originali e 2) hanno una lunghezza fissa.

In pratica queste impronte hash derivano dalla combinazione di un decodifica in binario di singoli blocchi di caratteri che compongono la stringa di partenza. Confrontando due impronte con la distanza di Hamming (che dipende dalla frequenza di caratteri binari diversi nelle due sequenze) si dimostra che stringhe simili hanno distanze di Hamming basse.

Col metodo di riduzione Simhash entrano nello spazio di ricerca solo i record per i quali la distanza di Hamming della variabile di bloccaggio è inferiore ad una data soglia. Come nel metodo del Sorted Neighborhood per diminuire la complessità computazionale si prevede di ordinare preventivamente le unità delle due liste in modo da confrontare ogni record solo con quello adiacente della lista. Con il metodo Simhash l’ordinamento viene fatto sulle impronte hash ed inoltre, sfruttando il fatto che queste hanno una dimensione fissa, è possibile effettuare più iterazioni ordinando la lista su diverse permutazioni dell’impronta; in questo modo si rende la procedura meno sensibile alle differenze nei primi caratteri delle stringhe, rispetto al metodo del Sorted Neighborhood.

Per maggiori dettagli sulle parametrizzazioni del metodo Simhash in Relais o per approfondimenti sull’algoritmo si rimanda al manuale di Relais 3.0 (Relais 3.0 UserGuide) ed ai contributi di Mancini et al (2012) e Charikar (2002).

Metodi di valutazione della similitudine tra stringhe:

Jaro (e Jaro-Winkler):in breve, se si indicano con 1 e 2 le due stringhe da confrontare e con il numero dei caratteri della stringa (i=1,2), c il numero di caratteri comuni e t il numero di caratteri comuni trasposti, la funzione Jaro si ottiene come

1, 2 ¹ 3

Una estensione molto usata della funzione di confronto Jaro è la funzione Jaro-Winkler, data da

1, 2 1, 2 ∗ ∗ 1 1, 2

dove p e l (numero dei caratteri comuni da inizio stringa) sono dei fattori che “premiano” le stringhe più simili nei caratteri iniziali. Queste due funzioni conteggiano il numero di caratteri in comune tra le stringhe e il numero di interventi necessari a rendere uguali le stringhe.

Soundex: una funzione di confronto basata invece sulla pronuncia delle stringhe è la Soundex: alle stringhe viene associato un codice di 6 caratteri composto dal primo carattere della stringa e da 5 codici numerici che possono assumere valore da 0 a 6. Questi codici vengono assegnati in base alla classe di assonanza delle prime 5 consonanti della stringa.

3-Grams: la funzione 3-Grams invece lavora sui trigrammi che compongono la stringa, ossia sui sottoinsiemi di 3 caratteri consecutivi di una stringa. La funzione 3-Grams applicata alle stringhe s1 e s2 conteggia essenzialmente il numero dei trigrammi comuni sul numero totale di trigrammi di s1 e s2.

3.3.3 Revisione manuale dei casi ambigui e la ricerca manuale dei non abbinati

Come sottolineato più volte, l’abbinamento tra i dati del Censimento e dell’indagine di Copertura deve essere il più accurato possibile in quanto le stime del tasso di copertura del Censimento vengono prodotte adottando il modello cattura-ricattura che ipotizza che le procedure di abbinamento, usate per identificare le unità che sono state rilevate ad entrambe le rilevazioni, siano prive di errori; violazioni anche minime di questa ipotesi hanno impatti consistenti sulle stime prodotte.

Per tali ragioni, per realizzare l’abbinamento tra gli individui rilevati al Censimento e gli individui rilevati all’indagine di Copertura è stata adottata una procedura in più passi che si avvale al meglio della presenza di variabili con alto potere discriminante e della qualità delle informazioni presenti nelle due fonti. Tutte le coppie con probabilità di abbinamento non elevata, risultanti dai vari modelli probabilistici adottati nei diversi passi procedura di abbinamento, sono state sottoposte al lavoro di alcuni revisori esperti al fine di ridurre al minimo l’errore di linkage.

Gli esperti di dominio hanno selezionato un insieme di variabili comuni alle due fonti (Censimento e PES) ritenendole le più significative e discriminanti per giudicare se due record corrispondono effettivamente alla stessa unità di rilevazione. In particolare le variabili scelte come più rilevanti per gli individui sono: il nome e il cognome, la data di nascita, l’indirizzo comprensivo di tutti i campi che lo costituiscono, il comune e la provincia in cui l’individuo è stato rilevato ma tutte le variabili disponibili per la coppia concorrono a stabilire se si tratta, o meno, dello stesso individuo.

La revisione manuale consiste nel considerare i due record che compongono la coppia proposta, uno per ogni database di partenza, ed esaminare la coppia per confermare la decisione che si tratta di un corretto abbinamento o invece per decidere che si tratta di un non abbinamento.

Poiché lo scopo della revisione manuale è quello di determinare il vero stato di abbinamento della coppia, la decisione dovrebbe essere presa esclusivamente sulla base delle evidenze, senza applicare il 'principio di precauzione' per cui in caso di dubbio una coppia è dichiarata un non abbinamento. Per far si che le decisioni prese dai revisori manuali non siano influenzate dai risultati ottenuti con le procedure statistiche, le coppie mandate a revisione non sono accompagnate dalla probabilità di corretto abbinamento risultata dal modello probabilistico e ai revisori non viene fornita informazione riguardo al fatto che la loro ricerca è finalizzata all’individuazione dei falsi positivi piuttosto che dei falsi negativi. In questo modo si cerca di garantire l’indipendenza del risultato della revisione manuale.

Il lavoro di revisione manuale è stato inoltre monitorato attraverso la riassegnazione di campioni di coppie da valutare a revisori diversi che lavorano in modo indipendente.

La revisione manuale è un processo diverso e non deve essere confuso con la ricerca manuale degli abbinamenti. Mentre la revisione manuale ha accompagnato i risultati dei modelli probabilistici applicati in ogni passo della complessa procedura di linkage, la ricerca manuale è stata applicata all’ultimo passo della strategia complessiva. La ricerca manuale consiste nel prendere un record non abbinato e ricercarlo del file per abbinarlo. La revisione manuale, invece, prende sempre e solo in considerazione coppie di record.

La qualità della procedura di linkage dipende dalla precisione delle decisioni prese nella revisione manuale. Pertanto, i revisori sono stati istruiti appositamente per questo lavoro e non sono state fatte pressioni per velocizzare i risultati.

Nel documento 6 La valutazione della qualità (pagine 162-166)

Metodi di linkage

Le procedure di abbinamento 92

Tavola 3.1 -– Variabili di linkage

3.3 Metodi di linkage

 

 U

M

u

m

r

Pr

|

Pr

)

(

)

(







 



 _