Trattamento dei dati con la procedura automatizzata di riconoscimento e normalizzazione

3 Misurazione della Qualità dei Dati Toponomastici Il presente capitolo consta di due parti: la prima parte (Paragrafo .1) è finalizzata a

3.1 Quadro Concettuale di Riferimento per la Misurazione Dal punto di vista teorico, nel seguito sarà definito il concetto di accuratezza

3.1.3 Passi Operativi per la Misurazione degli Indici di Qualità

3.1.3.1 Predisposizione dei Dati Toponomastici

3.1.3.1.2 Trattamento dei dati con la procedura automatizzata di riconoscimento e normalizzazione

(

s r I^~GEC i U

)

^~ I^~GEC N^~ ⁱ ⁱ ^d ^d ^d d i = δ = ∧ = − δ ∈ θ = θ ¹ ( 0) ( 0) per

( ) ( )

(

s r I^~GVD i U

)

^~ I^~GVD N^~ ⁱ ⁱ ^d ^d ^d d i = δ > ∧ = − δ ∈ θ = θ ¹ ( 0) ( 0) per

( ) ( )

(

s r I^~GVF i U

)

^~ I^~GVF N^~ ⁱ ⁱ ^d ^d ^d d i = δ > ∧ = − δ ∈ θ = θ ¹ ( 0) ( 1) per

( ) ( )

(

δ φ φ φ δ

)

θ φ θ _i _c _d _c _d _d _c d i I^~SE i U ^~ I^~SE N^~ = − ∈ = = ¹ per

( )

(

AS_i _dAGAS i _dU

)

_dAGAS N d i = ¹~ − ^~ δ ∈ ^perθ^~= ^~ θ

( )

(

z E^~CCj i U

)

^~ E^~CCj N^~ ⁱ^,^j ^d ^d ^d d i = − δ ∈ θ = θ ¹ per

(

i U

)

^~ E^~CM CM E^~ z N^~ _j ⁱ^,^j ^d ^d ^d d i _⎟^⎟ = ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ∈ − =

∑

= θ δ θ per 5 1 ⁵ 1

( )

(

g E^~IG i U

)

^~ E^~IG N^~ ⁱ ^d ^d ^d d i = − δ ∈ θ = θ ¹ per .

3.1.3.1.2 Trattamento dei dati con la procedura automatizzata di riconoscimento e normalizzazione

Si descrivono nel seguito le principali caratteristiche delle procedure informatiche di riconoscimento e normalizzazione degli indirizzi, indicate per brevità nel seguito come software. Tali software si compongono di due passi: (i) un passo di riconoscimento e (ii) un passo di normalizzazione.

Il passo di riconoscimento confronta l’indirizzo da valutare con tutti gli indirizzi presenti in una base di dati di indirizzi assunti come corretti o di riferimento. Per ciascun confronto possibile, si determina il valore di una funzione di distanza tra l’indirizzo da valutare e l’indirizzo corretto.

Nel caso che la funzione di distanza assuma valore pari a zero, allora significa che l’indirizzo da valutare è esattamente uguale (carattere per carattere) a uno specifico indirizzo di riferimento. In tal caso, si dice che l’indirizzo da valutare è riconosciuto per uguaglianza. In generale, nella banca dei dati ufficiali possono anche essere presenti vocabolari contenenti dizioni abbreviate, e riconosciute come corrette, di alcune specifiche componenti. In tali situazioni, il riconoscimento per uguaglianza può avvenire anche nel caso in cui la componente dell’indirizzo da valutare sia uguale ad una delle forme abbreviate presenti nei vocabolari di riferimento.

Nel caso che la funzione di distanza sia maggiore di zero, il riconoscimento può avvenire per similitudine. In tal caso, tra tutti gli indirizzi di riferimento, candidati al riconoscimento, è scelto quello che presenta la minima distanza rispetto all’indirizzo

da valutare. Affinché l’indirizzo da valutare sia riconosciuto per similitudine la distanza minima deve essere inferiore ad una determinata soglia di rischio. Più si aumenta il valore di questa soglia, maggiore è il rischio di ottenere falsi riconoscimenti, ossia che all’indirizzo da valutare sia erroneamente associato un indirizzo di riferimento. Ai fini del riconoscimento per similitudine, alcuni software utilizzano anche vocabolari contenenti sinonimi dei valori di riferimento di alcune specifiche componenti (ad esempio, località o aree di circolazione di uso comune, ma non riconosciute a livello ufficiale).

Nel passo di normalizzazione, a ciascun indirizzo riconosciuto è affiancato l’indirizzo di riferimento secondo il formato standard previsto dal software.

Una volta predisposti i record di input, secondo i formati di lettura previsti dal software, sarà necessario elaborarli per ottenere gli output attesi. Spesso ciò può comportare una pre-operazione di conversione dei dati in un formato consono alla sua lettura. In generale, tutti i software sono in grado di leggere file in formato ASCII fisso o libero.

Una volta ottenuti gli output del software è necessario importare tutti i dati (gli indirizzi da valutare e gli output generati dal software) in un apposito programma in grado di restituire le elaborazioni statistiche richieste. Programmi statistici indicati a tale scopo sono, ad esempio, SPSS (Statistical Package for Social Science) [SPSS2004] e SAS [SAS2004].

Una volta importati i dati nell’ambiente statistico prescelto, è necessario predisporre alcune routine di programma preliminari alla costruzione delle variabili indicatrici

j i

y , e ir . La variabile ir è fornita direttamente dal software. Quando r_i =1, la variabile stringa iφ può assumere i seguenti valori: (i) 111111φ_i = (nessuna componente dell’indirizzo è riconosciuta), (ii) 011111φ_i = (è riconosciuta solo la componente provincia), (iii) 001111φ_i = (sono riconosciute solo la componenti provincia e comune). In genere il software fornisce informazioni sufficienti in merito ai motivi di non riconoscimento di un indirizzo, che permettono di discriminare a quale delle tre situazioni sopra descritte appartiene l’indirizzo non riconosciuto. Una volta ricostruito il valore della variabile stringa iφ è risolto il problema dei valori che assumono le singoli componenti y ,_i _j che la costituiscono.

E’ più complessa la problematica della attribuzione di un valore alle variabili y ,_i _j

quando 0r_i = . Dal punto di vista strettamente teorico, si attribuisce un valore pari a 0 alla variabile y ,_i _j solo nel caso in cui la componente j dell’indirizzo da valutare sia identica alla stessa componente dell’indirizzo di riferimento.

Tuttavia, l’implementazione di questo criterio non è così semplice, come potrebbe apparire a prima vista, a causa dei diversi formati d’acquisizione dei dati toponomastici disponibili nei diversi archivi, così come per i formati di rilascio dei dati normalizzati. I problemi principali che un analista dovrà affrontare sono:

il software può prevedere un doppio formato, esteso ed abbreviato, per alcune componenti dell’indirizzo normalizzato;

per la forma abbreviata della componente DUG e della componente denominazione dell’area di circolazione, il software può prevedere il rilascio del dato in un unico campo;

il formato di acquisizione dell’archivio amministrativo non prevede la separazione, in campi distinti, di tutte o alcune componenti l’indirizzo.

Problema 1

In generale, i software di normalizzazione prevedono una doppia dicitura, estesa ed abbreviata, per le componenti comune, DUG e denominazione dell’area di circolazione.

A livello della j-esima componente, l’accertamento dell’errore sintattico deve essere effettuato sia rispetto alla forma estesa che rispetto alla forma abbreviata. Nel caso in cui una delle due forme corrisponda a quella riportata nell’indirizzo valutato, allora la variabile y_i_,_j =0, altrimenti y_i_{, =}_j 1.

Per quanto riguarda l’indicatore sintetico di accuratezza AS possono essere ottenute _i 8 stringhe, egualmente corrette, per un indirizzo di riferimento. Nello specifico le 8 stringhe possibili sono riportate in Tabella 3.1.

Forme

possibili ^{Provincia Comune DUG} ^{Denominazione} Numero Civico

1 forma estesa forma estesa forma estesa forma estesa ^forma estesa

2 forma estesa forma estesa forma estesa ^forma abbreviata

forma estesa

3 forma estesa forma estesa ^forma

abbreviata ^{forma estesa}

forma estesa

4 forma estesa forma estesa ^forma abbreviata

forma abbreviata

forma estesa

5 forma estesa ^forma

abbreviata ^{forma estesa forma estesa}

forma estesa

6 forma estesa ^forma

abbreviata ^{forma estesa}

forma abbreviata

forma estesa

7 forma estesa ^forma abbreviata

forma

abbreviata ^{forma estesa}

forma estesa

8 forma estesa ^forma abbreviata forma abbreviata forma abbreviata forma estesa

Tabella 3.1: Possibili forme di stringhe corrette per un indirizzo di riferimento

Ciascun indirizzo da valutare dovrà essere confrontato con tutte le 8 forme possibili dell’indirizzo di riferimento, producendo 8 indici AS . All’indirizzo i-esimo si _i

attribuirà il punteggio massimo tra gli 8 indici AS , poiché il massimo si riferisce alla _i stringa che meglio si adatta all’indirizzo da valutare.

In Figura 3.3 si riporta, a titolo di esempio, una routine sviluppata in SPSS, per l’ottenimento del punteggio di accuratezza sintattica AS . _i

* Determina l’ampiezza della stringa indirizzo da valutare meno 2. COMPUTE temp_i = LENGTH(rtrim(ind_inp))-2.

* Ciclo per gli otto possibili indirizzi in output. do repeat

car_out= temp_o1 to temp_o8 /

str_out= ind_out1 ind_out 2 ind_out3 ind_out4 ind_out5 ind_out6 ind_out7 ind_out8 / car_corr = conta1 to conta8/

indx = index1 to index8. * Inizializzazione del contatore. compute car_corr = 0.

* Determina l’ampiezza della stringa indirizzo in output meno 2. COMPUTE car_out= LENGTH(rtrim(str_out))-2 .

loop x = 1 to car_out. loop y = 1 to temp_i .

* Se il software di normalizzazione riconosce l’indirizzo (r=0) allora conta le occorrenze delle triple di caratteri.

if r = 0 and (SUBSTR(str_out,x,3) = SUBSTR(ind_inp,y,3))

car_corr = car_corr + 1.

end loop.

end loop .

*Calcola l’indice.

COMPUTE INDX = car_corr/car_out.

end repeat. execute.

* individua il valore massimo tra gli otto possibili indici di accuratezza.

compute AS = max(index1, index2, index3, index4, index5, index6, index7, index8). execute.

* Se l’indice è superiore ad uno, si pone AS uguale a uno. if AS> 1 AS=1.

execute.

Figura 3.3: Routine in SPSS per la determinazione del punteggio ^ASi

Problema 2

Se il software restituisce in un unico campo la forma abbreviata dell’area di circolazione, si pone una complicazione per una corretta valutazione dell’accuratezza sintattica. Infatti, riprendendo il caso illustrato per il problema (1), se la forma estesa di un’area di circolazione è “Piazza Giuseppe Mazzini” e la sua forma abbreviata “P.zza G. Mazzini”, allora sono da considerare corrette le due forme ibride “P.zza Giuseppe Mazzini” e “Piazza G. Mazzini”. In tal caso, è necessario trovare il modo di separare il campo stringa unificato nelle sue due componenti primitive.

In linea di principio, se la DUG estesa possiede un complemento, anche la DUG abbreviata dovrebbe possederlo; a partire dall’informazione contenuta dalla DUG estesa e utilizzando come separatore lo spazio è possibile separare l’area di circolazione in DUG abbreviata e denominazione abbreviata.

Nei fatti, questo non è sempre verificato, poiché è possibile che il complemento sia presente nella DUG estesa e non in quella abbreviata. In tal caso, è necessario avvalersi di un algoritmo più complesso che, attraverso una serie di confronti con le forme estese e scomposizioni della forma abbreviata, è in grado di ottenere il risultato desiderato.

43 *Verifica se esiste un complemento alla DUG estesa.

COMPUTE DUG_PAR = 0. EXECUTE.

IF INDEX(RTRIM(LTRIM(DUG))," ") > 0 DUG_PAR= 1. EXECUTE .

* Routine per la creazione dei campi DUG_A (DUG abbreviata) e DAC_A (denominazione area di circolazione abbreviata). * I suffissi tmp, tm2 o t, indicano che la variabile assume un valore temporaneo di comodo.

STRING DUGA_TMP(A10).

COMPUTE DUGA_TMP = SUBSTR(LTRIM(VIA_UF_A),1,INDEX(LTRIM(VIA_UF_A)," ")). EXECUTE.

STRING DACAB_T (A30).

COMPUTE DACAB_T = SUBSTR(VIA_UF_A,LENGTH(RTRIM(DUGA_TMP))+2). EXECUTE.

* Confronti tra stringhe.

STRING DUGA_TM2 (A10).

COMPUTE DUGA_TM2 = SUBSTR(DACAB_T,1, INDEX(LTRIM(DACAB_T)," ")). EXECUTE.

* Crea DUG abbreviata.

STRING DUG_A(A25).

COMPUTE DUG_A = DUGA_TMP. IF (DUG_PAR = 1 AND

(SUBSTR(LTRIM(RTRIM(DUGA_TM2)),1, LENGTH(LTRIM(RTRIM(DUG A_TM2))) ) <>

SUBSTR(LTRIM(RTRIM(DAC_EST)),1,LENGTH(LTRIM(RTRIM(DUGA_TM2))))))

DUG_A =CONCAT(LTRIM(RTRIM(DUGA_TMP))," ",LTRIM(RTRIM(DUGA_TM2))).

EXECUTE. * Crea DAC abbreviata. STRING DAC_A (A25).

COMPUTE DAC_A= SUBSTR(RTRIM(LTRIM(VIA_UF_A)),LENGTH(RTRIM(DUGA))+2).

EXECUTE.

Figura 3.4: Routine per la divisione dell’area di circolazione in DUG abbreviata e Denominazione abbreviata

Problema 3

Molto più intricato è invece risolvere il problema della separazione in campi distinti quando l’indirizzo da valutare riporta in un unico campo il punto sul territorio (rappresentato dall’unione delle componenti DUG, denominazione area di circolazione e numero civico).

Una strategia, per risolvere in modo computazionalmente semplice il problema di valorizzare le variabili y ,_i _j è di seguito descritta. Si considera la stringa relativa alla componente rilasciata dalla procedura di normalizzazione e si esamina se essa sia inclusa come sottostringa della stringa relativa al punto sul territorio dell’indirizzo da valutare. Questa operazione è eseguita sia per la forma estesa sia per la forma abbreviata delle componenti. Nel caso che una delle due forme sia inclusa come sottostringa della stringa relativa al punto sul territorio dell’indirizzo da valutare, la variabile y ,_i _j corrispondente alla componente esaminata assume valore 0, altrimenti assume valore 1.

Tuttavia, questo criterio di verifica della violazione dell’errore sintattico, non basandosi su un criterio stringente d’identità, può non rilevare alcune situazioni di errore.

Si riprenda l’esempio introdotto nel Paragrafo 3.1.2.1 e si supponga che l’indirizzo da valutare e quello normalizzato siano riportati secondo i formati illustrati in figura 3.5. Si prenda la denominazione area di circolazione “ONE’”. La procedura di accertamento dell’errore sintattico proposta, verifica che tale valore sia presente, come sottostringa nel campo punto sul territorio fornito in input. Poiché questa condizione è vera, indipendentemente dagli altri valori presenti nel campo, si accerta l’assenza di errore sintattico nella denominazione area di circolazione. L’esempio riportato è importante per interpretare gli indicatori proposti in modo corretto. Questi

rilasciano solo parti di informazioni e l’accertamento di una violazione dell’errore sintattico implica che la lettura sia contestuale. Così, nell’esempio, è ovvio che tutte le componenti normalizzate, costituenti l’indirizzo da valutare, sono presenti, infatti

000000 =

φ . Tuttavia, l’indice di accuratezza sintattica sull’indirizzo da valutare indica che, o la sequenza formale dell’indirizzo da valutare non è corretta, oppure sono presenti simboli lessicografici di localizzazione, non essenziali AS_i =

(

813

)

<1. Indirizzo da valutare

Componente Valore della componente

Provincia TV

Comune FONTE Punto sul territorio ONE' - VIA SAN NICOLO' 1

Indirizzo normalizzato Provincia TV Comune FONTE DUG VIA Denominazione area di circolazione ONE' Civico 1 Figura 3.5: Esempio di problema (3)

Quando l’indirizzo da valutare riporta in un unico campo il punto sul territorio, non è possibile verificare, in modo automatico, violazioni alla dimensione della completezza, nelle componenti che lo costituiscono. In particolare, non è possibile discriminare tra una componente mancante e una componente errata quando si ricerca una singola componente come sottostringa dell’indirizzo da valutare.

3.1.4 L’Analisi della Accuratezza Sintattica mediante un Modello di

Nel documento Principi Guida per il Miglioramento della Qualità dei Dati Toponomastici nella Pubblica Amministrazione (pagine 41-46)