• Non ci sono risultati.

3 Misurazione della Qualità dei Dati Toponomastici Il presente capitolo consta di due parti: la prima parte (Paragrafo .1) è finalizzata a

3.2 Risultati Sperimentali sull’Accuratezza Sintattica

3.2.1 Fasi di Predisposizione delle Basi Dati

Numero Civico (8) Frazione (25)

Altre indicazioni indirizzo (30) Codice Istat comune (3) Sigla provincia (2)

Unità locale (un’impresa può dare luogo a più unità locali) Archivio anagrafico dell’Agenzia delle Entrate (archivio AE) 9.922.701 SEDE LEGALE

Codice catastale comune (4) CAP (5)

Punto sul territorio (stringa alfanumerica a formato libero) (35)

DOMICILIO FISCALE Codice catastale comune (4) CAP (5)

Punto sul territorio (stringa alfanumerica a formato libero) (35)

Soggetti fisici e persone giuridiche titolari di Partita IVA

Tabella 3.2: Schema riassuntivo delle caratteristiche degli archivi su cui è stata misurata l’accuratezza sintattica degli indirizzi

3.2.1 Fasi di Predisposizione delle Basi Dati

Le operazioni preliminari necessarie all’analisi dell’accuratezza sintattica degli archivi sono state: (i) la selezione di un campione di record da ciascuno degli archivi; (ii) la normalizzazione degli indirizzi campionati; (iii) il calcolo degli indicatori di accuratezza. Tali fasi verranno nel seguito brevemente illustrate.

48

3.2.1.1 Selezione del Campione

Vista la complessità e la mole dei dati dei tre archivi sottoposti a sperimentazione, si è deciso di studiare la loro accuratezza sintattica, analizzando un campione dei record di ciascun archivio. In tal modo, a fronte di un trascurabile errore delle stime, è stato possibile abbattere i costi di elaborazione delle informazioni elementari. Tale campione è stato realizzato adottando il medesimo disegno di campionamento5 per ciascun archivio, questo ha permesso che le analisi finalizzate al confronto tra i diversi archivi non fossero disturbate da differenti tecniche di campionamento.

Il disegno di campionamento adottato per ciascun archivio è analogo a quello illustrato nel Paragrafo 3.1.3.1.1 e può essere sintetizzato nel modo seguente:

− il disegno di campionamento è stratificato con selezione delle unità negli strati senza reimmissione e a probabilità uguali. La variabile di stratificazione è la provincia;

− per ciascun archivio è stato selezionato un campione di 200.000 record. Il numero di record da assegnare a ciascuno strato è stato calcolato mediante la relazione (3.22); il campione estratto in tal modo è autoponderante; questo, nell’ambito di uno specifico archivio, comporta due distinte conseguenze (vedi Paragrafo 3.1.3.1.1): (i) tutti i record hanno approssimativamente la medesima probabilità, pari a n/N, di essere inclusi nel campione (ii) i pesi campionari w , con cui i ponderare i pesi campionari assumono un valore approssimativamente costante pari a N/n .

Per implementare il disegno sopra descritto, è stato necessario effettuare un’operazione preliminare sui record dell’archivio AE, in quanto la variabile provincia non era presente sui record dell’archivio. Per attuare la procedura di stratificazione provinciale, è stato necessario aggiungere tale variabile a tutti i record dell’archivio, mediante un’operazione di trascodifica del codice catastale del comune.

3.2.1.2 Riconoscimento e Normalizzazione degli Indirizzi Campionati

Come software di riconoscimento normalizzazione è stato utilizzato SISTER [Sister2004] (acronimo SIStema TErritoriale per il Riconoscimento), realizzato negli anni ‘90 dalla Società SEAT Pagine Gialle sulla base di una convenzione con l’Istat. Come base dati di indirizzi considerati dal software come indirizzi corretti o di riferimento è stata utilizzata la versione 1999 dello Stradario Nazionale (vedi Paragrafo 3.1.1); si è utilizzata la versione aggiornata al 1999 dello Stradario Nazionale, realizzata dalla società SEAT Pagine Gialle la quale presenta la data di aggiornamento più prossima alla data di riferimento degli archivi amministrativi esaminati nella sperimentazione.

SISTER divide il riconoscimento in due fasi consecutive: (i) nella prima, sono esaminate la sigla della provincia e comune che identificano la zona del territorio; (ii) nella seconda, qualora la zona sia stata identificata correttamente, SISTER procede al

5

Con tale locuzione si denota l’insieme delle tecniche adottate e atte a selezionare le unità del campione

49

riconoscimento e alla normalizzazione del punto sul territorio identificato dalle componenti DUG, denominazione dell’area di circolazione e numero civico.

SISTER può utilizzare cinque diversi livelli di riconoscimento (numerati da 1 a 5), che identificano differenti livelli di rischio di effettuare falsi riconoscimenti (vedi in tal senso il Paragrafo 3.1.3.1.2). Più il livello è elevato, più aumenta la percentuale degli indirizzi riconosciuti in modo erroneo. A livello 1 e 2, il riconoscimento è effettuato per “uguaglianza”. Dal livello 3 in poi è utilizzato anche il riconoscimento per “similitudine”. Il riconoscimento per uguaglianza richiede che la componente dell’indirizzo in esame (comune o area di circolazione) sia uguale ad una delle denominazioni nota al sistema come denominazione corretta; il riconoscimento per uguaglianza funziona anche con i sinonimi e le forme abbreviate. Il riconoscimento per similitudine richiede che la componente dell’indirizzo da riconoscere possegga un’alta somiglianza con una denominazione, che si presume corretta. Il livello deve essere dichiarato prima dell’inizio del lavoro e si applica sia all’algoritmo di riconoscimento dei comuni, sia all’algoritmo di riconoscimento delle aree di circolazione. Non è possibile utilizzare livelli diversi nei due algoritmi.

Nella sperimentazione è stato utilizzato sempre il livello 3. In base alle sperimentazioni effettuate sui dati si è stabilito, infatti, che tale livello rappresenta un ragionevole compromesso, che permette di riconoscere e normalizzare una percentuale sufficiente di indirizzi, senza assumere rischi eccessivi di falsi riconoscimenti.

3.2.1.3 Calcolo degli Indicatori di Accuratezza.

Una volta che il software di riconoscimento e normalizzazione ha restituito i risultati dell’elaborazione, questi sono stati importati in un programma statistico al fine di predisporre le macro e le procedure necessarie per ottenere le misure descritte nel Paragrafo 3.1. Il software statistico utilizzato per la sperimentazione è stato SPSS [SPSS2004]. Esso è sufficientemente diffuso tra gli analisti, tuttavia per lo scopo che ci si prefigge, sono disponibili sul mercato altri software statistici ugualmente versatili.

Utilizzando SISTER si sono dovuti affrontare i problemi (1) e (2), illustrati nel Paragrafo 3.1.3.1.2, connessi al fatto che SISTER: (i) prevede un doppio formato: esteso ed abbreviato, per alcune componenti dell’indirizzo normalizzato; (ii) per la forma abbreviata, rilascia in un unico campo la DUG e denominazione dell’area di circolazione. Le routine di calcolo adottate per risolvere tali problemi sono quelle riportate nelle figure 3.3 e 3 4. del presente volume.

Relativamente all’archivio AE, si è dovuto affrontare il problema connesso al fatto che il formato dell’indirizzo in tale archivio, non prevede la separazione, in campi distinti delle componenti DUG, denominazione dell’area di circolazione e numero civico. Tale problema non ha permesso il calcolo degli indici di completezza per tale archivio, e per quanto riguarda il calcolo degli indici di accuratezza sintattica è stato risolto utilizzando la metodologia illustrata nel Paragrafo 3.1.3.2 con riferimento al problema (3) di detto Paragrafo.

50