• Non ci sono risultati.

Il processo di correzione e imputazione delle informazioni …

4. Procedure di controllo, correzione, imputazione e integrazione di dati da fonte

4.3 Il processo di correzione e imputazione delle informazioni …

4.3.1. Tipologia dei controlli

La fase di individuazione delle situazioni di errore precede quella in cui si interviene per la rimozione dello stesso tramite l’imputazione di valori a dati mancanti o incongruenti nelle variabili rilevate.

1 L’errore hard si distingue da quello soft. Questa ultima tipologia di errore è una sorta di avvertimento sulla plausibilità di situazioni poco verosimili, ma non necessariamente errate. Se chi digita verifica che il valore è effettivamente quello riportato sul questionario cartaceo, il controllo può essere ignorato.

60

La fase di controllo è finalizzata ad individuare errori che si manifestano tramite:

1) non univocità o non coerenza delle chiavi identificative (errori sulle chiavi identificative);

2) violazione dei limiti imposti dal campo di variazione delle singole variabili (errori sui domini) o dei limiti definiti dall’intervallo di accettazione per i valori plausibili delle variabili quantitative (individuazione dei valori anomali);

3) violazione delle relazioni logico-formali stabilite dalle norme di compilazione dei modelli cartacei (errori sui percorsi di compilazione);

4) violazione delle relazioni intercorrenti fra le variabili rilevate (incoerenze tra valori di variabili diverse).

La fase di controllo delle chiavi identificative consiste nella verifica dell’univocità delle stesse e della coerenza delle chiavi tra file corrispondenti a diversi modelli di rilevazione. Essa è realizzata in parte durante la fase di registrazione dei dati, in parte con procedure specifiche eseguite successivamente alla registrazione dei dati.

Come già illustrato nel paragrafo precedente, il controllo sull’ammissibilità dei valori avviene già in fase di registrazione dei dati, mentre l’identificazione dei valori anomali sulle variabili quantitative dovuti a errori di compilazione dei questionari avviene tramite una procedura generalizzata fondata sul metodo di Hidiroglou-Berthelot.2

Il controllo sul rispetto delle norme formali di compilazione dei questionari (compilazione o meno di certi quesiti a seconda delle risposte fornite a domande filtro precedenti) avviene con una procedura generalizzata che consente di identificare tutti i record e le rispettive variabili per le quali si verifica un’errata compilazione nei percorsi.

La coerenza tra le risposte a domande diverse (anche di questionari differenti, es. familiare e individuale) è verificata mediante una procedura che rileva per ciascun record tutte le situazioni di incompatibilità riscontrate. Tali incoerenze riguardano, ad esempio, la presenza di determinate condizioni professionali e la mancanza di tipologie di redditi ad esse relative; la percezione di specifiche tipologie di pensioni o assegni sociali e la mancanza dei requisiti legali previsti; la presenza di importi di retribuzione lorda e netta incompatibili tra di loro o implausibili relativamente alle ore di lavoro svolte; tipologie di lavoro svolto non compatibili con la professione dichiarata; condizioni professionali non compatibili con l’età; il possesso di un titolo di studio non compatibile con l’età di conseguimento dello stesso e con eventuali tipi di corsi frequentati; spese per l’abitazione (in particolare mutuo e affitto) implausibili in relazione alla grandezza dell’abitazione (metri quadri e stanze).

4.3.2. Procedura di correzione ed imputazione delle informazioni

Caratteristica principale dell’indagine è la notevole presenza di variabili quantitative relative agli importi delle varie tipologie di reddito che i rispondenti riferiscono di aver ricevuto e agli importi delle spese per l’abitazione. Congiuntamente a tali variabili, vi sono, inoltre, informazioni di tipo qualitativo sulla situazione lavorativa, la condizione abitativa, la situazione economica della famiglia eccetera.

La strategia di correzione è stata impostata separando l’imputazione e la correzione delle variabili qualitative dall’imputazione delle variabili quantitative. In particolare, l’imputazione di valori mancanti sulle variabili di natura qualitativa, le incompatibilità logiche tra le variabili qualitative e quelle tra le variabili qualitative e la presenza o meno di valori nelle variabili quantitative sono prevalentemente trattate tramite l’applicazione della metodologia di

2 Per un approfondimentosi veda Hidirouglou M.A., Berthelot J.M., 1986 Statistical Editing and Imputation for Periodical Business Survey ;Vitaletti S. (2005) Correzioni e imputazioni delle informazioni sui redditi.

Holt, ampiamente impiegata e consolidata all’interno dell’Istituto nell’ambito delle indagini sulle famiglie. I valori mancanti per le variabili di natura quantitativa sono stati imputati seguendo l’approccio Srmi (Sequential regression multivariate imputation) suggerito da Eurostat (2004) e basato su una serie di modelli di regressione multipla. Tale scelta garantisce, quindi, per le variabili quantitative e in particolare per quelle di reddito, una migliore comparabilità con i dati degli altri Paesi, imputati con l’utilizzo della medesima metodologia.

In termini più specifici, l’imputazione delle variabili qualitative e la rimozione delle incoerenze tra i valori delle variabili qualitative e la presenza o meno di valori nelle variabili quantitative precede l’imputazione delle variabili quantitative.

Schematicamente la procedura di correzione è articolata nei seguenti passi: Schema 4.1 - Procedura di correzione

Registrazione controllata

Correzione di variabili per la definizione del campione dellȇindagine

T+1

Correzioni delle variabili anagrafiche

Correzioni sulle strutture familiari (Procedura famiglie) Imputazione per mancata

risposta totale di individui in famiglie rispondenti Correzioni di tipo deterministico Correzioni di tipo probabilistico (SCIA) Imputazioni di variabili quantitative

L’acquisizione dei dati dei questionari cartacei avviene, come detto, tramite un’applicazione che consente un data entry controllato, sia per quanto riguarda i valori ammissibili delle variabili, sia per quanto riguarda la digitazione delle chiavi identificative delle famiglie, in quanto non è realizzabile l’inserimento di chiavi familiari diverse da quelle esistenti nell’archivio delle famiglie campione, costruito a partire dalle informazioni estratte dalle anagrafi comunali.

Una volta eseguita la registrazione dei dati, la prima fase di correzione dà priorità alle variabili necessarie per la definizione del campione dell’occasione d’indagine successiva: trattandosi di un’indagine panel, infatti, sono state definite, da un regolamento europeo, apposite regole di inseguimento delle unità di rilevazione (follow-up rules). Esse sostanzialmente prevedono di re-intervistare le famiglie o meno a seconda dell’esito avuto all’intervista familiare e prevedono la re-intervista o meno degli individui nella stessa famiglia in funzione della presenza o dell’assenza in famiglia, per esempio a seguito di trasferimento/decesso. Per la necessità di definire in tempi rapidi il campione dell’occasione d’indagine successiva, la correzione delle variabili relative a tali informazioni, che avviene secondo un approccio deterministico in funzione di altre informazioni presenti nei questionari, è realizzata prima di ogni altra correzione.

62

4.3.3. Correzioni delle variabili anagrafiche e strutture familiari

Le eventuali incoerenze tra le informazioni anagrafiche individuali (data di nascita, sesso e luogo di nascita) presenti in più modelli di rilevazione sono corrette in modo deterministico attingendo alle informazioni contenute nell’archivio degli individui campione, costruito a partire dalle informazioni estratte dalle anagrafi comunali e inviate in forma elettronica e riservata all’Istat da parte dei comuni.

Le incoerenze tra l’età, il sesso, le relazioni di parentela tra i componenti della famiglia, lo stato civile, l’anno di matrimonio e l’eventuale stato civile precedente al matrimonio sono risolte con una procedura automatica denominata “Procedura Famiglie”. Essa consente anche di determinare i nuclei all’interno della famiglia e, in base a questi, le tipologie familiari. Dal punto di vista metodologico, la correzione avviene dopo aver separato le famiglie monocomponenti dalle altre. Per le prime si riscontrano solo le eventuali incoerenze tra le informazioni rilevate sulla singola persona. Per le altre sono individuate le coppie possibili all’interno di ogni famiglia e sono corrette le caratteristiche dei componenti (relazioni di parentela con la persona di riferimento, stato civile, anno di matrimonio) in base alle possibili relazioni con tutte le coppie individuate, tenendo conto delle strutture familiari più frequenti.

4.3.4. Imputazione per mancata risposta totale da parte di individui eleggibili

Nell’indagine, oltre ad acquisire delle informazioni sulla situazione economica a livello di intera famiglia, vengono rilevate tramite il questionario individuale informazioni più dettagliate sulla situazione lavorativa e sul reddito dei singoli componenti che abbiano almeno 15 anni presenti in famiglia (diversi dal personale di servizio) o temporaneamente assenti.

Nel caso in cui una persona eleggibile per l’intervista individuale non risponda al questionario individuale, cioè nel caso di una mancata risposta totale a livello individuale in una famiglia rispondente, si procede all’imputazione totale del record mancante mediante una procedura da donatore.

Un approccio alternativo sarebbe stato l’aggiustamento dei coefficienti di riporto all’universo in modo tale da tener conto che per alcuni individui eleggibili sono disponibili solo le informazioni a livello individuale riportate nella scheda familiare. Questa soluzione avrebbe comportato la creazione di due differenti sistemi di pesi, uno per tutti gli individui e l’altro per gli individui con risposta al questionario individuale, con la possibilità che lo stesso individuo avrebbe potuto avere un coefficiente di riporto all’universo diverso a seconda della provenienza delle informazioni utilizzate (scheda familiare o questionario individuale). Inoltre, tale soluzione alternativa avrebbe avuto la necessità di individuare un metodo per la determinazione del fattore di aggiustamento del reddito familiare al fine di tener conto anche del reddito personale degli individui non rispondenti in famiglia.

Entrambe le alternative erano possibili secondo Eurostat (2004). Si è optato per l’imputazione totale del record in quanto si è ritenuto che la presenza di due sistemi di ponderazione differenti per gli stessi individui potesse creare maggiori difficoltà nell’utilizzo dei dati. Inoltre, allo stato attuale, non sono stati proposti da parte di Eurostat possibili metodi comuni per la determinazione del fattore di aggiustamento del reddito familiare, in presenza di individui di 15 anni o più non rispondenti.

L’imputazione da donatore avviene mediante l’utilizzo di una procedura generalizzata che all’interno di gruppi, originati dalle modalità di specifiche variabili di strato, seleziona i donatori, da cui prelevare i valori, tra i record completi aventi distanza minima dal record ricevente. La misura di distanza tra il donatore e il ricevente è basata sui valori assunti da variabili definite di

matching. La scelta delle variabili di strato e matching è condizionata dalle informazioni

comunque presenti per gli individui non rispondenti, fondamentalmente quelle riportate nella scheda familiare e quelle presenti o ricostruibili dal Questionario familiare. In particolare, sono

utilizzate la ripartizione di residenza, l’età e la condizione lavorativa principale nel periodo di riferimento del reddito, quali variabili di strato. Tale scelta comporta la definizione di 80 strati in cui suddividere donatori e riceventi. Il bacino dei donatori è definito tenendo conto della corretta compilazione della maggior parte dei quesiti, in particolare di quelli fondamentali e correlati con il tipo di reddito. Il donatore più simile all’interno dello strato è individuato sulla base di variabili relative al genere, alla percezione della famiglia sulla propria situazione economica, al reddito netto mensile familiare, al numero di componenti della famiglia, al titolo di godimento dell’abitazione, alla presenza di redditi da lavoro dipendente in famiglia, di redditi da lavoro autonomo e di redditi da pensione.

4.3.5. Correzioni di tipo deterministico

Come accennato in precedenza, le incompatibilità logiche tra le variabili di natura qualitativa e tra le variabili qualitative e quelle quantitative sono corrette mediante l’utilizzo della metodologia di Fellegi-Holt, basata sul principio del minimo cambiamento, che presuppone la casualità degli errori.

In alcuni casi, invece, si riscontra la presenza di errori di tipo sistematico, legati per lo più al mancato rispetto da parte dei rilevatori delle norme di compilazione del questionario; tale comportamento è facilitato anche dallo strumento di rilevazione adoperato (questionario cartaceo). In particolare, per la rilevazione degli importi delle variabili di reddito e delle altre variabili quantitative, si è spesso utilizzata una struttura tale per cui la risposta a un quesito filtro sulla percezione o meno di una data tipologia di reddito regoli la somministrazione di altri quesiti relativi all’importo e ad altre informazioni più dettagliate. Può accadere che il rilevatore registri l’importo o altre informazioni più specifiche, omettendo la compilazione del quesito filtro. Nella correzione basata sulla metodologia di Fellegi-Holt, la selezione casuale delle variabili da modificare in caso di soluzioni multiple, potrebbe portare anche ad un’eventuale correzione sulla variabile con l’informazione più puntuale, con relativa cancellazione dell’importo. Invece, la presenza dello stesso fa piuttosto presumere che l’errore di compilazione sia sul quesito filtro. Per tale ragione, al fine di ridurre il rischio di perdita di informazione durante la correzione di tipo probabilistico realizzata successivamente, basata sulla metodologia Fellegi-Holt, in presenza di situazioni di questa natura si è adottato un approccio deterministico di tipo “if-then” utilizzando alcune informazioni più puntuali per l’imputazione di variabili filtro.

Altre situazioni di errori corrette con un approccio di tipo deterministico sono quelle per cui, in presenza di ragionevoli informazioni di contesto, si può ipotizzare un’errata classificazione del tipo di reddito da parte del rispondente (esempio: pensioni da lavoro integrate al minimo considerate erroneamente pensioni sociali da alcuni rispondenti di età inferiore alla minima prevista per legge per poter beneficiare della pensione sociale). In tal caso la rimozione dell’errore implica lo spostamento di certi importi da una variabile ad un’altra.

Infine, sono realizzate deterministicamente anche le correzioni effettuate in seguito a controlli dei dati rilevati con le informazioni presenti per lo stesso rispondente in alcuni archivi amministrativi3 quale l’Anagrafe tributaria, disponibile presso l’Agenzia delle entrate del Ministero dell’economia, contenente i dati sulle dichiarazioni dei redditi dei contribuenti e il Casellario pensionistico, disponibile presso l’Inps, contenente informazioni sulle pensioni da lavoro, di reversibilità, sociali e di invalidità di tutti i beneficiari (ivi compresi i beneficiari di pensioni erogate da istituti di previdenza diversi dall’Inps). Tale correzione è resa possibile grazie all’abbinamento esatto dei record provenienti dai dati rilevati e da quelli di fonte amministrativa tramite i codici fiscali dei rispondenti. La correzione riguarda alcune tipologie di

64

reddito la cui rilevazione risulta più problematica: il reddito da lavoro autonomo, affetto da problemi di reticenza e le pensioni, per le quali sono frequenti errori di classificazione da parte del rispondente (per esempio il beneficiario di più di una tipologia di pensione, tende a classificare l’importo cumulato in un'unica tipologia).

4.3.6. Correzioni e imputazioni di tipo probabilistico

Come sopra accennato, la maggior parte delle incoerenze tra le risposte a quesiti diversi e quelle dovute ad un’errata compilazione dei percorsi sono trattate con la metodologia del minimo cambiamento di Fellegi-Holt, implementata nel sistema Scia (Sistema di controllo ed imputazione automatica) sviluppato presso l’Istituto (Istat, 2004).

Per la correzione delle variabili quantitative, che non sono trattabili in Scia, sono utilizzate delle variabili qualitative indicatrici della presenza o meno di un valore per la corrispondente variabile quantitativa. Dopo la fase di correzione probabilistica, il confronto tra i valori assunti dalle variabili indicatrici e la presenza o meno del valore nelle variabili quantitative consente di individuare i soggetti tenuti a rispondere su determinati quesiti di natura quantitativa. Se il valore non è stato indicato in fase di rilevazione, esso è considerato mancante e gli viene assegnato un valore possibile durante la successiva fase di imputazione delle variabili quantitative.

Per individuare le situazioni di errore e realizzare la correzione probabilistica è stato necessario definire le regole esplicite di incompatibilità tra i valori delle variabili. Esse sono di due tipi: gli edit formali, ovvero quelle regole che verificano l’errata compilazione del questionario in base ai salti definiti dalle variabili filtro, e gli edit sostanziali, ovvero quelle regole che verificano la mancata coerenza di combinazioni di risposta che scaturiscono da considerazioni di tipo statistico o conoscenze specifiche a priori sulle relazioni socio-economiche tra le variabili.

Per migliorare la qualità della correzione da donatore sono state definite delle variabili di strato, che servono per identificare i serbatoi dei donatori da cui attingere le informazioni da sostituire in un record errato. I donatori hanno per la variabile di stratificazione gli stessi valori osservati nel record ricevente.

La correzione probabilistica è realizzata separando le variabili familiari e quelle individuali. La correzione ed imputazione delle variabili qualitative del questionario familiare avviene in un unico passo di correzione. La variabile di strato utilizzata è la regione di residenza della famiglia, a cui è stata attribuita fissità massima, vale a dire che il valore non è modificabile da parte del sistema Scia. Altra variabile a cui è assegnata la fissità massima è il numero di componenti della famiglia, in quanto corretta in una fase antecedente in modo deterministico.

La correzione delle variabili individuali avviene distintamente per gli individui eleggibili per l’intervista personale e per i non eleggibili. Per questi ultimi sono sottoposte a controllo e correzione le sole variabili della scheda familiare. Per i rimanenti, il piano di controllo e correzione riguarda non solo le informazioni della scheda familiare, ma anche quelle del questionario individuale.

Per gli individui con le sole informazioni della scheda familiare, la derivazione dell’insieme completo di regole di incompatibilità è stata possibile in un unico passo di correzione. La variabile di strato utilizzata per definire il serbatoio dei donatori è la ripartizione geografica. Le variabili età e sesso sono impostate a fissità massima, in quanto sono corrette in una fase antecedente in modo deterministico.

Per gli individui provvisti anche del questionario individuale, l’esecuzione in un unico passo di correzione che utilizza tutti gli edit formali e sostanziali non è stata possibile, data la complessità strutturale del questionario e i limiti computazionali dell’applicazione utilizzata.

Per questo motivo, la correzione dei dati è effettuata in diversi passi, suddividendo le regole in sottoinsiemi trattabili e aventi il minor numero di variabili in comune tra loro. A tal fine, si

procede dapprima con la correzione delle sezioni relative alla situazione lavorativa presente o passata. Le sezioni relative ai diversi tipi di redditi percepiti sono corrette successivamente a quelle sulla situazione lavorativa, in quanto presumibilmente l’intervistato risponde più facilmente alle domande sulla condizione professionale, mentre manifesta una certa reticenza a rispondere a domande sul reddito. Infine, si procede con la correzione delle rimanenti sezioni (ad esempio: istruzione, salute).

Il trattamento simultaneo delle sezioni sulla situazione lavorativa attuale e di quelle relative all’ultima attività svolta non è stato realizzabile a causa dell’impossibilità di generare l’insieme completo delle regole di incompatibilità, data la complessità strutturale di tali sezioni. Tuttavia, l’analisi dei percorsi di risposta da seguire nella compilazione del questionario ha consentito di individuare due gruppi di rispondenti, tenuti alla compilazione di sezioni alternative. Pertanto, il campione di individui è suddiviso in due sottoinsiemi: A) coloro che non hanno attualmente un’occupazione e hanno quindi compilato le sezioni relative all’ultima attività lavorativa svolta (sezione 7), ma non le sezioni sulla attività lavorativa attuale (sezione 5-6); B) coloro che, invece, sono in situazione occupazionale o in cassa integrazione guadagni per meno di tre mesi o con una retribuzione di almeno il 50 per cento e hanno compilato quindi le sezione 5-6 e non la sezione 7.

Nel caso in cui, per un’errata compilazione dei percorsi del questionario, siano compilate congiuntamente le sezione 5 e/o 6 e la sezione 7 non è possibile assegnare il rispondente a uno dei due gruppi A e B. Per realizzare tale assegnazione, preliminarmente al trattamento tramite Scia, è stata implementata una procedura per l’individuazione del percorso più verosimile per ciascun rispondente. Tale procedura si basa sull’analisi sia delle risposte fornite alle domande filtro sia della presenza/assenza di risposte ai quesiti interni alle sezioni stesse. Tali informazioni consentono di costruire delle variabili indicatrici della compilazione delle sezioni e di delineare quindi i percorsi di risposta forniti dai rispondenti. Per ciascun rispondente con percorso non ammissibile si procede ad individuare, sulla base di una funzione di distanza, il percorso ammissibile più vicino a quello effettuato e a sceglierne uno nel caso di soluzioni multiple. In quest’ultimo caso, l’assegnazione del percorso ammissibile avviene in modo casuale con probabilità pari alla frequenza relativa del percorso ammissibile di minima distanza osservata tra gli individui con percorso esatto appartenenti alla stessa categoria (stesso sesso e classe di età) dell’individuo da correggere.4

I due sottoinsiemi di individui sono sottoposti, separatamente, ad un ulteriore passo di correzione che risolve le incompatibilità tra le professioni svolte e il tipo di attività dell’unità locale in cui il rispondente lavora o lavorava.