• Non ci sono risultati.

Il controllo e la correzione in una indagine congiunturale basata su dati amministrativi. Il caso della rilevazione Oros

4. Le diverse macro fasi del C&C nel processo di produzione Oros

Il processo di C&C Oros si articola essenzialmente in 7 fasi principali con alcune diversità fra la stima provvisoria e quella definitiva (Figura 1).

1. Le procedure di controllo preliminare e di trasformazione in variabili statistiche dei dati amministrativi utilizzando la Banca Dati Normativa. In ogni singola dichiarazione DM10 le informazioni sono classificate in base a numerosi codici amministrativi. Per riuscire ad utilizzare a fini statistici le informazioni associate a tali codici è necessario interpretarne correttamente il significato amministrativo, verificare la correttezza formale e, in relazione ad altre informazioni presenti sulla stessa dichiarazione, riaggregare i dati in variabili statistiche. Tutto ciò può essere effettuato soltanto con l’ausilio di una Banca Dati Normativa appositamente sviluppata e aggiornata trimestralmente.

2. Il micro editing interattivo dei dati economici mensili dell’universo provvisorio. Sulle variabili economiche mensili viene effettuato un processo di controllo e correzione interattivo dei valori anomali per tutte le unità appartenenti alle due sottopopolazioni delle GI-INPS e delle imprese interinali. Viene effettuato, inoltre, un microediting selettivo per le PMI attraverso una localizzazione deterministica dei possibili errori ed un controllo interattivo dei valori anomali. In entrambi i casi il microediting viene effettuato utilizzando una maschera di controllo contenente indicatori trasversali e longitudinali.

3. Controlli sulle variabili anagrafiche. Nella fase di costruzione dell’anagrafica Oros e in quella di abbinamento fra informazioni economiche ed anagrafiche vengono effettuati diversi controlli su alcune variabili (codice fiscale, Codice Statistico Contributivo, Ateco, etc.) e viene attribuito il codice di attività economica.

4. Il trattamento delle mancate risposte nella stima definitiva. Poiché la stima definitiva deve garantire la copertura certa della intera popolazione, e ciò non era completamente garantito dagli archivi “definitivi” INPS in cui mancavano unità ritardatarie, è stata prevista una procedura di imputazione delle mancate risposte. A causa dei problemi di copertura dell’anagrafe INPS, nella rilevazione Oros non esiste una lista teorica di unità attive che va pertanto predetta per poter in seguito individuare le mancate risposte. L’imputazione delle variabili di interesse sulle singole unità si basa su modelli deterministici che sfruttano la notevole ricchezza di informazioni longitudinali disponibili.

21 Le peculiarità della rilevazione hanno implicato che il personale sviluppasse professionalità e competenze trasversali in modo da conoscere e seguire la normativa contributiva, saper programmare in SAS in modo rapido ed efficiente, conoscere ed interpretare le procedure statistiche, gli indicatori ed i risultati economici aggregati delle diverse variabili obiettivo. 22 Utilizzando principalmente i moduli Base, Macro, SQL, IML, ETS, INSIGHT.

Figura 1: Le diverse macro fasi del processo di produzione Oros

Micro dati mensili inviati dall’INPS: variabili economiche DM10 (1) Acquisizione, decriptazione, controlli e trattamento preliminare; eliminazione duplicati

(2) Micro editing su dati economici mensili (solo stime provvisorie)

(4) Aggregazione trimestrale dei dati mensili, abbinamento con variabili anagrafiche, imputazione

mancate risposte (solo stima definitiva) Output finali: macrodati Anagrafica Oros Anagrafica INPS (Aggiornata trimestralmente) ASIA

Trattamento micro dati provenienti dalla Ril. GI

Integrazione dei dati INPS con i dati GI e produzione dei

macrodati Oros

Rilevazione mensile GI

Output: file microdati di fonte INPS

FONTI: - circolari INPS; - tabelle sito web INPS - circolari INAIL;

Indicatori Oros LCI STS Input per CN trim

Banca Dati Normativa Oros aggiornata trimestralmente

(6) C&C ed editing selettivo su dati trimestrali

Grandi imprese INPS: editing selettivo e interattivo (solo stima

definitiva) Imprese interinali: imputazione PMI: editing selettivo e interattivo (solo stima definitiva) (7) Controlli macro, confronto con altre fonti (5) Esclusione dai dati INPS delle

imprese della Rilevazione GI

(3) Controlli codici fiscali, abbinamento, trattamento Ateco

5. Integrazione e trattamento dei dati GI. L’integrazione tra le due fonti (INPS e GI) implica la costruzione di due liste complementari di imprese al fine di evitare da un lato duplicazioni delle stesse imprese, dall’altro la mancata assegnazione di una impresa ad una delle due liste.

6. Il processo di C&C delle variabili economiche trimestrali prodotte a partire dall’”universo”. Per la sottopopolazione delle PMI viene effettuata una procedura di editing selettivo individuando prima le unità influenti e successivamente effettuando un controllo interattivo basato su una maschera di controllo contenente indicatori trasversali e longitudinali. L’individuazione delle unità influenti si basa su un criterio di sensibilità della stima alla singola unità, misurando l’effetto che l’esclusione dell’unità considerata ha sulla stima del parametro di interesse. Le sottopopolazioni delle GI-INPS e delle imprese Interinali subiscono un processo ad hoc in considerazione delle loro caratteristiche peculiari.

7. Controlli macro sui domini e sottodomini di stima e di diffusione. Prima di essere diffusi i dati vengono controllati analizzando il loro andamento in forma aggregata in confronto ad altre fonti disponibili e alla serie storica. Nel caso emergano anomalie si effettuano ulteriori controlli con procedure Sas sviluppate ad hoc fino ad individuare eventuali outliers o problemi legati a particolari modifiche normative non correttamente incorporate nell’aggiornamento dei controlli.

5. Le procedure di controllo preliminare e di trasformazione in variabili

statistiche dei dati amministrativi

5.1 La struttura delle informazioni all’interno del modello DM10

L’acquisizione dei dati del modello DM10 nella loro forma integrale e grezza, cioè senza interventi o aggregazioni di sorta da parte dell’INPS, ha obbligato l’Istat a sottoporre i microdati amministrativi ad un trattamento preliminare del tutto peculiare, propedeutico alle fasi successive, che permetta di ricostruire correttamente il microdato statistico per posizione contributiva.

Prima di illustrare tale trattamento è necessario descrivere brevemente la struttura del modello DM10 e le caratteristiche dei dati in esso riportati. La dichiarazione mensile risulta suddivisa in quattro sezioni denominate “quadri”. In particolare, nel quadro A sono riportate alcune caratteristiche anagrafiche relative alla posizione contributiva (la matricola assegnata dall’INPS, la forma giuridica, ecc). Nel quadro B-C, sono riportate le informazioni relative al numero dei dipendenti, alle giornate retribuite, al monte retributivo ed ai contributi a debito complessivi, a carico del datore di lavoro e del lavoratore. Nel quadro D vengono riportati gli importi a credito derivanti da riduzioni contributive o da indennità anticipate dal datore di lavoro (malattia, maternità, assegni familiari, ecc.). Il saldo fra il totale dei contributi a debito del quadro B-C e degli importi a credito del quadro D rappresenta quanto il datore di lavoro deve versare nel mese di riferimento all’INPS.

Tutte le informazioni (dipendenti, giornate retribuite, monti retributivi e contributivi) riportate nei quadri B, C e D del modello sono disaggregate in base ad una particolare “variabile amministrativa” che identifica la tipologia occupazionale e/o contributiva dei lavoratori. Tale “variabile amministrativa” di classificazione è composta da 4 caratteri (numerici o alfanumerici) e presenta un numero di modalità, i cosiddetti codici, molto elevato e crescente nel tempo. L’evoluzione della normativa sugli adempimenti contributivi comporta delle continue modifiche di tali codici: ogni trimestre ne vengono inseriti nuovi, altri vengono annullati, alcuni assumono un nuovo significato.

I codici possono assumere significati molto diversi. Vista la complessità del contenuto informativo del modello, per il suo sfruttamento a fini statistici è necessario classificare tutti i codici per individuare quelli da selezionare per la corretta aggregazione delle variabili amministrative.

5.2 La banca dati normativa Oros

Nel caso della rilevazione Oros, senza dei metadati completi e aggiornati continuamente per interpretare il contenuto informativo della dichiarazione, i micro dati amministrativi non potrebbero essere utilizzati in modo corretto. Pertanto, si è reso necessario rintracciare, raccogliere, archiviare in una forma standardizzata e facilmente accessibile non soltanto i metadati relativi alla dichiarazione contributiva ma anche quelli indispensabili per la stima di alcune componenti del costo del lavoro non rilevate nel modello DM10. A tale scopo è stata progettata e realizzata una Banca Dati Normativa (BDN) per organizzare in modo sistematico e aggiornare trimestralmente i riferimenti normativi, i metodi e le procedure utilizzati (Cimino et al., 2003).

In sintesi, la procedura della BDN si sviluppa ogni trimestre nelle seguenti fasi:

• Costruzione della lista dei codici validi, cioè delle modalità della “variabile amministrativa” di classificazione ammissibili nel trimestre di riferimento.

• Classificazione dei codici in tre tipologie:

1. i “codici occupazione” che indicano gruppi omogenei di lavoratori a fini contributivi (operai, impiegati, dirigenti, apprendisti, lavoratori assunti con CFL, ecc.) e individuano il numero dei dipendenti, le rispettive giornate retribuite, retribuzioni imponibili e contribuzioni di base;

2. i “codici contribuzione” rappresentano, invece, delle particolarità contributive aggiuntive rispetto ai contributi di base già registrati con i codici occupazione;

3. gli “altri codici” che hanno significati diversi. Questi devono essere esclusi dalla ricostruzione delle variabili statistiche obiettivo della rilevazione Oros.

I “codici occupazione” sono presenti solo nel quadro B-C e aggregando opportunamente le variabili amministrative ad essi associate si possono calcolare correttamente il numero dei dipendenti e il monte retributivo. Per ricostruire i contributivi complessivi versati dal datore di lavoro devono essere correttamente aggregati i contributi di base associati ai “codici occupazione”, quelli aggiuntivi indicati con i “codici contribuzione” del quadro B-C e all’importo ottenuto va detratta la somma delle riduzioni contributive associate ai “codici contribuzione” del quadro D23. Tale classificazione permette di ricostruire per ogni dichiarazione DM10 le variabili posizioni lavorative, giornate retribuite e monti retributivi per otto categorie – quattro qualifiche (operai, impiegati, apprendisti, dirigenti) per tempo di lavoro (tempo pieno e tempo parziale). A causa dell’assenza di informazioni specifiche, non è possibile, invece, ricostruire con questo livello di dettaglio la variabile oneri sociali.

• Identificazione e aggiornamento delle aliquote contributive a carico del lavoratore. L’importo complessivo degli oneri sociali riportato sul modello DM10, comprende sia la parte a carico del datore di lavoro sia quella a carico del dipendente. Per calcolare correttamente il costo del lavoro è necessario scorporare dagli oneri sociali la quota a carico del lavoratore in quanto già compresa nella retribuzione imponibile. Per individuare la specifica aliquota da applicare a carico del dipendente, vengono utilizzati i metadati derivanti dallo studio di una numerosa serie di tabelle sulle aliquote contributive presenti sul sito web dell’INPS.

• Aggiornamento delle aliquote INAIL. Il costo dell'assicurazione per gli infortuni sul lavoro INAIL rappresenta un’importante componente degli oneri sociali, ma l’informazione sull’importo del premio versato dal datore di lavoro per ogni dipendente non è presente nella dichiarazione DM10. Pertanto è necessario ricorrere ad altre fonti, in particolare le aliquote medie utilizzate per il calcolo del costo del lavoro contrattuale24 e le aliquote medie per gruppo di attività economica pubblicate sul sito internet dell’INAIL.

23 Escludendo gli importi relativi ai crediti del datore di lavoro derivanti da prestazioni anticipate per conto dell’INPS presenti nel quadro D che non costituiscono componenti del costo del lavoro.

24 Stimato nel quadro dell’Indagine Costo del lavoro e retribuzioni nette su base contrattuale, effettuata soltanto relativamente all’anno 1995 dalla struttura Istat che si occupa della produzione degli Indici mensili sulle retribuzioni contrattuali.

• Monitoraggio della normativa sul costo del lavoro. Per la stima di eventuali ulteriori componenti del costo del lavoro non rilevate dal DM10 viene regolarmente monitorata l’evoluzione della normativa di riferimento e analizzate fonti alternative (Es: riduzioni del costo del lavoro attraverso il credito di imposta o la riduzione dell’Irap).

La gestione trimestrale della BDN è particolarmente onerosa, in quanto è soltanto parzialmente automatizzabile e richiede allo stesso tempo competenze giuridiche, informatiche e statistiche. L’aggiornamento della BDN è un’attività assai delicata che deve essere esaustiva e precisa nell’individuazione delle componenti da includere nella ricostruzione delle variabili statistiche obiettivo, in modo da non provocare distorsioni nelle stime degli indicatori pubblicati (cfr. par. 12).

5.3 Le diverse fasi del trattamento preliminare

I metadati prodotti nella BDN vengono utilizzati per la corretta trasformazione dei micro dati amministrativi nei micro dati statistici, che solo successivamente vengono sottoposti alle tradizionali procedure di controllo e correzione. La fase di trattamento preliminare, pertanto, si caratterizza per originalità e complessità, richiedendo un notevole sforzo sia di progettazione sia di implementazione e aggiornamento trimestrale. Le principali fasi (Figura 2) in cui si articola il trattamento preliminare sono:

ƒ Controlli quantitativi sul numero e i legami tra i record ai fini della valutazione del grado di popolamento dell’archivio e della necessità di richiedere all’INPS eventuali scarichi supplementari:

o numerosità totale dei record (circa 10 milioni);

o numerosità totale dei modelli DM10 (circa 1,3 milioni). ƒ Controllo sulla presenza di errori formali nei codici:

o controllo della compatibilità dei codici con la lista aggiornata di tutti quelli ammissibili nel trimestre (identificazione di 19 tipologie di errore);

o normalizzazione della stringa dei codici attraverso la correzione di 3-4 tipologie di errore in base ad un set di regole impostate con l’ausilio dei metadati della BDN (es: la trasformazione dello 0 al primo digit in O, ecc).

ƒ Controllo di compatibilità delle variabili quantitative associate ai singoli codici:

o controllo sul numero delle variabili quantitative associate a ciascun codice (numero dipendenti, numero giornate retribuite, monti retributivi, monti contributivi) e segnalazione dei casi di possibili mancate risposte parziali;

o identificazione dei codici ripetuti all’interno del singolo modello e controllo dei valori delle variabili quantitative ad esso riferite, distinguendo i casi in cui le variabili associate ai codici ripetuti sono tutte uguali (ripetuti “identici” ) oppure le variabili assumono valori diversi (ripetuti “diversi”);

o correzione dei record con i codici ripetuti attraverso la conservazione del primo dei record ripetuti “identici” oppure aggregando i record ripetuti “diversi” in un unico record sommando i valori delle variabili quantitative.

ƒ Controllo qualitativo/quantitativo sulle relazioni tra le variabili associate ai singoli codici all’interno dello stesso DM10:

o controllo dei valori assunti dalle variabili quantitative in corrispondenza di codici che identificano tipologie contrattuali e/o contributive di particolare complessità espositiva, attraverso il check delle relazioni formali tra questi codici e le informazioni ad essi associate (CFL, apprendisti trasformati, ecc.).

ƒ Ricostruzione delle variabili statistiche all’interno del singolo DM10:

o aggregazione dei record relativi ai codici selezionati, sulla base dei metadati della BDN, per il calcolo dei dipendenti, delle giornate retribuite, delle retribuzioni lorde e dei contributi per qualifica. Ciò consente di sintetizzare in un solo record i dati relativi a ciascun modello DM10;

o scorporo dei contributi a carico del lavoratore dal totale dei contributi complessivi utilizzando le aliquote a carico del lavoratore stimate nella BDN;

o stima delle componenti degli oneri sociali non registrate nel modello DM10 (premi Inail, accantonamento TFR) sulla base dei metadati della BDN.

ƒ Trattamento dei modelli DM10 ripetuti:

o identificazione di più modelli DM10 riferiti alla stessa posizione contributiva;

o trattamento dei duplicati sulla base dei valori assunti da un set di variabili statistiche rilevanti:

ƒ duplicazioni “identiche”: si conserva solo il primo modello in quanto gli altri sono considerati dei modelli inviati per errore;

ƒ duplicazioni “diverse”: si aggregano i modelli multipli in un unico record sommando i valori di tutte le variabili perché tali modelli sono considerati integrativi o complementari.

Le procedure di controllo e di correzione preliminari illustrate vengono applicate sia ai dati dell’universo sia a quelli dell’universo provvisorio dei DM10. I primi presentano una qualità più elevata in quanto sottoposti ai controlli formali e di merito da parte dell’INPS. Al contrario, i modelli DM10 acquisiti a 35 giorni dalla fine del trimestre di riferimento utilizzati per la produzione delle stime provvisorie, vengono messi a disposizione dell’Istat senza subire alcun trattamento da parte dell’INPS. E’ quindi sui dati dell’universo provvisorio che le procedure di trattamento preliminare individuano un maggior numero di anomalie che, tuttavia, risulta essere di bassa entità in rapporto alla numerosità dei record e delle variabili trattatati.