La strategia del processo di controllo e correzione dell’indagine

Prevenzione degli errori, integrazione dei dati e metodi statistici nel processo di controllo e correzione dell'Indagine trimestrale sui posti

2. La strategia del processo di controllo e correzione dell’indagine

Il processo di controllo e correzione di VELA, che coinvolge tutte le fasi della rilevazione, si fonda logicamente su tre pilastri: l’organizzazione della raccolta dati, l’integrazione di altre fonti statistiche, e il processo di controllo e correzione sui dati raccolti.

Fin dall’organizzazione e dallo svolgimento della raccolta di dati sono implementate una serie di misure e procedure volte a prevenire errori e mancate risposte. La stessa scelta della principale modalità di rilevazione dati è ricaduta sulla CATI, in quanto tale modalità fornisce una serie di garanzie sulla massimizzazione della risposta e sulla prevenzione degli errori. In particolare, la CATI consente di minimizzare gli errori connessi:

• al rispondente: il contatto diretto con l’impresa permette di identificare correttamente uno o più referenti all’interno dell’impresa per la raccolta e la comunicazione dei dati;

• alla misurazione dei dati quantitativi, attraverso i controlli di coerenza implementati nel software CATI;

• alla corretta interpretazione delle variabili, soprattutto nel caso del posto vacante che può non essere di comune conoscenza e i cui dati non sono sempre presenti nei sistemi informativi delle imprese.

Per consentire che la rilevazione funzioni al meglio e la CATI sviluppi le sue potenzialità, una serie di procedure dirigono ed accompagnano tutta la durata della rilevazione. Tali procedure, spiegate in dettaglio nel paragrafo 4, sinteticamente consistono:

1) nel data cleaning, prima di ogni occasione di indagine, delle informazioni anagrafiche contenute nel database Oracle della rilevazione;

2) nella preparazione della rilevazione CATI (inclusa la formazione degli intervistatori e la creazione di gruppi specifici di rilevatori dedicati alle imprese più grandi o potenzialmente complicate);

3) nel monitoraggio della rilevazione;

4) nei solleciti e follow-up delle imprese più grandi.

Il secondo pilastro della strategia di controllo e correzione consiste nella integrazione dei dati di VELA con quelli di altre due rilevazioni ISTAT: quella mensile su occupazione, orari di lavoro, retribuzioni e costo del lavoro nelle grandi imprese (nel seguito indicata con la sigla GI) e OROS (Occupazione, Retribuzioni e Oneri Sociali).

I principi fondanti di questa integrazione, e le conseguenti modalità operative, consistono, da un lato, nel massimizzare la coerenza degli indicatori prodotti dalle tre rilevazioni e, dall’altro, nello sfruttare appieno le qualità delle singole indagini in un’ottica di specializzazione e divisione del lavoro. Per comprendere meglio la logica di questa operazione è utile descrivere brevemente le due indagini con i cui dati vengono integrati quelli di VELA.

GI rileva mensilmente presso un panel di circa 1.100 imprese (che avevano almeno 500 dipendenti in media nell’anno base 2005 e sono classificate nelle sezioni C-K dell’Ateco 2002) il numero delle posizioni occupate a fine mese, gli entrati e gli usciti, gli orari di lavoro (con le stesse definizioni di VELA55), e variabili relative a retribuzioni e costo del lavoro.

La rilevazione OROS, invece, si basa sulla quasi totalità dei modelli DM10 che mensilmente le imprese sono tenute a compilare e trasmettere all’INPS, per la dichiarazione dei contributi obbligatori. Integrando le informazioni contenute in questi modelli con quelle raccolte da GI per le imprese del panel, OROS produce indicatori trimestrali sulle retribuzioni, il costo del lavoro e le posizioni lavorative occupate per le sezioni C-K dell’Ateco 2002.

La variabile misurata da OROS sulle posizioni lavorative occupate è la media, sui tre mesi del trimestre, del numero di dipendenti a cui in ogni mese è stata retribuita almeno un’ora di lavoro.

La definizione delle posizioni occupate di OROS differisce dunque da quelle di VELA e GI, che misurano il numero di posizioni occupate all’inizio ed alla fine del trimestre o del mese. Tuttavia, una serie di analisi hanno mostrato che, in generale, il dato calcolabile come media sul trimestre di quelli rilevati da VELA per inizio e fine del trimestre non differisce sostanzialmente da quello calcolato come appena indicato da OROS.

Le informazioni raccolte da GI e OROS sono utilizzate in molte fasi del trattamento dei dati di VELA, e in particolare:

• per le imprese coinvolte anche nella rilevazione GI, le informazioni di questa rilevazione sono utilizzate per:

o attribuire l’attività economica prevalente e il codice Ateco 2002

o controllare i dati sulle posizioni occupate

o imputare dati mancanti sulle posizioni occupate

• per le imprese non coinvolte nella rilevazione GI, le informazioni di OROS sono utilizzate:

o per definire se un’impresa sia o meno attiva

o per attribuire l’attività economica prevalente e il codice Ateco 2002

o per controllare i dati sulle posizioni occupate

o per imputare dati mancanti sulle posizioni occupate

o come universo di riferimento. In questo modo, si garantisce che:

• le stime di VELA dei totali per sezione delle posizioni lavorative occupate a fine trimestre riproducano i dati di OROS relativi alle imprese con almeno 10 dipendenti in ogni trimestre, al netto degli effetti delle differenze nelle definizioni delle variabili56.

• se si considerano le sole imprese coinvolte in GI, le stime dei totali per sezione delle posizioni lavorative occupate a fine trimestre su queste imprese sulla base di VELA coincidano con quelle producibili da GI per la fine dell’ultimo mese del trimestre.

Perciò, le stime prodotte da VELA che utilizzano le posizioni occupate (ossia il tasso di posti vacanti e, in futuro, le ore lavorate pro-capite) sono basate su un denominatore coerente con le stime prodotte da GI e OROS.

Il terzo pilastro logico del processo è la fase di controllo e correzione sui dati raccolti, il cui fulcro si colloca nell’imputazione delle posizioni occupate e dei posti vacanti. Come si è appena accennato, il

55 Al fine di contenere il carico statistico sulle unità campionarie e i costi e le risorse necessari alla raccolta e al trattamento dei dati, le imprese coinvolte sia in VELA che in GI possono non fornire a VELA i dati sugli orari di lavoro.

56 È da notare, a questo proposito, che l’utilizzo di OROS come universo di riferimento invece che la popolazione definita dall’ultima versione disponibile dell’archivio ASIA, assicura la proprietà che le stime di VELA siano ottenute mediante riporto ad una popolazione che si riferisce al medesimo trimestre delle stime.

controllo e correzione delle posizioni occupate e delle variabili strettamente connesse, avviene in gran parte integrando i dati di VELA con GI ed OROS. In questa operazione, infatti, i dati di GI sulle posizioni occupate, che sono già validati ed integrati per le mancate risposte nel processo di controllo e correzione dell’indagine, sono usati al posto dei dati raccolti da VELA. Questa scelta ha

Figura 1: La struttura del processo di controllo e correzione sui dati raccolti nell’indagine trimestrale sui posti vacanti e

le ore lavorate

Operazioni preliminari di correzione automatica degli errori sistematici.

Riporto all’universo e calcolo delle stime Imputazione posizioni occupate a fine trimestre:

- imprese panel GI: tramite GI (a tutte);

- altre imprese: tramite OROS (non rispondenti, dati diversi).

Identificazione e correzione iniziale dati anomali su posti vacanti e posizioni occupate a fine trimestre.

Imputazione tasso posti vacanti a fine trimestre: - imprese panel GI: attribuzione tasso posti

vacanti VELA (compresenti con posizioni occupate simili) o imputazione con donatore (altre);

- altre imprese: donatore (mancate risposte

Validazione:

- analisi di impatto sulle stime delle singole imprese

almeno quattro vantaggi: in primo luogo permette di avere un numero di rispondenti effettivi sulle grandi imprese maggiore di quello assicurato da VELA; in secondo luogo le wave non response di GI sono imputate con procedure ormai testate e stabili, con l’implicazione che non è stato necessario sviluppare procedure ridondanti sui dati di VELA riguardo alle posizioni occupate; in terzo luogo le singole imprese sono seguite nel tempo da revisori esperti che diventano profondi conoscitori delle caratteristiche delle unità di cui si occupano e svolgono un’attenta attività di recall per verificare i dati trasmessi che sembrano anomali rispetto alle serie storiche delle imprese. Come conseguenza, nell’ambito di GI è possibile identificare presto anche le trasformazioni societarie cui le imprese di grandi dimensioni sono soggette di frequente e considerarle in modo adeguato, un risultato molto rilevante per l’accuratezza delle stime dei parametri d’interesse.

Infine, questo trattamento delle imprese del panel di GI è conforme a quello realizzato nell’ambito della rilevazione OROS. Dunque è necessario per soddisfare l’obiettivo di produrre tramite VELA delle stime delle posizioni lavorative occupate (da usare al denominatore nel tasso di posti vacanti e nelle ore lavorate pro capite) coerenti con quelle di OROS per le sole imprese con almeno 10 dipendenti.

Per quanto riguarda i dati delle imprese appartenenti al campione di VELA ma non alla rilevazione GI, essi vengono integrati con le informazioni desunte da OROS. In questo caso la definizione della variabile posizioni occupate è differente da quella di VELA sulle posizioni a fine trimestre, ma empiricamente molto simile alla variabile posizioni occupate medie nel trimestre. Questa caratteristica ha consentito, da un lato, la correzione dei dati di VELA sulle stesse imprese, dall’altro, l’imputazione delle mancate risposte. Il vantaggio evidente di questa scelta risiede nel fatto che, data la copertura censuaria di OROS, è possibile ricostruire le posizioni occupate di tutte le mancate risposte di VELA. Al termine delle procedure di integrazione dei dati sulle posizioni occupate, il campione di VELA risente solo delle mancate risposte parziali sui posti vacanti. Le scelte sull’imputazione dei posti vacanti, e più in generale sul controllo e correzione di questa variabile, si basano su una serie di caratteristiche dei parametri da stimare e della variabile rilevata ed è per tale ragione che a questo tema è dedicato tutto il paragrafo 3. L’imputazione delle posizioni occupate e dei posti vacanti rappresenta la fase centrale del processo di controllo e correzione sui dati raccolti. A completare il quadro vi sono una serie di procedure per il controllo degli errori sistematici, per l’individuazione e correzione dei dati outlier e influenti. L’intero processo di controllo e correzione sui dati raccolti è rappresentato sinteticamente nella Figura 1.

3. Definizioni, parametri obiettivo e caratteristiche delle variabili sui posti vacanti

Nel documento Seminario: Strategie e metodi per il controllo e la correzione dei dati nelle indagini sulle imprese: alcune esperienze nel settore delle statistiche congiunturali (pagine 68-71)