• Non ci sono risultati.

La predizione della lista delle unità attive non rispondenti

4. DAL DATO AMMINISTRATIVO ALLE INFORMAZIONI STATISTICHE. BANCA DATI

6.2 Imputazione delle posizioni lavorative per la stima provvisoria

6.2.4 La predizione della lista delle unità attive non rispondenti

L’anagrafica trimestrale dell’Inps utilizzata nelle stime Oros, come visto nel capitolo 3, è un serbatoio di matricole attive a t e/o cessate/sospese da gennaio 2000 e rappresenta il SETTORI ATECO 2007

CLASSI DIMENSIONALI Numero unità Posizioni lavorative

PER SETTORI ATECO 2007

INDUSTRIA E SERVIZI (B-S escluso O) 2,3 2,5

INDUSTRIA E SERVIZI DI MERCATO (B-N) 2,3 2,4

INDUSTRIA (B-F) 2,2 2

INDUSTRIA IN SENSO STRETTO (B-E) 1,9 1,8

B - Estrazione di minerali da cave e miniere 1,8 1,7

C - Attività manifatturiere 1,9 1,8

D - Fornitura di energia elettrica, gas, vapore e aria condizionata 2,1 2,6 E - Fornitura di acqua; reti fognarie, i gestione dei rifiuti e risanamento 2,2 2,9

F - Costruzioni 2,6 2,4

SERVIZI DI MERCATO (G-N) 2,4 2,8

G - Commercio all’ingrosso e al dettaglio,

riparazione di autoveicoli e motocicli 2,2 2

H - Trasporto e magazzinaggio 3,8 4,3

I - Attività dei servizi di alloggio e di ristorazione 2,6 2,6

J - Servizi di informazione e comunicazione 2,6 3,6

K - Attività finanziarie ed assicurative 1,9 1,9

L - Attività immobiliari 2 2,3

M - Attività professionali, scientifiche e tecniche 1,8 2,4

N - Noleggio, agenzie di viaggio, servizi di supporto alle imprese 3,1 3,9

SERVIZI SOCIALI PERSONALI (P-S) 2,4 3,1

P - Istruzione 2,6 3,2

Q - Sanità e assistenza sociale 2 2,8

R - Attività artistiche, sportive, di intrattenimento e divertimento 3,9 5,6

S - Altre attività di servizi 2,4 2,5

PER DIVISIONI ATECO 2007 CON MANCATA RISPOSTA MAGGIORE DELLA MEDIA

INDUSTRIA E SERVIZI (B-S)

Industria del tabacco (C-12) 18,5 5,9

Attività di risanamento e altri servizi di gestione dei rifiuti (E-39) 3,2 5

Trasporto marittimo e per vie d’acqua (H-50) 18,9 25,2

Trasporto aereo (H-51) 3,4 5,8

Attività di produzione cinematografica, di video e di programmi

televisi-vi, di registrazioni musicali e sonore (J-59) 6,5 14

Attività di programmazione e trasmissione (J-60) 5,2 7,5

Attività creative, artistiche e di intrattenimento (R-90) 4,1 6,5

Attività di biblioteche, archivi, musei ed altre attività culturali (R-91) 2,7 7,4 Attività riguardanti le lotterie, le scommesse, le case da gioco (R-92) 3,8 5,5 Attività sportive, di intrattenimento e di divertimento (R-93) 3,9 5,1

PER CLASSE DIMENSIONALE

TOTALE 2,3 2,5

0-49 2,3 2,2

50-249 2,6 2,6

250-499 3,3 3,4

500+ 4,4 4,8

72

La rilevazione trimestrale Oros su occupazione e costo del lavoro set di microdati amministrativi da cui è possibile individuare la lista di unità attive per t. Se gli eventi demografici fossero registrati tempestivamente tale set di dati rappresenterebbe la lista di stima per la rilevazione. Tuttavia, a causa dell’assenza di disposizioni coercitive nei confronti della comunicazione ritardataria sulla modifica dello stato di attività da parte delle aziende, tale set di dati è caratterizzato da errori rilevanti di copertura, in particolare riguardo la mancata registrazione di cessazioni e sospensioni, mentre le unità neonate non ancora registrate (ma che invieranno una dichiarazione contributiva) sono in numero ridotto. Al fine di limitare l’impatto di tale problematica sulle stime, si rende necessaria un’operazione di taglio ossia di selezione delle sole unità che hanno presentato almeno una dichiarazione contributiva nel corso dell’ultimo anno rispetto a t.

Confrontando la lista provvisoria definita con i criteri di cui sopra con la lista reale delle unità attive, disponibile dopo un anno con i dati finali (cfr. §2.2.1), per ogni mese m le unità della lista provvisoria definite attive possono risultare, come anche schematizzato nella figura 6.2.4.1:

- rispondenti, quindi attive;

- attive ma non rispondenti (ritardatarie);

- cessate o sospese, quindi definite impropriamente attive (sovracopertura);

- assenti dalla lista anagrafica ma attive nei dati finali, poiché registrate in ritardo (sottocopertura).

Figura 6.2.4.1 - La lista nei dati provvisori e nei dati definitivi

In un approccio micro di predizione della lista le unità di sovracopertura, le rispondenti e le ritardatarie costituiscono l’insieme di partenza da cui calcolare le stime. Le unità di sot-tocopertura, invece, non sono note a priori e, quindi, incideranno totalmente sull’errore di stima (sottostima), seppure in misura pressoché limitata: si calcola che tale insieme, varia-bile per trimestre, rappresenti lo 0,05-0,1% dell’occupazione complessiva della rilevazione.

Al contrario, malgrado il taglio rispetto alle unità attive almeno un mese tra t-4 e t, la sovracopertura rimane un problema molto rilevante, rappresentando oltre il 90% delle unità assenti e potenzialmente attive. Al fine di contenere l’errore di sovrastima che ne

Sottocopertura (neo-nate/riattivate) Sovracopertura (non attive) Lista anagrafica in Stima Provvisoria (disponibile a t) Popolazione in Stima Definitiva (disponibile a t+4) Rispondenti e Ritardatarie

73

6. Editing e imputazione

deriverebbe, lo status di attività viene ulteriormente rifinito sulla base, anzitutto, delle date anagrafiche: vengono considerate non attive le unità non rispondenti nate nel mese m o successivamente e le cessate nello stesso mese, o nei mesi precedenti. Questo secondo intervento porta ad escludere dall’insieme delle potenziali attive una quota pari a circa lo 0,5% del totale delle assenti nello stesso mese perché neonate: verificando la presenza di tali unità nei dati finali, si riscontra che circa il 60% di tali unità escluse effettivamente non rispondono. Le cessate non rispondenti ad m (con data di cessazione registrata) rap-presentano solo lo 0,2% delle assenti; di esse, tuttavia, il 90% sono effettivamente non rispondenti anche nei dati finali. La bassa incidenza delle cessate dichiarate fa emergere l’elevato problema di sovracopertura dell’anagrafica rendendo opportuna una successiva valutazione sulle sospensioni di attività per eventi stagionali. In mancanza di date di so-spensione aggiornate, la valutazione di questi eventi, particolarmente concentrati in alcun settori (produzione alimentare, alberghi e ristoranti ecc.) si basa sulla verifica della persi-stenza dell’assenza nel corso dell’anno: in particolare, si definisce stagionale un’assenza nel mese a cui corrisponde un’assenza nello stesso mese dell’anno precedente. Fa eccezione il mese di giugno, su cui per evitare sovraidentificazione di stagionalità dovuta alla particolare concentrazione di DM ritardatari nel mese4, l’assenza per stagionalità viene valutata anche nello stesso mese di due anni precedenti. A seguito dell’applicazione di questo criterio, le stagionali rappresentano circa il 5% del totale delle assenti. Tuttavia, sulla loro identifica-zione, si commette un errore di circa il 20%.

Una volta identificate le cessazioni, le sospensioni, le nascite e le stagionali, le assenze residuali vengono sottoposte ad una ulteriore valutazione, in cui lo status di attive viene conferito valutando la presenza dell’unità nei mesi vicini a quello di stima. In particolare, si è scelto di assegnare lo status di attività all’unità “presunta ritardataria”, se essa ha mani-festato segnali di presenza nel mese precedente.

Tale approccio, denominato anche “metodo m-1”, ove m-1 rappresenta il mese uti-lizzato per stimare lo status di attività nel mese m del trimestre di stima provvisoria t, è stato applicato per due occasioni di stima preliminare, ossia a giugno e settembre 2015. In seguito ad alcuni approfondimenti, a partire dall’uscita di dicembre 2015, è stato lieve-mente rivisto per ridurre l’errore di sottostima di unità attive, inserendo una variante che prevede che la presenza in un generico mese m-1 (o anche la presunta attività in m-1) sia segnale di attività anche per il mese successivo m all’interno del trimestre t, a meno di fattori stagionali e demografici. Questo nuovo metodo è stato definito “metodo basato sul mese precedente con variante trimestrale” o in breve “metodo m-1 trim”. In termini formali è possibile definire per ogni unità i, in base alla presenza (1) e/o assenza (0) dei dati della variabile occupazionale, il suo pattern di presenza nei tre mesi del trimestre t, come pi,t che dopo la fase di predizione, per le unità presunte assenti, assume nuove modalità e la sua stima può essere espressa come .

I vari pattern che si possono osservare prima e dopo la fase di predizione della lista sono riportati nella tavola 6.2.4.1 in cui è anche incluso il segnale di presenza o meno del dato occupazionale nell’ultimo mese del trimestre precedente, in quanto da tale informazio-ne dipende l’assegnazioinformazio-ne del flag d’imputazioinformazio-ne informazio-nel primo mese del trimestre corrente t e a seguire anche eventualmente del secondo e del terzo mese.

4 Il mese di competenza di giugno è il più soggetto a ritardi nei tempi di consegna dei modelli a causa del periodo di ferie in cui ricade la scadenza per l’invio delle dichiarazioni contributive (fine luglio).

t i p ,ˆ

74

La rilevazione trimestrale Oros su occupazione e costo del lavoro

Tavola 6.2.4.1 – Predizione dello stato di attività nel metodo “m-1 trim”: casistiche dei pattern iniziali e predetti

Le unità presunte ritardatarie a m possono essere classificate in base alla loro effet-tiva realizzazione nei dati finali disponibili dopo un anno, confrontando lo status predetto rispetto a quello reale (noto appunto nella popolazione finale) da cui derivano le seguenti definizioni degli status teorici:

1 - attive corrette: unità non rispondenti nei dati provvisori, definite attive secondo i criteri di predizione della lista e presenti nei dati definitivi. Si tratta di unità correttamente incluse nella lista predetta;

2 - attive non corrette: unità non rispondenti nei dati provvisori, definite non attive secondo i criteri della lista ma presenti nei dati definitivi. Sono unità erroneamente escluse dalla lista determinando un errore che può essere chiamato di “sottoinclusione”;

3 - non attive corrette: unità non rispondenti nei dati provvisori, definite non attive nella lista predetta e assenti nei dati definitivi. Si tratta di una corretta esclusione delle unità dalla lista;

4 - non attive non corrette: unità non rispondenti nei dati provvisori, definite attive nella lista, ma non presenti nei dati definitivi. Sono unità erroneamente incluse in fase di predizione determinando quindi un errore di “sovrainclusione”.

Nel seguente schema ogni cella rappresenta i vari status definiti sopra, risultati dal confronto delle unità predette rispetto a quelle reali:

Prospetto 6.2.4.1 - Status delle unità nella popolazione dei dati provvisori e realizzazione nei dati finali

Tanto più il numero delle unità nei due gruppi delle attive non corrette (B) e delle non attive non corrette (D) si accosta, determinando un bilanciamento tra la sottocopertura e la sovracopertura delle lista, tanto più la numerosità della popolazione predetta sarà vicina Presenza del dato occupazionale

Pattern iniziali Pattern predetti nel terzo mese del trimestre t-1 (a) del trimestre t del trimestre t

0 011 011 1 011 111 0 001 001 1 001 111 0 000 000 1 000 111 0 010 011 1 010 111 0/1 100 111 0/1 110 111 0/1 101 111 0/1 111 111

Fonte: Rilevazione Oros (occupazione, retribuzioni, oneri sociali)

(a) La presenza del dato occupazionale nel terzo mese del trimestre precedente t-1 assume il seguente significato 0=assenza, 1=presenza, 0/1=assenza o presenza

Unità attive e Rispondenti

Unità presunte attive Unità presunte non attive Attive (rispondenti) Attive (correttamente incluse)Attive corrette (A) (erroneamente escluse)Attive non corrette (B) Non attive (cessate, sospese) - Non attive non corrette (D)(erroneamente incluse) (correttamente escluse)Non attive corrette (C)

Popolazione nei dati provvisori

Non rispondenti Popolazione nei dati finali

75

6. Editing e imputazione

a quella target e la lista risulterà predetta correttamente. In ogni caso il bilanciamento deve avvenire il più possibile in termini di posizioni lavorative.

La classificazione delle unità con status predetto nelle casistiche appena esposte è utile per valutare ex-post, quando disponibili i dati finali, la tenuta del modello applicato e, analizzando l’errore per singolo sottogruppo, per affinare la metodologia applicata. Ciò si rivela particolarmente utile di fronte a cambiamenti strutturali, non rari nei dati amministra-tivi, che possono influenzare i comportamenti dei rispondenti ritardatari. Utilizzando tale classificazione, nel §6.4 verranno presentati alcuni risultati del metodo di individuazione della lista.