La descrizione delle fonti
3) Aziende agricole con dipendenti
La principale sorgente di informazioni sui lavoratori dipendenti in agricoltura utilizzabile nel processo di produzione di ASIA Agricoltura è data dall’archivio INPS-DMAG.
La fornitura informatica dell’archivio DMAG (anno 2000)da parte dell’INPS è composta da due file:
- il primo che descrive sinteticamente l’azienda;
- il secondo avente come microdato di riferimento il dato mensile a livello di singolo lavoratore. È possibile quindi ragionare sia in termini di domanda che di offerta di lavoro.
Nel file relativo alle aziende sono anche inclusi i principali dati identificativi delle stesse (codice fiscale o Partita IVA, ragione o denominazione sociale, ubicazione, indirizzo, CAP, ecc.).
Il file dei lavoratori fornisce dati con un elevato livello di disaggregazione, in quanto contiene per la singola dichiarazione mensile del lavoratore (eventualmente esplosa nel caso in cui in quel mese abbia avuto giorni di malattia o di cassa integrazione, o abbia lavorato in più aziende) una serie di rilevanti informazioni (il dato anagrafico del lavoratore, l’azienda di appartenenza nel mese di riferimento, la categoria, ovvero l’indicazione del settore produttivo nel quale il lavoratore è impiegato, la data di assunzione e di eventuale licenziamento, il numero di giornate lavorate, la retribuzione corrisposta, ecc.).
Questi dati sono di chiaro interesse per un’analisi occupazionale in quanto permettono di ragionare sia in termini congiunturali e stagionali, sia sul dato annuo.
Inoltre il grado di disaggregazione consente uno studio sia a livello di unità “azienda”, che di unità “lavoratore dipendente”, fatto non trascurabile in un settore come l’agricoltura fortemente caratterizzato da lavoro a tempo determinato con forte stagionalità e da rilevante mobilità della forza lavoro.
Questa elevata disaggregazione permette, da un lato, numerose ricostruzioni del dato a seconda delle finalità di analisi, dall’altro, implica una serie di pesanti elaborazioni necessarie per una aggregazione coerente dei microdati a livello aziendale (numero di occupati distinti per le diverse tipologie, giornate di lavoro, ecc.).
Il punto di partenza per la gestione ed integrazione di basi di dati tra loro eterogenee è quello di verificare la correttezza e la coerenza dell’informazione contenuta.
In relazione alle problematiche appena esposte, la prima considerazione con riferimento all’archivio INPS-DMAG riguarda il livello di dettaglio dei dati e la loro qualità.
L’elevata disaggregazione81 dei dati INPS sull’occupazione agricola (quasi 6 milioni di record) ha reso necessaria una “pesante” analisi preliminare sulla qualità intrinseca dell’archivio stesso.
Gli interventi in questa fase iniziale di data processing sono stati i seguenti: 1. gestione dei record duplicati o doppioni di chiave;
2. trattamento dei record segnalati come integrativi o sostitutivi di dichiarazioni precedenti;
3. analisi di coerenza dei dati aggregati a livello di unità “lavoratore dipendente” (non era accettabile che la aggregazione dei dati a livello di lavoratore portasse a situazioni di giornate di lavoro mensili maggiori di 30 o di giornate annue pari a 400, ad esempio);
4. non corrispondenza del numero di aziende agricole con dipendenti risultanti dal file anagrafico delle stesse, con il numero di aziende presenti nelle dichiarazioni mensili dei lavoratori (quasi 2.000 aziende, circa l’1%, risultano nell’elenco anagrafico delle aziende con dipendenti, ma non hanno alcuna corrispondente dichiarazione mensile di giornate lavorate).
Si riporta di seguito il flow-chart delle procedure utilizzate in questa fase di pretrattamento dei microdati INPS-DMAG. Questo diagramma, oltre ad evidenziare la complessità di tale fase, è utile in quanto fornisce l’iter che subiscono i microdati prima di diventare elaborabili. Si intuisce come sia indispensabile tenere traccia del mapping tra l’ambiente dei dati grezzi operazionali e i dati trasformati.
81 Il termine tecnico che si utilizza in un contesto di Datawarehouse, in tale ambito, è di “granularità”, intesa come il grado di sommarizzazione delle singole unità di dato del DW. Negli archivi di origine, detti operazionali, i dati sono sempre archiviati a livello di dettaglio massimo, e il concetto di granularità non è normalmente preso in esame.
FILE INPS-DMAG Tot. 5.782.392 dichiarazioni mensili
Eliminazione, a livello di azienda, dei 71.363 doppioni di CF lavoratore, mese, tipo retribuzione,
tipo denuncia2, giornate di lavoro
FILE INPS-DMAG (step 2) Tot. 5.711.024 dichiarazioni mensili
Estrazione ed analisi dei doppioni, a livello di azienda, di CF lavoratore
e mese.
Doppioni, a livello di azienda, di CF lavoratore e mese
Tot. 166.226
A parità di azienda, CF lavoratore e mese, sommo le giornate e le retribuzioni, e per i doppioni la cui somma mensile delle giornate > 30,
prendo il valore max tra i due sommati (1357 casi su 78.904 ok)
FILE "A" Tot. 1.357 Eliminazione delle dichiarazioni
relative ai 1.357 casi del FILE "A"
Doppioni, a livello di azienda, di CF lavoratore e mese (step 2) Tot. 159.442
Dopo aver trattato separatamente i 1.357 casi "anomali" , sommo nuovamente ,a parità di azienda, CF lavoratore e mese, giornate e
retribuzioni.
Dal file INPS-DMAG - step 2 - elimino le dichiarazioni
File dell'aggregazione dei doppioni, a livello di
azienda, di CF lavoratore e mese (FILE "B" ) Tot. 76.737 FILE "C" Tot. 5.549.005 dichiarazioni mensili FILE "C" FILE "B" FILE "A"
Riaggregazione dei dati delle dichiarazioni INPS-DMAG dopo i due diversi trattamenti delle dichirazioni relative ai casi del FILE A e del FILE B
FILE INPS-DMAG (step 3) Tot. 5.628.494 dichiarazioni mensili
File delle dichiarazioni con tipo_denuncia2=V
o S (tot. 35.436)
Estrazione dei tipi_denuncia2=V o S (dichiarzioni integrative o sostitutive)
Estrazione e aggiunta dei tipi_denuncia2=P o blank, relativi
alle 35.436 dichiarzioni V,S Dichiarazioni con tipi_denuncia2 da sostituire o integrare (tot.35.436+6.378= 41.814)
Estrazione dei tipi_denuncia2=P e solo delle relative V,S
Dichiarazioni con tipo denuncia2=P con relativi records da
sostituire o integrare (tot.12.753)
Eliminazioni delle dichiarazioni sostituite da successive FILE "A" File dichiarazioni sostitutive o integrative (tot. 2.922+200=3.122)
File dei records residui (tot.6.500) A parità di azienda, CF lavoratore
e mese, sommo le giornate e le retribuzioni, e per i casi la cui somma mensile delle giornate > 30, prendo il valore max tra i due
sommati FILE "B"
File dichiarazioni sommate per integrazione (tot.
3.015+233=3.248)
Riaggregazione dei dati delle dichiarazioni INPS-DMAG dopo i due diversi trattamenti delle dichiarazioni sostitutive o integrative. FILE "A" File dichiarazioni sostitutive o integrative (tot. 2.922+200=3.122) FILE "B" File dichiarazioni sommate per integrazione (tot.
3.015+233=3.248)
File dichiarazioni integrate o sostitutive (tot. 3.122+3.248=6.370) FILE INPS-DMAG (step 4) Tot. 5.628.494-12.751 =5.615.743 dichiarazioni mensili Eliminazione dal file INPS-DMAG dei
12.751 records relativi alle 6.370
dichiarazioni
Riunifico i due file finali nel definitivo
INPS-DMAG FINALE FILE INPS-DMAG FINALE Tot. 6.370+5.615.743 =5.622.113 dichiarazioni mensili