• Non ci sono risultati.

La microaggregazione dei dati microaggregati del sistema dei conti economici delle imprese italiane. Anni 1995 e 1996

Nel documento A cura di (pagine 148-152)

PARTE QUARTA

Capitolo 9. Comunicazione di dati a soggetti non Sistan (*)

9.2 La microaggregazione dei dati microaggregati del sistema dei conti economici delle imprese italiane. Anni 1995 e 1996

La crescente richiesta di microdati di impresa da parte di ricercatori e studiosi ha spinto l’Istituto nazionale di statistica italiano a sperimentare, per la prima volta, il rilascio di dati d'impresa microaggregati (si veda a proposito della microaggregazione il Paragrafo 8.4), compiendo in tal modo un passo in avanti rispetto alla tradizionale diffusione dei dati in forma tabellare. Si tratta, in particolare, della diffusione dei dati relativi ai costi, ai ricavi, all’occupazione, al costo del lavoro e agli investimenti delle imprese rispondenti alle rilevazioni sui conti economici delle imprese industriali e dei servizi nel 1995 e nel 1996 (Istat, 2001), aggregati secondo le più piccole numerosità consentite dall’obbligo di tutela del segreto statistico e della riservatezza dei dati riferiti alle unità rispondenti alle rilevazioni.

Per una corretta interpretazione dei dati occorre precisare che per le imprese plurisettoriali l’attribuzione dell’attività economica è avvenuta secondo il criterio della prevalenza. Nel caso di imprese plurilocalizzate la ripartizione geografica è stata stabilita in relazione alla ripartizione di appartenenza della sede legale. I dati sono prodotti da due 17http://neon.vb.cbs.nl/casc/MU.html

indagini distinte: per le imprese con addetti da 1 a 19 un’indagine campionaria, per le imprese con 20 addetti e oltre un’indagine totale sottoposta a integrazione da altre fonti per le mancate risposte totali. Le variabili considerate rappresentano gli aggregati comuni alle due indagini (Istat, 1998).

Il file di dati è stato preventivamente trattato prima di essere sottoposto a microaggregazione. Le imprese sono state analizzate per tipo di attività economica (codici Ateco 1991 a tre cifre) e dettaglio territoriale (ripartizioni geografiche) al fine di ottenere dei domini omogenei con numerosità congrue. Alcuni gruppi di attività economica, in cui le numerosità erano insufficienti e l'aggregazione con altri gruppi giudicata distorsiva o poco significativa, sono stati eliminati. Ogni dominio di imprese definito dalla combinazione di attività economica e dettaglio territoriale è stato trattato indipendentemente dagli altri.

In ciascun dominio sono state individuate le imprese più influenti sulla variabilità di alcune variabili principali. Per migliorare il risultato del successivo processo di microaggregazione, tali imprese sono state accorpate in un gruppo, insieme ad altre imprese scelte in maniera casuale. La qualità dell'informazione fornita dall'impresa fittizia rappresentativa di tale gruppo non è apprezzabile in termini di approssimazione dei dati originali in quanto viene ottenuta non tenendo conto del criterio di similarità implicito nel metodo.18

Il resto delle unità è stato sottoposto al processo di microaggregazione utilizzando una tecnica su asse singolo. L'asse di ordinamento è stato calcolato come combinazione lineare delle seguenti variabili centrate e ridotte: numero di addetti, fatturato totale, ricavi accessori, costi per materie prime, costi per servizi vari, costo del lavoro, investimenti e valore aggiunto. Per queste variabili, che contribuiscono direttamente alla formazione dell'asse di ordinamento, la rappresentazione attraverso i dati microaggregati è risultata chiaramente migliore rispetto alle restanti. La sintesi all'interno dei gruppi è stata operata mediante media aritmetica ponderata con i coefficienti di riporto all'universo (vedi Tabella 9.1).

Per valutare i risultati solitamente si misura la perdita di informazione con la perdita di variabilità che si registra dopo la microaggregazione. In maniera equivalente, misurando la qualità dell'informazione invece della perdita, è stato calcolato il rapporto tra la varianza di una variabile modificata dalla microaggregazione e la varianza originale della stessa. Tanto più questo rapporto è vicino all'unità, tanto migliore è il risultato ottenuto in termini di perdita di informazione. L'indice è stato calcolato analiticamente per ogni variabile e per ogni dominio (vedi Tabella 9.2).

Mediamente il valore di questo indice di "variabilità mantenuta" si attesta intorno a 0.75, tuttavia i risultati sono molto variabili da dominio a dominio e da variabile a variabile. Ad esempio per la variabile "numero di addetti" l'indice registra nei vari domini valori che vanno da un minimo di 0.36 a un massimo di 0.97; per il fatturato si va da 0.34 a 0.99. Valori analoghi si hanno per le variabili che contribuiscono al calcolo dell'asse di ordinamento. Per le altre, come era lecito aspettarsi anche per la loro natura, la perdita di informazione è maggiore con una percentuale più elevata di valori bassi dell'indice.

18 Tale unità, complementare rispetto al resto dei dati, garantisce la coerenza dei totali delle variabili nei domini. Nel file rilasciato queste unità sono contrassegnate da un flag.

Tabella 9.1 Esempio di dati microaggregati estratti dal file rilasciato

Ateco Anno Rip. Geo. Addetti Dipend Fatt. Tot. Costi-1 Costi-2 Cos. Lav. …. Tot. Inv. Val. Agg. Coeff. 141 95 1 10.6 8.2 950.9 202.3 334.4 202.2 …. 147.0 422.6 20.1 141 95 1 14.5 12.5 1060.8 303.2 546.9 386.5 …. 60.9 198.6 26.8 141 95 1 25.0 23.3 5122.0 1931.0 1571.7 1163.7 …. 534.0 2255.7 3.0 141 95 1 28.0 26.7 5275.3 1281.0 1467.7 1522.3 …. 153.7 2688.3 3.0 141 95 1 28.7 27.7 4820.7 1709.3 1153.3 1461.0 …. 94.7 2168.7 3.0 141 95 1 43.3 41.3 9007.7 1938.7 2124.3 2497.0 …. 266.0 4801.7 3.0 141 95 1 46.3 44.3 10190.7 2977.0 2372.3 2411.3 …. 2374.0 4621.0 3.0 141 95 1 48.0 47.0 9209.3 2784.7 1987.7 2587.3 …. 666.3 4131.7 3.0 141 95 2 2.8 1.2 606.4 180.4 173.4 52.7 …. 19.3 262.8 93.7 141 95 2 2.9 1.1 163.6 33.7 53.9 43.7 …. 27.4 91.9 31.1 141 95 2 4.8 3.8 728.1 170.6 245.7 150.6 …. 248.8 370.8 16.8 141 95 2 8.5 6.9 971.4 282.7 448.0 275.0 …. 25.2 259.9 14.6 141 95 2 10.1 7.2 1314.6 190.1 610.1 309.5 …. 378.4 530.8 7.9 141 95 2 14.7 13.7 1649.7 273.9 262.0 739.8 …. 47.8 1129.1 31.5 141 95 2 15.1 14.1 2440.9 519.2 608.5 718.3 …. 208.3 1260.6 4.1 141 95 2 21.3 20.3 1905.3 317.0 584.0 1039.0 …. 304.0 1357.7 3.0

Tabella 9.2 Esempio di rapporto tra le varianze dei dati microaggregati e dei dati originali. Variabile Addetti. Anno 1995

Italia

Nord Centro-sud

Ateco Nord-ovest Nord-est Centro Sud e Isole

141 0.92 0.92 0.90 0.92 142-143-144-145 0.94 0.90 0.88 0.86 151 0.87 0.94 0.87 0.84 152-153-154 0.92 0.88 0.84 0.90 155 0.48 0.88 0.85 0.94 156 0.63 0.77 0.85 0.92 157-158 0.96 0.80 0.87 0.76 159 0.90 0.91 0.81 0.93 177 0.91 0.83 0.89 0.77 181 0.89 0.92 0.84 0.85 182-183 0.77 0.74 0.81 0.81 191 0.92 0.96 0.90 0.93 192 0.96 0.79 0.80 0.90 193 0.85 0.91 0.90 0.82 201 0.89 0.88 0.88 0.90 202-204 0.86 0.70 0.92 0.86 203 0.94 0.96 0.96 0.88 205 0.95 0.93 0.88 0.89 211-212 0.96 0.93 0.90 0.77 221-222-223 0.72 0.81 0.95 0.93 231-232-233 0.88 241 0.92 0.87 0.85 0.79

Come ulteriore termine di confronto vengono riportate insieme ai dati microaggregati le principali caratteristiche statistiche dei dati originali: numero di osservazioni; media e varianza di ogni variabile; matrice delle somme dei quadrati e dei prodotti incrociati, matrice di varianze e covarianze e matrice di correlazione per ogni sottopopolazione.

Le elaborazioni sono state effettuate con il pacchetto Sas System e, per quanto riguarda la microaggregazione, utilizzando l'applicazione software Masq (Microaggregazione su Asse Singolo per variabili Quantitative) sviluppata con il modulo Sas/AF (Pagliuca e Seri, 1999a).

Per quanto riguarda la valutazione della qualità dell’informazione che viene fornita con i metodi di microaggregazione, una sperimentazione condotta sui dati delle rilevazioni sui conti economici delle imprese riferite agli anni 1993 e 1994 (Corsini et al., 1999; Contini et al., 1998) ha confermato che i criteri di ordinamento del tipo “singolo asse”, applicati per produrre le basi dati allegate, tendono a fornire risultati tanto più soddisfacenti quanto più l’asse prescelto per la microaggregazione è correlato (positivamente o negativamente) con le variabili oggetto di microaggregazione. Questo spiega perché, quando si intende mettere a disposizione degli utenti le singole variabili microeconomiche derivanti dai bilanci di impresa, l’utilizzo di dati microaggregati comporta perdite di informazione relativamente ridotte; quasi tutte le poste di un conto economico sono infatti correlate alla dimensione dell’impresa.

Le cose non stanno più in questi termini quando si considerano indicatori nella forma di rapporti caratteristici, cioè funzioni (non lineari) delle variabili rilevate, come ad esempio il “valore aggiunto per addetto” o il costo del lavoro per unità di prodotto.

La sperimentazione ha mostrato che le quote di variabilità e di correlazione preservate rispetto alle variabili originali possono divenire particolarmente basse nel caso dei rapporti caratteristici. E’ necessario quindi tenere conto di queste problematiche nell’uso dei dati microaggregati per il calcolo di questi rapporti.

L’utilizzo di dati microaggregati per costruire indicatori dinamici richiede cautele ancora maggiori rispetto a quelle evidenziate a proposito dei rapporti caratteristici. Gli indicatori dinamici vengono normalmente utilizzati per effettuare analisi microeconometriche su variabili che colgono la dinamica delle imprese nel tempo (ad esempio, crescita dell’occupazione, saggio di variazione del costo del lavoro per unità di prodotto, eccetera). Anche in questo caso, fra l’asse prescelto per la microaggregazione e gli indicatori dinamici vi è generalmente scarsa correlazione; di conseguenza le quote di variabilità e di correlazione rispetto alle variabili originali possono divenire particolarmente basse.

Risultati più accettabili, sempre dal punto di vista empirico, si sono verificati nella stima dei parametri di alcuni modelli econometrici (Corsini et al., 1999; Contini et al., 1998) che comunque vanno interpretati con prudenza anche alla luce della considerazione intuitiva che un processo di aggregazione, per quanto ridotto, comporta una perdita di variabilità e una crescita della correlazione tra le variabili.

Nel documento A cura di (pagine 148-152)