• Non ci sono risultati.

Il nuovo dataset iniziale di T-DYMM 3.0

Riferimenti bibliografici

6. Analisi dei dati sulla ricchezza (SHIW)

7.2 Le nuove funzionalità di T-DYMM

7.2.2 Il nuovo dataset iniziale di T-DYMM 3.0

L’uso di un campione rappresentativo della popolazione è il punto di partenza di quasi tutti i modelli per una buona rappresentazione della realtà simulata. L’eterogeneità individuale è pienamente sfruttata e modellata in modo da simulare interazioni sociodemografiche e comportamenti economici. Tuttavia, il livello di informazioni necessarie va spesso oltre la rappresentatività fornita dalle indagini campionarie. Si potrebbe essere interessati a studiare in che modo un’ipotetica riforma su un piccolo sottogruppo specifico di lavoratori li influenzerebbe, in termini di futuri risultati specifici di gruppo, e in che modo ciò influenzerebbe i livelli di disuguaglianza complessivi. Per fare ciò, il campione di partenza deve rappresentare in modo accurato la popolazione presa a riferimento. Allo stesso tempo, i modelli di microsimulazione possono anche essere utilizzati per stimare i valori aggregati e medi (ad esempio, la spesa pensionistica complessiva), richiedendo l’uso appropriato delle tecniche di calibrazione.

Alla luce di quanto precede, T-DYMM 3.0 utilizzerà una tecnica consolidata per la calibrazione delle unità campionarie (Creedy e Tuckwell 2004; Pacifico 2014) al fine di eseguire le nostre simulazioni su un dataset che rappresenta realisticamente le molte dimensioni cui siamo interessati. La ricalibrazione viene eseguita sulla wave AD-SILC per l’anno 20177, punto di partenza del nostro modello. Le frequenze totali di diversi sottogruppi di campioni sono calibrate (a livello individuale) prendendo a riferimento i valori aggregati messi a disposizione dal Dipartimento delle Finanze italiano8 e dall’ISTAT9.

7 Vedi il capitolo 1 per una descrizione dettagliata del dataset AD-SILC.

8 Vedi https://www1.finanze.gov.it/finanze3/pagina_dichiarazioni/dichiarazioni.php, dove sono fornite molte informazioni sulle dichiarazioni fiscali aggregate per ogni anno fiscale.

9 Vedi http://dati.istat.it/, dove i dati sull’età divisi per classi, numero di stranieri e livello di istruzione più elevato sono stati presi come riferimento nella procedura di ponderazione.

142 7. T-DYMM 3.0

La ricalibratura del peso si ottiene minimizzando la funzione lagrangiana che segue rispetto a i pesi ricalibrati:

dove ow è il peso originale; (rwj-owj )/owj è la funzione di distanza chi-quadrata per il j-esimo individuo; λk è il k-esimo moltiplicatore lagrangiano; tk è il vettore k di totali esterni; xj è il vettore delle variabili oggetto di calibrazione.

Il focus della ricalibratura riguarda diverse dimensioni. Finora abbiamo considerato quanto segue: numero di contribuenti, lavoratori dipendenti, lavoratori autonomi e pensionati con reddito lordo positivo soggetto all’imposta sul reddito delle persone fisiche (imposta sul reddito delle persone fisiche, IRPEF) per classi di reddito e area geografica; individui e famiglie per genere; famiglie per numero di membri e tipologia;

individui e famiglie immigrate per sesso e macroarea di nascita; individui per classe di età; individui di almeno 15 anni di età per il livello di istruzione più alto conseguito.

In seguito alla procedura di ponderazione sul dataset AD-SILC 2017, gli individui vengono duplicati nel campione sulla base del peso campionario calibrato. Quindi, una volta espanso il dataset, i capifamiglia vengono selezionati e campionati con ripetizione in modo da estrarre un campione di 100.000 famiglie. Infine, i restanti membri delle famiglie sono uniti ai corrispondenti capifamiglia. La procedura qui descritta è una pratica comune negli studi di microsimulazione dinamica e consente di superare le difficoltà che i modellisti incontrano quando utilizzano i metodi di allineamento, sebbene siano state proposte anche strategie alternative che non comportano l’espansione del dataset (Dekkers e Cumpston 2012).

Di seguito, l’accuratezza del metodo di calibrazione viene testata utilizzando il dataset AD-SILC 2011, l’anno base di T-DYMM 2.0 (IESS 2016)10. La distribuzione presa a riferimento è il reddito lordo soggetto all’imposta sul reddito delle persone fisiche (IRPEF) per l’anno fiscale 2011. I pesi originali IT-SILC sono stati ricalibrati per le variabili sopra elencate. Come mostrato nella Figura 7.1, la distribuzione calibrata degli individui con reddito lordo positivo soggetto a IRPEF aderisce quasi perfettamente ai totali esterni (distribuzione MEF). La distribuzione non calibrata sottostima il numero di individui che rientrano nel primo gruppo di reddito (0-1.000) di oltre un milione, un tipico esempio di come i dati campionari non riescano a rappresentare adeguatamente i valori estremi di una distribuzione. La procedura di calibrazione dimostra di essere utile anche nell’aggiustare il misreporting degli individui nella parte centrale della distribuzione.

10 AD-SILC 2017 non ha potuto essere testato a questo punto, in quanto non era disponibile al momento dell’analisi.

143

7. T-DYMM 3.0

Ciò è particolarmente vero per due dei tre gruppi di reddito più numerosi (12.000-15.000 e (12.000-15.000-20.000).

Figura 7.1 Individui con reddito lordo soggetto a IRPEF per classe di reddito (valori sull’asse orizzontale in migliaia di euro)

0 2 milioni 4 milioni 6 milioni 8 milioni

0-1 1-1.5 1.5-2 2-2.5 2.5-3 3-3.5 3.5-4 4-5 5-6 6-7.5 7.5-10 10-12 12-15 15-20 20-26 26-29 29-35 35-40 40-50 50-55 55-60 60-70 70-75 75-80 80-90 90-100 100-120 120-150 150-200 200-300 >300

PRE_calibrazione POST_calibrazione MEF Fonte: elaborazione degli Autori su dati IT-SILC 2011 e MEF

Figura 7.2 Reddito lordo totale soggetto a IRPEF per classe di reddito: valori sull’asse orizzontale in migliaia di euro

0-1 1-1.5 1.5-2 2-2.5 2.5-3 3-3.5 3.5-4 4-5 5-6 6-7.5 7.5-10 10-12 12-15 15-20 20-26 26-29 29-35 35-40 40-50 50-55 55-60 60-70 70-75 75-80 80-90 90-100 100-120 120-150 150-200 200-300 >300

PRE_calibrazione POST_calibrazione MEF 0

5 miliardi 10 miliardi 15 miliardi

Fonte: elaborazione degli Autori su dati IT-SILC 2011 e MEF

144 7. T-DYMM 3.0

Come risultato di tali aggiustamenti, il reddito lordo totale calibrato soggetto a IRPEF rappresenta meglio i totali di fonte amministrativa rispetto allo scenario non calibrato, per tutte le classi di reddito coinvolte (cfr. Figura 7.2). I miglioramenti sono particolarmente evidenti per le classi con reddito medio sopra menzionate e sulla coda destra della distribuzione del reddito. L’indice di Gini del reddito al lordo delle imposte aumenta da 0,4043 a 0,4513 quando vengono confrontate le distribuzioni non calibrata e calibrata, mentre la disuguaglianza di reddito in Italia calcolata sulle dichiarazioni dei redditi varia nell’intervallo [0,45; 0.46] (Di Nicola et al. 2015; Di Caro 2018).

Figura 7.3 Scatter plot dei pesi ricalibrati rispetto ai pesi originali per il dataset AD-SILC 2011

0 5.000 10.000 15.000 20.000 25.000

0 5.000 10.000 15.000 20.000 25.000

peso originale

peso calibrato

Fonte: elaborazione degli Autori su dati IT-SILC 2011 e MEF

Nella Figura 7.3 i pesi ricalibrati sono comparati ai pesi originali, per dare un’idea intuitiva delle distorsioni introdotte dalla procedura di calibrazione. Ciò che si può notare è che, eccetto i valori anomali nella parte superiore del grafico, i nuovi pesi assegnati agli individui non sono profondamente diversi da quelli vecchi, anche quando la ricalibrazione ha interessato un numero elevato di dimensioni come nel nostro caso.