Le funzioni di influenza: funzione finalizzata all’editing

4. DAL DATO AMMINISTRATIVO ALLE INFORMAZIONI STATISTICHE. BANCA DATI

6.6 Editing selettivo e imputazione

6.6.2 Le funzioni di influenza: funzione finalizzata all’editing

La funzione finalizzata alla procedura di editing è rappresentata dal valore assoluto della differenza tra la variazione tendenziale della variabile relativa al settore di attività a cui l’unità in esame appartiene e la stessa variazione calcolata escludendo dall’insieme la singola unità oggetto di editing.

Per ogni unità k, appartenente all’aggregato S (sezione Ateco 2007) la funzione di in-fluenza scelta è espressa tramite una funzione indicatrice nel modo seguente:

(12)

dove S-k rappresenta l’aggregato S con l’esclusione dell’unità k-esima, V(X) rappresen-ta la variazione tendenziale calcolarappresen-ta sull’aggregato specifico per la generica variabile X che può assumere il valore RU (Retribuzione media per Ula), OU (Oneri medi per Ula), D (Posi-zioni lavorative dipendenti). Infine, t rappresenta la soglia di selezione delle unità influenti scelta sulla base di criteri che tengono conto del trade-off tra numero di unità selezionate e qualità dell’output prodotto12. Perché una unità sia segnalata come influente dalla funzione

12 Le evidenze tratte dall’analisi sui dati hanno portato a scegliere un valore pari a 0,2 come soglia per tutte le funzioni di influenza calcolate.

86

La rilevazione trimestrale Oros su occupazione e costo del lavoro indicatrice è necessario che il valore della differenza tra variazione totale e variazione par-ziale, in modulo, sia maggiore o uguale alla soglia

τ

. La (12) può assumere le due seguenti realizzazioni:

l’unità k è influente

l’unità k non è influente (13)

E’ importante sottolineare che la popolazione di riferimento è variabile nel tempo a causa dei fenomeni di demografia d’impresa dovuti a nascite e cessazioni/sospensioni, tra-sformazioni giuridiche, ecc. che comportano l’entrata e l’uscita dall’insieme di unità affette da queste casistiche13. La funzione di influenza, implicitamente, tiene conto del contributo di ogni singola unità al valore della variazione tendenziale del settore di appartenenza, con-tributo che dipende dall’indicatore analizzato e dalle sue proprietà in termini di componenti caratterizzanti. In particolare, come viene mostrato in seguito, per quanto riguarda il caso più semplice di variazioni calcolate su variabili espresse nei livelli, il contributo della singola unità alla variazione del settore è funzione della micro variazione tendenziale, mentre per quanto riguarda le variazioni calcolate su variabili espresse come rapporti il contributo non dipende soltanto dalla variazione tendenziale dell’unità ma anche da un effetto di ricom-posizione occupazionale non direttamente osservabile, come conseguenza di aggregati i cui indici sono calcolati come indici semplici di variabili rapporto (cfr. Lattanzio, 2016a e Lattanzio, 2016b).

Per semplicità di trattazione, la formalizzazione presentata sarà riferita solo al sottoin-sieme delle unità panel della popolazione (in seguito insottoin-sieme P), appartenente al generico aggregato S, per le quali si dispone dei dati sia a t sia a t-4.

L’indice semplice delle posizioni lavorative può essere espresso in funzione dei micro indici componenti nel modo seguente:

(14)

ove I_i,tD rappresenta l’indice delle posizioni lavorative dipendenti dell’i-esima unità e π_i,P,bD

rappresenta il peso in termini di posizioni lavorative riferite all’anno base b rispetto all’ag-gregato P delle unità panel (cfr. §9.2.2, formula (5) per la formalizzazione estesa). In base alla formulazione relativa alla scomposizione delle variazioni (Lattanzio, 2016a), per l’indice di cui sopra vale la seguente relazione:

(15)

Dove V(d_i) rappresenta la micro variazione tendenziale delle posizioni lavorative dell’u-nità i-esima e π_i,P,t-4D è il peso delle posizioni dell’unità i-esima (d_i) riferite al trimestre t-4 e calcolato rispetto all’aggregato P (D_P). A partire da questa formulazione, la differenza di cui alla funzione indicatrice (12), per la k-esima unità è esplicitabile nel modo seguente:

13 Nel caso particolare in cui l’unità k-esima sia nuova nata o cessata essa contribuisce al valore della variazione tendenziale relativa all’aggregato S solo con i dati rispettivamente relativi al tempo t e t-4.

�� (��) � �(�_��)� � � � ��1(�) = 1 l’unità k è influente

�� (�_�) � �(�_��)� � � � ��1(�) = 0 l’unità k non è influente (2)

�(��) � � �(��)�_{��}�

�� (4)

�_�� _��^� �_{��}^�

87

6. Editing e imputazione

(16)

dove P-k indica l’insieme delle unità panel con esclusione della k-esima unità. La (16) espri-me la differenza tra le variazioni tendenziali delle posizioni lavorative dipendenti relative ai due aggregati P e P-k come scostamento pesato tra la variazione tendenziale dell’unità k-esima e la variazione media dell’insieme delle unità ad essa complementare. Questa for-mulazione, esplicitando l’effetto del contributo della singola unità alla variazione dell’ag-gregato, consente di identificare come influenti quelle unità le cui variazioni sono tanto più distanti dalla variazione media delle altre, fornendo una misurazione statistica di variabilità.

Per quanto riguarda il caso specifico di editing selettivo sulle variabili espresse in ter-mini di rapporti (come le variabili relative al costo del lavoro per Ula), l’espressione che consente di esplicitare il contributo dell’unità alla variazione totale dell’aggregato ha una forma di interpretazione meno intuitiva, a causa della difficoltà di isolare gli effetti di ricom-posizione occupazionale relativi all’unità k-esima. Nel caso particolare delle Retribuzioni per Ula, riprendendo i risultati presentati nei lavori Lattanzio, 2016a e 2016b, la scomposizione relativa alla variazione tendenziale dell’indice semplice dell’aggregato P è data dall’espres-sione seguente:

(17)

dove π_i,PU è il peso relativo delle Ula dell’unità i-esima rispetto all’aggregato P e π_i,P,t-4R è il peso relativo del monte retributivo dell’unità i-esima rispetto all’aggregato P al tempo t-4, indicando con:

(18)

i contributi micro alla variazione dell’unità i-esima. La (17) può essere espressa come segue: (19) �(�_�) − �(�_��) =� � �(�_�)�_{��}� �� − � �(�_�)�_��^�� = �(��)�_{��}� � � � �� (��) ��_{��}� − �_��^�� = = �(��)��^� � � �(��) �� _�^�^{��} ��−_�^�^{��} �� = = �(�_�)�_{��}� − � �(�_�) �� _��^�^{��}_�^{− �}^�^��^�� = = �(�_�)�_{��}� − �_{��}� � �(�_�) �� _��^��= = �_{��}� ��(�_�) − � �(�_�) �� _��^�� = = �_{��}� ��(�_�) − ��_�� (5) �� _�� _�� ^{��}₁₀₀^��^��^�^�� (�) � ��(��) � ��_�� ^{�(��)��}₁₀₀ ^��^� ^� �(��) � � ��(�)�_{��}� ��

88

La rilevazione trimestrale Oros su occupazione e costo del lavoro La (19) consente di esprimere la variazione tendenziale media relativa all’aggregato P come una media ponderata di contributi micro alla variazione, che non dipendono soltanto dalla variazione tendenziale delle retribuzioni per Ula della singola unità ma anche dagli effetti di ricomposizione occupazionale citati in precedenza.

E’ possibile ottenere una formalizzazione analoga alla (16), maggiormente finalizzata all’editing, (con riferimento al contributo dell’unità k-esima) della differenza tra variazione totale e parziale. Sempre secondo la logica di partizionamento della popolazione a cui si sta facendo riferimento, si può esprimere la variazione totale come media ponderata dei contributi relativi all’insieme parziale e alla singola unità:

(20)

Date la (18) e la (19) segue che:

La relazione (21) così ottenuta è costituita da due addendi: il primo, similmente alla re-lazione (16) ottenuta per le posizioni lavorative, rappresenta uno scostamento pesato dalla media dei contributi delle altre unità, non della micro variazione ma del contributo della singola unità k-esima alla variazione totale che dipende anche dalla ricomposizione occu-pazionale (definiti analogamente alla (18) e alla (19)); il secondo, è un termine residuale, anch’esso funzione della ricomposizione occupazionale tra gli insiemi totale e parziale, che sarà oggetto di approfondimenti futuri finalizzati ad una più accurata definizione del valore della soglia t.

Le unità selezionate attraverso la procedura descritta sono in numero relativamente ridotto, non superando mai le 100 unità (rispetto a 1 milione e 200 mila circa unità totali sottoposte ad analisi). Queste unità sono valutate attraverso un’analisi interattiva molto accurata allo scopo di individuare quelle a cui apportare la correzione appropriata. Il criterio generalmente seguito è quello del minimo intervento, così come raccomandato in lettera-tura (cfr. AA.VV., 2012), per limitare l’introduzione di valori errati (over editing). In partico-lare, i controlli effettuati trimestralmente hanno evidenziato come la maggior parte dei casi che presentano valori outlier nelle variabili considerate siano riconducibili a trasformazioni giuridiche o a slineamenti temporali nella corresponsione di poste retributive e, quindi, da non sottoporre ad alcun tipo di correzione. D’altra parte, come accennato in precedenza, la procedura ha consentito di selezionare le unità appartenenti al flusso ex-Enpals. Tra queste si è deciso di trattare in modo opportuno soltanto un sotto insieme caratterizzato da valori

�(��_�) � ��_�� (�)�_{��}� � ��_�� 1 � �_�^�� _�^�� 1 �^��_{100 �� }^�^��^� _�^�� (�) � �(��_��)��_{��}� � �(�) (21) ��_�� = = ��_�� + � ��_�^�� +^��^�^��^{�� }^�^��^�� 100 ^{� �}�^�� + ��_�� + ��_�� +^��^�₁₀₀^��^��^� ^�� _{��}�

89

6. Editing e imputazione

outlier ricorrenti ma non periodici14. La correzione apportata è consistita nella sostituzione del dato medio trimestrale corrente relativo a tali unità con quello del medesimo trimestre dell’anno precedente, intervento che ha permesso di sterilizzare la variazione tendenziale media del settore di appartenenza dagli effetti spuri introdotti da queste unità.

Nel documento LA RILEVAZIONE TRIMESTRALE OROS SU OCCUPAZIONEE COSTO DEL LAVORO: INDICATORIE METODOLOGIE (pagine 85-89)