• Non ci sono risultati.

Modello di selezione del campione per variabili ordinali

Un particolare tipo di modello probit è il modello di selezione, utilizza- to in letteratura per cercare di risolvere problemi di selezione campionaria: possono esistere dei casi in cui le osservazioni sulla variabile di interesse pro- vengono esclusivamente da un sottoinsieme del suo spazio campionario; in queste situazioni si è di fronte ad una non completa osservabilità del feno- meno, che, per l'appunto, determina una selezione del campione. In generale, tale fenomeno si manifesta qualora si fosse in presenza di un modello per

la popolazione di interesse e si volesse fare inferenza sui parametri del me- desimo, ma il processo di campionamento è tale per cui si osserva solo un sottocampione, anzichè lo spazio campionario completo.

Tale modello deve la sua origine a Heckman e al contesto econometrico e per tale motivo è noto come modello di Heckman o tobit II. L'idea sottostan- te è la capacità di stimare simultaneamente due equazioni: la prima, detta equazione di selezione, implica una regressione probit; la seconda equazione, detta equazione principale, invece è stimata col metodo dei minimi quadrati (OLS). Nel caso più semplice anche la seconda equazione stima la probabilità di una variabile dicotomica dierente da quella dell'equazione di selezione, ma legata concettualmente ad essa. L'unica richiesta fondamentale che viene fatta è relativa alla specicazione delle variabili usate nelle due equazioni: l'equazione di selezione deve infatti prevedere almeno una variabile non pre- sente nel modello principale e se possibile non legata concettualmente alla variabile d'interesse dell'equazione principale; ciò è preferibile in quanto que- sta seconda equazione rappresenta e determina la selezione vera e propria denita nel primo stadio. Se infatti l'insieme delle variabili fosse lo stesso, ci si imbatterebbe nella cosidetta "identicazione debole": questo metodo di stima consente dunque un'adeguata correzione della distorsione delle stime solo se le variabili esplicative impiegate nel modello di selezione non costitui- scono lo stesso insieme di quelle impiegate nel modello strutturale.

In particolare ciò che il modello di Heckman dimostra è che se si stimasse la variabile d'interesse con un semplice modello ad esso adeguato, senza dunque considerare l'equazione di selezione, non si terrebbe in considerazione l'endo- geneità tra le due variabili che tale modello di selezione mette in relazione. Conseguentemente, se si ignorasse il problema di selezione, si otterrebbero stimatori distorti e inconsistenti per tutti i parametri del modello (Greene e Hensher, 2010b, Cap. 11.2).

Formalmente, il modello di selezione è costituito da un sistema di equazioni per due variabili risposta, dove l'osservazione della seconda variabile avviene se e solo se è possibile osservare la prima. Il sistema è specicato attraver- so due variabili latenti Si∗ e Yi∗, dove la prima è specica per la selezione

dell'individuo i, mentre la seconda costituisce il livello percepito inosservato di questo stesso soggetto, se, ad esempio, si suppone dover analizzare l'au-

tovalutazione fornita in un questionario. Tali variabili sono assunte continue e vengono modellate secondo una normale di media e varianze opportune. Nello specico si ha (De Luca e Perotti (2011)):

Si∗ = Xi1β1+ υi Yi∗ = Xi2β2+ εi con " υi εi # ∼ N " 0 0 # , " 1 ρ ρ 1 #!

ove i = 1, . . . , N indica l'intervistato i, β1 e β2 sono due vettori di parame-

tri, Xi1 e Xi2 sono due insiemi di variabili esplicative dierenti e [υi, εi] è il

vettore contente i termini d'errori di ciascuna equazione tale che "

υi

εi

# ⊥ Xi.

La correlazione dei termini d'errore υi e εi considera dunque l'endogeneità

che potrebbe esistere tra la variabili d'interesse dell'equazione di selezione e quella dell'equazione principale.

Le due variabili Si∗ e Yi∗ sono inosservabili e associate alle due variabili d'in-

teresse Si e Yi, dove nel caso in esame si suppone che la variabile dipendente

dell'equazione principale abbia una natura categoriale ordinale. Pertanto le due variabili latenti si manifestano solo nel caso in cui:

Si =    1 se Si∗ > 0 0 altrimenti Yi =    k se Yi∗ > 0 0 altrimenti

In particolare, la variabile Yi∗ è osservata solo se si riscontra la condizione

Si = 1; pertanto il sottocampione identicato da tale restrizione rappresenta

il campione di selezione. In particolare gli eetti di selezione si manifestano attraverso la correlazione tra i due errori delle variabili latenti. Inoltre, es-

sendo Yi una variabile ordinale, essa assumerà uno dei K valori secondo il

seguente meccanismo: Yi = k se τik−1 ≤ Y ∗ i < τik dove −∞ = τ0 i < τi1 < ... < τ K−1 i < τiK = +∞

con τi vettore delle soglie e k = 1, 2, . . . , K l'indice associato al numero di

In questo caso dunque l'equazione di selezione è un modello probit standard univariato (con intercetta diversa da 0), mentre l'equazione principale è un modello probit ordinato univariato. La relazione tra i due modelli viene dun- que considerata attraverso la correlazione dei loro errori. Perciò, è ragionevole che l'identicazione dei parametri del modello richieda le seguenti due restri- zioni: la prima, impone che l'intercetta dell'equazione principale sia vincolata a 0 secondo la logica e assunzione standard dei modelli probit (logit) ordina- li univariati; la seconda condizione assume che l'insieme delle covariate Xi1

si distingua da quello di Xi2 per almeno una variabile. In particolare, se si

utilizza l'identicazione della specicazione semiparametrica, si richiede una

terza assunzione ovvero che Xi1 e Xi2 contengano almeno una variabile con-

tinua (De Luca e Perotti, 2011).

Sotto l'assunzione della specicazione parametrica e dunque assumendo che il vettore degli errori [υi, εi] segua una distribuzione gaussiana bivariata

di media 0, varianza unitaria e correlazione ρ e sotto l'assunzione che le osservazioni siano tra loro indipendenti, la funzione di log-verosimiglianza per un campione causale di N osservazioni è data da:

l(θ|Y ) = N X i=1 ( (1 − Si) ln π0i(θ) + K X k=1 YiI(Yi = k) ln π1ki(θ) )

dove θ corrisponde al vettore dei parametri τ=(τ1, τ2, . . . , τK)0, β1 = (β11, β21)0,

β2 = (β12, β22)0 e ρ, mentre I(Yi = k) =    1 se yi1= k e yi2 = j 0 altrimenti è la funzio-

ne indicatrice e π = (π0, π11, π12, . . . , π1K) sono le probabilità condizionate

associate con K + 2 possibili realizzazioni di S e Y . Più precisamente: π0(θ) = P r(S = 0) = 1 − φ(β1 0 X1) π1k(θ) = P r(S = 1, Y = k) = = φ2(β1 0 X1, τk+1− β2 0 X2; −ρ) − φ2(β1 0 X1, τk− β2 0 X2; −ρ)

con φ che denota la distribuzione normale standardizzata e φ2che corrisponde

alla distribuzione gaussiana bivariata di medie 0, varianze unitaria e corre- lazione ρ. Conseguentemente le stime del vettore θ possono essere ottenute

dalla massimizzazione della log-verosimiglianza così specicata.

La validità del modello e dunque la verica della selezione del campione può essere vericata attraverso il coeciente ρ: se è nullo o è statisticamente non signicativo (secondo il test rapporto di verosimiglianza), è plausibile l'i- potesi che gli individui siano selezionati casualmente e che stime consistenti

di β2 siano ottenute stimando l'equazione di regressione tramite un modello

probit ordinale standard; dunque in questa situazione l'ipotesi di selezione da campione viene a mancare.

Anche per questo modelli esistono ulteriori specicazioni come quella di

Miranda e Rabe-Hesketh (2005), i quali usano una specicazione dierente

degli errori delle due equazioni.

Documenti correlati