In questa sezione verr`a introdotto il modello conosciuto come HOPIT4. Pu`o essere
visto come un’estensione del modello probit ordinale, con le soglie tra le categorie che vengono specificate individuo per individuo, invece che essere fissate.
2.4.1
L’Ordered Probit Model
Prima di spiegare il modello HOPIT `e utile conoscere la versione da cui deriva, ovvero l’ordered probit model. Come si pu`o intuire dal nome, questo modello appartiene al gruppo dei modelli a risposta ordinata, che sono un’estensione dei modelli a risposta binaria. Ipotizziamo ad esempio che una variabile y possa assumere tre valori (1, 2, 3) e che sia il risultato osservato di una variabile continua latente y⇤:
y⇤ = X + ✏ y = 8 > > < > > : 1 se y⇤ 0 2 se 0 < y⇤ ⌧ 3 se y⇤ > ⌧
dove ✏ `e un termine d’errore i.i.d., simmetrico, con FdR G, X una matrice di variabili esplicative e ⌧ soglie da stimare, uguali per tutti gli individui. Essendo un modello Probit, la Funzione di Ripartizione G `e una Normale Standard:
G(x) = (x) = Z x 1 (v)dv + P (y = 1|X) = ( X ) P (y = 3|X) = 1 (⌧ X ) P (y = 2|X) = (⌧ X ) ( X )
A di↵erenza dei modelli a risposta binaria, ci sono da stimare oltre al vettore di parametri anche i parametri ⌧ . Si hanno in genere tante soglie quante sono le modalit`a della variabile osservata meno una.
Il modello sopra riportato pu`o essere stimato poich´e identificato, ma se conside- riamo il modello generale,
y⇤ = ↵ + ˜X + ✏ con ✏⇠ (0, 2)i.i.d. y = 8 > > < > > : 1 se y⇤ ⌧ 1 2 se ⌧1 < y⇤ ⌧2 3 se y⇤ > ⌧2
con ˜X matrice senza costante, per l’i-esima osservazione vale: P (yi = 1| ˜xi) = P (↵ + ˜xi 0 + ✏i ⌧1| ˜xi) = ⌧1 ↵ ˜ xi 0✓ ◆
In questo caso combinazioni diverse dei parametri (↵, , ⌧1, ) generano lo stesso
valore della log-verosimiglianza, quindi il modello non `e identificato. Per stimare questo modello bisogna quindi inserire dei vincoli: • Varianza unitaria e prima soglia pari a 0 ( = 1; ⌧1 = 0)
o
• Varianza unitaria e costante pari a 0 ( = 1; ↵ = 0) In quest’ultimo caso: y⇤ = ˜X + ✏ con ✏⇠ (0, 1)i.i.d. y = 8 > > < > > : 1 se y⇤ ⌧1 2 se ⌧1 < y⇤ ⌧2 3 se y⇤ > ⌧ 2
con ˜X matrice senza costante e:
P (y = 1| ˜X) = (⌧1 X )˜
P (y = 2| ˜X) = (⌧2 X )˜ (⌧1 X )˜
P (y = 3| ˜X) = 1 (⌧2 X )˜
Il caso generale `e con M alternative logicamente ordinate (con M=2 si torna esatta- mente al caso con le variabili a risposta binaria).
Il problema principale di questo modello `e che le soglie ⌧ sono uguali per tutti e questo implica che non si tiene conto del problema del DIF.[Giudici, 2005]
2.4.2
Il modello HOPIT
Il modello HOPIT `e stato introdotto proprio per cercare di risolvere questo proble- ma, stimando delle soglie che siano specifiche di ogni persona e non fissate per tutti. Con questo modello `e possibile rendere le indagini successive meno dispendiose, sia
in termini temporali che monetari, chiedendo di valutare gli scenari delle vignettes solo in una prima indagine, estendendo poi i risultati ottenuti, nelle successive.[King et al., 2004] Il modello HOPIT `e, come detto in precedenza, una versione modificata dell’Ordered Probit Model. Per includere le informazioni derivanti dalle vignettes il modello si divider`a in due componenti (due modelli a risposta ordinata), una riferito alle domande riguardanti l’autovalutazione e una riferito alle vignettes. Prima di esporre queste componenti, `e utile introdurre i concetti di livello attuale, percepito e riportato della variabile presa in oggetto. Il primo indica il livello e↵ettivo (di libert`a, political efficacy, salute, ecc.) che ogni individuo presenta. Esso `e non osservato. Gli individui percepiscono questo livello e↵ettivo con un errore, ma correttamente in media. Anche il livello percepito non `e osservato. Infine quando questi rispondono ad un questionario, esprimono il proprio livello percepito, ma ogni individuo uti- lizza delle soglie di↵erenti. Questo livello riportato `e osservato, ma non `e possibile confrontarlo con altri individui [King et al., 2004]
Prima componente, l’autovalutazione
Si denota il livello attuale dell’i-esimo intervistato con µi in una scala crescente
continua, illimitata e unidimensionale. L’intervistato percepisce il livello µi solo con
un errore (normale standard), come avviene nell’ordered probit model. Il livello percepito dell’i-esimo rispondente risulta quindi:
Yi⇤ ⇠ N(µi, 1)
Il livello attuale, che varia tra gli individui `e una funzione lineare di caratteristiche, espresse dal vettore xi, ed un e↵etto casuale normale indipendente da x, chiamato
"i
µi = x0i + "i, "⇠ N(0, 1)
dove x0
i `e un vettore di covariate senza termine costante, `e un vettore di parametri
e gli errori " sono indipendenti dalle covariate. L’assenza della costante e la varian- za unitaria di " sono necessarie all’identificazione. Il livello riportato viene rilevato tramite una domanda sull’auto-valutazione avente k (k = 1, ..., K) categorie di ri- sposta. Gli individui, quindi, trasferiscono il livello percepito (continuo) nel livello
rappresentato (discreto) attraverso delle soglie ⌧ :
yi = k se ⌧ik 1 < Yi⇤ < ⌧ik
dove ⌧0
i = 1, ⌧iK =1 e ⌧ik 1 < ⌧ik
Le soglie sono cos`ı modellate: ⌧i1 = v0i 1
⌧ik = ⌧ik 1+ exp(v0i k), k = 2, ..., K 1 con v0
i un vettore di covariate (che potrebbe coincidere con x0i) e k, per k = 1, ..., K
1, vettori di parametri.5[King et al., 2004] L’esponenziale nell’equazione delle soglie
garantisce che queste siano sempre crescenti.
Se si utilizzasse solo questa componente, esisterebbe per`o un problema di identi- ficazione in quanto e non sono identificabili separatamente; per farlo c’`e bisogno di ulteriore informazione, in questo caso fornita dalle vignettes.
Questa prima componente pu`o essere estesa ad un modello pi`u generale com- prendente pi`u domande sull’auto-valutazione, indicate con s (s = 1, ..., S), caso non studiato in questa tesi.
Seconda componente, le vignettes
L’assunzione di vignettes equivalence, come riportato in precedenza, indica che il vero livello della variabile presa in oggetto `e percepito in modo uguale da tutti i rispondenti,a meno di un errore casuale. Quest’assunzione pu`o essere formalizzata introducendo il parametro ✓j, indipendente dagli intervistati (j = 1, ..., J indica le
vignettes). Il livello percepito della variabile espressa nella j-esima vignette per l’in- dividuo i `e, come nella prima componente, non osservato. Esso pu`o essere modellato come
Zij⇤ = ✓j + uij uij ⇠ N(0, 2u)
uij indipendente da " e Xi. L’i-esimo individuo manifesta il livello percepito in una
categoria Zij mediante un modello a soglie non fisse, esattamente come nella prima
5Esiste una variante, portata da van Soest et al. [2011], che introduce un termine di errore u i
all’interno della prima soglia. Questo e↵etto casuale ui si assume che sia distribuito normalmente
con media 0 e varianza 2
componente:
Zij = k se ⌧vik 1 Zij⇤ ⌧vik
Con l’assunzione di response consistency, le soglie ⌧k della seconda componente sono
identiche a quella della prima6:
(⌧sk= ⌧vk)
Grazie all’informazione aggiuntiva fornita dalla valutazione delle vignettes, `e ora possibile identificare i parametri e . In particolare le soglie sono identificate dalla seconda componente, mentre i possono essere identificati dalla prima componente.