Corso di Laurea Magistrale
in Scienze Statistiche
T E S I D I L A U R E A
VEROSIMIGLIANZE INTEGRATE IN
MODELLI PER DATI BINARI
STRATIFICATI
Relatore: Prof. Nicola Sartori
Dipartimento di Scienze Statistiche
Correlatore: Prof. Ruggero Bellio
Dipartimento di Scienze Economiche e Statistiche
Università di Udine
Laureando: Enrico Gasparin
Matricola N
◦1065580
Introduzione 5
1 L’inferenza di verosimiglianza 9
1.1 Introduzione . . . 9
1.2 Specificazione del modello . . . 9
1.3 La funzione di verosimiglianza . . . 11
1.4 Problema regolare di stima . . . 12
1.5 Quantità di verosimiglianza . . . 13
1.6 Teoria esatta ed asintotica della verosimiglianza . . . 14
1.6.1 Trasformazioni biettive . . . 14
1.6.2 Diseguaglianza di Wald e identità di Bartlett . . . 14
1.6.3 Proprietà asintotiche dello stimatore di massima vero-simiglianza . . . 15
1.7 Inferenza basata sulla verosimiglianza . . . 16
1.8 Parametri di disturbo . . . 17
1.9 Verosimiglianza profilo e sue modifiche . . . 19
1.9.1 Verosimiglianza profilo modificata . . . 21
1.10 Verosimiglianza integrata . . . 22
1.10.1 Parametrizzazione Zero Score Expectation . . . 23
1.10.2 Proprietà della verosimiglianza integrata . . . 24
1.10.3 Verosimiglianza integrata per campioni stratificati . . . 26
2 Modello logistico per campioni stratificati 33 2.1 Introduzione . . . 33
2.4.1 Funzione di verosimiglianza e log-verosimiglianza . . . 37
2.4.2 Verosimiglianza profilo . . . 38
2.4.3 Verosimiglianza profilo modificata . . . 38
2.4.4 Verosimiglianze integrate . . . 40 3 Studi di simulazione 45 3.1 Introduzione . . . 45 3.2 Aspetti computazionali . . . 47 3.3 Risultati . . . 49 Conclusioni 59 Bibliografia 63 Appendice: Codice 65
Nei problemi di inferenza statistica accade spesso che l’interesse venga riposto solamente su alcuni aspetti del fenomeno oggetto di studio. In un contesto di modellazione di tipo parametrico, questo si traduce nella biparti-zione del parametro globale in parametro di interesse e parametro di disturbo. Le procedure inferenziali basate sulla verosimiglianza mantengono comunque le usuali proprietà anche in presenza di un parametro di disturbo finchè al-cune condizioni di regolarità vengono soddisfatte. Tra queste vi è quella che afferma che la dimensione del parametro non deve dipendere dalla numerosità campionaria. Tale condizione è spesso violata quando si considerano campio-ni stratificati. Quando l’interesse è posto negli aspetti comucampio-ni a tutti gli strati della variabilità del fenomeno oggetto di studio, la modellazione di questo ti-po di dati prevede, talvolta, l’introduzione di un parametro proprio di ogni strato per cogliere l’eterogeneità non osservata. Così facendo si introduce nel modello un parametro di disturbo la cui dimensione dipende dalla numerosità campionaria attraverso il numero degli strati. In questo contesto, è noto in letteratura che la verosimiglianza profilo cessa di essere uno strumento valido per l’inferenza. Ciò è dovuto al fatto che la distorsione della sua funzione punteggio aumenta con il crescere del numero degli strati, rendendo lo sti-matore del parametro di interesse distorto e non consistente. Per far fronte a questo problema sono state proposte varie soluzioni. Un esempio è la ve-rosimiglianza profilo modificata di Barndorff-Nielsen (1980,1983) che riduce la distorsione della funzione punteggio attraverso l’introduzione di un fatto-re di modificazione nella funzione di verosimiglianza profilo. Un’alternativa per l’inferenza in presenza di un parametro di disturbo è la verosimiglian-za integrata, oggetto di questa tesi. Attraverso l’integrazione della funzione
il parametro di interesse che godono di buone proprietà.
Nel Capitolo 1 si mostreranno dapprima i concetti base dell’inferenza di verosimiglianza. Successivamente si introdurrà il problema dei parametri di disturbo incidentali e di come le procedure basate sulla verosimiglianza profilo falliscono per via della distorsione della sua funzione punteggio. Si accennerà brevemente alla verosimiglianza profilo modificata, soluzione per ovviare a tale problema. Infine, ampio spazio sarà dedicato alla verosimiglianza inte-grata. Si illustreranno le sue proprietà e di come esse dipendono dalla funzio-ne peso associata al parametro di disturbo. In particolare si mostrerà come la verosimiglianza integrata possa essere approssimata dalla verosimiglianza profilo modificata e, quindi, di come goda delle stesse proprietà asintotiche. Questo accade quando si riparametrizza il modello costruendo un parametro di disturbo almeno ortogonale al parametro di interesse ed usando per esso una funzione peso uniforme. Per tale scopo, poichè la costruzione di para-metri ortogonali è spesso difficoltosa, verrà illustrata la parapara-metrizzazione “Zero-Score-Expectation” (ZSE): essa permette infatti di giungere ad un pa-rametro di disturbo fortemente disconnesso dal papa-rametro di interesse per il quale specificare la funzione peso uniforme. Infine verranno illustrate due alternative alla riparametrizzazione del modello attraverso il metodo ZSE. Esse specificano due funzioni peso costruite a partire dall’espressione della distorsione della funzione punteggio della verosimiglianza profilo con il fine di ridurne la distorsione.
Nel Capitolo 2 si introdurranno le principali caratteristiche dei campioni stratificati e di come usualmente si modella l’eterogeneità non osservata per questo tipo di dati. Inoltre verranno esplicitate tutte le quantità introdotte a livello teorico nel Capitolo 1 per il modello logistico per dati binari stratificati. Infine, il Capitolo 3 sarà dedicato al confronto tra i metodi di stima basati sulla verosimiglianza profilo, sulla verosimiglianza profilo modificata, sulla verosimiglianza integrata costruita attraverso la parametrizzazione ZSE e sulla verosimiglianza integrata costruita con la robust prior e la normal prior. Verranno anche evidenziati alcuni elementi computazionali cruciali
L’inferenza di verosimiglianza
1.1
Introduzione
In questo primo capitolo si introdurranno brevemente i concetti fonda-mentali della teoria della verosimiglianza fisheriana. Quindi, il punto di vista adottato per l’inferenza è quello frequentista: i dati sono delle realizzazioni di variabili casuali e le proprietà delle procedure inferenziali sono determinate sulla base del principio del campionamento ripetuto.
Nei primi paragrafi si dirà cos’è un modello statistico parametrico e si definiranno le principali quantità di verosimiglianza, le loro proprietà ed il loro utilizzo per fini inferenziali. Successivamente si introdurrà il problema dei parametri di disturbo e si illustreranno brevemente alcune soluzioni ad esso come la verosimiglianza profilo e la verosimiglianza profilo modificata. Infine si tratterà con maggior dettaglio come la verosimiglianza integrata possa essere un metodo alternativo alla risoluzione di tale problema.
1.2
Specificazione del modello
Il principale obbiettivo dell’inferenza statistica è quello di individuare
il vero ed ignoto modello probabilistico generatore dei dati, p0
Y, a partire
dall’osservazione di un campione di osservazioni empiriche y = (y1, . . . , yn) ∈
Sia F la famiglia di distribuzioni di probabilità coerenti qualitativamente con l’osservazione di y, realizzazione della variabile casuale Y . La famiglia F
è detta modello statistico e, nel momento in cui p0
Y ∈ F , il modello è detto
correttamente specificato. Fisher (1922) mette in evidenza come il processo di individuazione si articoli in tre fasi:
1. specificazione del modello statistico in modo da cogliere le caratteristi-che salienti dei dati;
2. individuazione tramite procedure statistiche di p0
Y(y) ∈ F ;
3. studio della sensibilità della scelta del modello alla variabilità campio-naria dei dati.
Nella specificazione del modello entra in gioco anche la quantità di in-formazione disponibile a priori riguardante il fenomeno oggetto di studio. Questo porta a diversi modi di specificare il modello:
• specificazione parametrica: si ha a disposizione una quantità di informazione che permette di effettuare delle ipotesi stringenti sul mo-dello. Si ottiene che gli elementi di F sono indicizzabili tramite un numero finito di parametri p reali, ossia:
F = {pY(y, θ) : θ ∈ Θ ⊆ <p},
dove Θ rappresenta lo spazio parametrico in cui può variare il
parame-tro θ e pY(y, θ) è detta funzione del modello. Se il modello è
corretta-mente specificato si ha p0Y(y) = pY(y; θ0) per un valore θ0 ∈ Θ, con θ0
detto vero valore del parametro;
• specificazione semi-parametrica: si ha informazione riguardante solo alcuni aspetti del fenomeno. Gli elementi all’interno di F vengono quindi individuati sia attraverso una componente parametrica che una non parametrica, ossia:
dove θ = (τ, h(·)), con τ ∈ T ⊆ <k , mentre l’insieme di possibili specificazioni della funzione h(·) non è indicizzabile con un numero finito di parametri reali;
• specificazione non parametrica: F è costituita da tutte le distribu-zioni di probabilità aventi supporto coerente con il fenomeno oggetto di studio.
Si vuol far notare come, al diminuire dell’informazione a priori, la specifi-cazione non parametrica permette una maggior flessibilità rispetto a quella parametrica. Chiaramente è necessario tenere a mente il trade-off che esiste tra flessibilità e quantità di informazione che si riesce ad estrarre dai dati. Nel seguito si prenderà in considerazione la sola specificazione parametri-ca, non considerando problemi legati all’indentificabilità e alla non corretta specificazione del modello.
1.3
La funzione di verosimiglianza
Dato un modello statistico parametrico F = {pY(y, θ) : θ ∈ Θ ⊆ <p} per
i dati y ∈ Y, si può considerare pY(y, θ) come funzione solamente di θ, con y
fissato al valore osservato. La funzione che ne deriva, L : Θ → <+, definita
come
L(θ) ≡ pY(y; θ) = c(y)p(y; θ) (1.1)
è detta funzione di verosimiglianza, dove il termine moltiplicativo ed indipendente da θ, indicato da c(y) in (1.1), può essere trascurato, senza alterare le conclusioni inferenziali. Grazie alla sua interpretazione essa può essere utilizzata per l’inferenza sul parametro di interesse θ: presi due valori θ0, θ00 ∈ Θ, alla luce delle osservazioni y, il valore θ0 è più verosimile di θ00 se
L(θ0) > L(θ00). Detto in altro modo, è più verosimile che i dati siano stati
La trasformazione logaritmica della funzione di verosimiglianza, più age-vole da trattare, prende il nome di funzione di log-verosimiglianza:
l(θ) = log L(θ) = c0(y) + log p(y; θ) (1.2)
dove, se L(θ) = 0, si definisce l(θ) = −∞. Come prima, il trascurare un
termine additivo ed indipendente da θ, indicato da c0(y) in (1.2), non altera
le conclusioni inferenziali. Data la monotonicità della trasformazione, le con-clusioni inferenziali che si ottengono a partire da (1.1) sono le stesse a cui si giunge usando (1.2).
Data l’interpretazione della funzione di verosimiglianza, risulta logico
de-finire la stima di massima verosimiglianza come quel valore ˆθ ∈ Θ tale
che L(ˆθ) ≥ L(θ) per ogni θ ∈ Θ. Per la monotonicità della trasformazione
logaritmica, ˆθ sarà un massimo anche della funzione di log-verosimiglianza.
1.4
Problema regolare di stima
Le proprietà delle procedure inferenziali basate sulla funzione di verosimi-glianza si possono ottenere sotto alcune ipotesi, che definiscono il cosiddetto problema regolare di stima (Azzalini, 2001, Paragrafo 3.2.3). Preso un modello statistico parametrico, tali ipotesi sono:
• presenza di verosimiglianza regolare, ossia:
– lo spazio campionario Y non dipende dal parametro θ; – lo spazio parametrico Θ è un insieme aperto;
– la funzione di log-verosimiglianza è differenziabile almeno tre volte con continuità;
• il modello è identificabile (esiste cioè un’associazione biunivoca tra gli elementi di F e Θ) e correttamente specificato;
• è possibile scambiare l’operazione di integrazione rispetto a y con quella di derivazione rispetto a θ.
1.5
Quantità di verosimiglianza
In un modello con verosimiglianza regolare, le informazioni riguardanti
l’andamento della funzione di verosimiglianza sono contenute in ˆθ e nelle
derivate parziali di l(θ) rispetto alle componenti di θ.
Si definisce quindi la funzione punteggio o funzione score il vettore delle derivate parziali prime della funzione di log-verosimiglianza e si indica con lθ(θ) = lθ(θ; y) = ∂ ∂θl(θ) = lθ1(θ), . . . , lθp(θ) T , dove lθr = ∂
∂θrl(θ). In un modello con verosimiglianza regolare, risulta logico
pervenire alla stima di massima verosimiglianza individuando la soluzione delle equazioni di verosimiglianza, definite come:
lθ(θ) = 0.
L’informazione osservata è definita come la matrice p×p delle derivate parziali seconde cambiate di segno e si indica come:
j(θ) = −lθθ(θ) = −∂ 2l(θ) ∂θr∂θs .
La sua interpretazione è la seguente: maggiore è j(ˆθ) in un senso matriciale,
tanto più nettamente si distinguono nello spazio parametrico regioni con ele-vata verosimiglianza da regioni con modesta verosimiglianza (Pace e Salvan, 2001, Paragrafo 3.3).
La matrice di informazione attesa è invece definita come
i(θ) = Eθ{j(θ)} = −Eθ ∂2l(θ) ∂θr∂θs .
1.6
Teoria esatta ed asintotica della
verosimi-glianza
Si riportano nel seguito brevemente le principali proprietà della funzione di verosimiglianza. Per maggiori approfondimenti e per le dimostrazioni si rimanda a Pace e Salvan, 2001, Capitoli 5 e 6.
1.6.1
Trasformazioni biettive
La funzione di verosimiglianza è invariante rispetto a trasformazioni
biet-tive dei dati. Ciò significa che, dato il modello statistico F = {pY(y, θ) : θ ∈
Θ ⊆ <p}, il modello statistico FT = {pT(t, θ) : θ ∈ Θ ⊆ <p}, ottenuto per
t = g(y), produce una verosimiglianza equivalente a quella ottenuta a partire da F .
La funzione di verosimiglianza è invariante rispetto a riparametrizzazioni del modello: sia F un modello statistico parametrico con parametro θ e sia ψ = ψ(θ) una trasformazione biettiva del parametro, con inversa θ = θ(ψ).
La funzione di verosimiglianza nella nuova parametrizzazione, LΨ(ψ), è legata
alla funzione di verosimiglianza nella vecchia parametrizzazione, LΘ(θ), dalla
relazione
LΨ(ψ) = LΘ(θ(ψ)).
Segue che la stima di massima verosimiglianza di ψ si può ottenere a partire da quella per θ secondo la seguente relazione:
ˆ
ψ = ψ(ˆθ).
Quest’ultima proprietà è nota con il nome di equivarianza della stima di massima verosimiglianza.
1.6.2
Diseguaglianza di Wald e identità di Bartlett
La diseguaglianza di Wald, sotto deboli condizioni di regolarità,
per-mette di dimostrare che lo stimatore di massima verosimiglianza, ˆθn(Y ),
le proprietà asintotiche delle procedure d’inferenza basate sulla funzione di verosimiglianza. La diseguaglianza di Wald afferma che:
Eθ{l(θ; Y )} > Eθ{l(θ0; Y )}, θ0 6= θ. Sotto le ipotesi di problema regolare di stima si ha che:
• prima identità di Bartlett:
Eθ{lθ(θ; Y )} = 0 per ogni θ ∈ Θ;
• seconda identità di Bartlett:
V arθ{lθ(θ; Y )} = Eθ{−lθθ(θ; Y )} = i(θ) per ogni θ ∈ Θ.
1.6.3
Proprietà asintotiche dello stimatore di massima
verosimiglianza
Sfruttando i risultati illustrati in precendenza si elencano le seguenti pro-prietà relative allo stimatore di massima verosimiglianza per n → ∞, valide sotto campionamento casuale semplice:
• consistenza:
ˆ θn(Y )
p → θ sotto θ, vero valore del parametro; • normalità asintotica:
ˆ θn(Y )
d
→ Np(θ, i(θ)−1) sotto θ, vero valore del parametro.
Per maggiori dettagli si veda Pace e Salvan, 2001, Paragrafo 6.2 e Pace e Salvan, 1997, Paragrafo 3.4.
1.7
Inferenza basata sulla verosimiglianza
Data la consistenza dello stimatore di massima verosimiglianza, esso si po-ne come soluziopo-ne al problema di individuaziopo-ne dell’elemento più verosimile alla luce dell’informazione campionaria all’interno di F . Tale elemento sarà
quello indicizzato da ˆθ, stima di massima verosimiglianza. La teoria della
verosimiglianza, quindi, fornisce strumenti per i problemi di stima puntua-le, ma anche per i problemi di stima intervallare e di verifica di ipotesi. Questo è possibile in quanto, a partire dalle quantità di verosimiglianza, si possono ottenere delle quantità pivotali approssimate, ossia delle quantità che sono funzioni dei dati e del parametro, ma la cui distribuzione asintotica è nota indipendentemente dal valore del parametro.
La statistica log-rapporto di verosimiglianza
W (θ) = 2{l(ˆθ) − l(θ)}
può essere utilizzata sia per l’individuazione di regioni di confidenza sia per
la verifica di ipotesi. Nello specifico, poiché W (θ)∼ χ· 2
p sotto θ, una regione
di confidenza per il parametro θ di livello nominale 1 − α ha forma: ˆ
Θ(y) = {θ ∈ Θ : W (θ) < χ2
p;1−α}.
Per verificare invece il sistema di ipotesi H0 : θ = θ0 contro l’alternativa
H1 : θ 6= θ0, si può sfruttare il fatto che valori grandi di W (θ0) sono critici
per l’ipotesi nulla. Il test W (θ0) prende il nome di test di Wilks ed è
distribuito asintoticamente come un chi-qudrato con p gradi di libertà, dove p è come al solito la dimensione del parametro.
Ulteriori statistiche basate su quantità di verosimiglianza, equivalenti
asintoticamente a W (θ0) sono il test di Rao e il test di Wald che
ri-spettivamente sono definiti come:
Wu(θ0) = lθ(θ0)i(θ0)−1lθ(θ0) We(θ0) = (ˆθ − θ0)Ti(θ0)(ˆθ − θ0). Il loro utilizzo è il medesimo di W (θ).
Nel momento in cui p = 1, si possono condurre test di ipotesi per H0 : θ = θ0 contro alternative unilaterali H1dx : θ > θ0 e H1sx : θ < θ0. Le statistiche utili a questo scopo sono
r(θ0) = sgn(ˆθ − θ0)pW (θ0), ru(θ0) = lθ(θ0)pi(θ0), re(θ0) = (ˆθ − θ0)pi(θ0).
Tutte e tre hanno distribuzione asintotica nulla normale standard, sotto θ0.
Benchè le statisiche basate su We(θ) abbiano il pregio dell’immediata
in-tepretabilità, spesso portano ad includere nelle regioni di confidenza elementi non appartenenti allo spazio parametrico. Inoltre tali statistiche non sono invarianti rispetto alla parametrizzazione del modello. Per quanto riguarda
le statistiche basate su Wu(θ), esse non richiedono il calcolo della stima di
massima verosimiglianza ma sono spesso instabili numericamente. Segue che le statisiche da preferire sono generalmente quelle basate sul log-rapporto di verosimiglianza.
1.8
Parametri di disturbo
Accade spesso nei modelli statistici parametrici che non tutte le
compo-nenti del parametro θ ∈ Θ ⊆ <p abbiano la stessa importanza da un punto di
vista inferenziale. Capita quindi che il parametro θ possa essere scomposto in due componenti, cioè θ = (ψ, λ). L’interesse primario è focalizzato sul parametro ψ, k-dimensionale, con 1 ≤ k ≤ p. Il parametro λ, con p − k componenti comunque ignote, serve per garantire una maggior flessibilità al modello e prende il nome di parametro di disturbo. Se il vero valore del
parametro di disturbo, λ0, fosse noto, per l’inferenza su ψ si utilizzerebbe la
funzione di verosimiglianza L(ψ) = L(ψ, λ0), del sottomodello con λ noto. Il
punto è che il parametro λ è ignoto e deve essere comunque stimato.
Una soluzione è quella di ricorrere ad una pseudo-verosimiglianza per
inoltre, che tale pseudo-verosimiglianza mantenga le proprietà usuali elencate in precendenza della funzione di verosimiglianza. Si possono verificare due situazioni:
1. la pseudo-verosimiglianza è una verosimiglianza propria, e ne mantiene le usuali proprietà, nel momento in cui è possibile ottenere un modello ridotto a partire da quello originale in cui le funzioni di densità dipen-dono solo dal parametro di interesse ψ. Si riesce cioè a giungere ad una fattorizzazione della verosimiglianza del tipo
L(ψ, λ) = L1(ψ)L2(ψ, λ),
e l’informazione su ψ in L2(ψ, λ) è, secondo opportune definizioni,
trascurabile;
2. non esiste un modo per far dipendere le funzioni di densità dal solo parametro di interesse e le proprietà della verosimiglianza che ne deriva devono essere studiate di caso in caso. La verosimiglianza profilo e le sue modifiche rientrano in questo gruppo e verranno introdotte nel seguito. Per approfondimenti sulle tecniche di riduzione si rimanda a Pace e Salvan (1997, Capitolo 4).
Un altro aspetto fondamentale del parametro di disturbo è la sua dimen-sione. Può accadere, infatti, che la sua dimensione sia legata alla numerosità campionaria. Si parla in questo caso di parametri incidentali (Neyman e Scott, 1948). Venendo a mancare una delle condizioni di regolarità del proble-ma di stiproble-ma, le proprietà delle procedure inferenziali devono essere studiate di caso in caso. In termini matematici, preso ad esempio un campione causale
semplice y = (y1, . . . , yn) con funzione di densità congiunta:
pY(y; θ) = n Y i=1
pYi(yi; θi),
si ha che θi = (ψ, λi), i = 1, . . . , n. Si può notare come la dimensione del
Nel Capitolo 2 si introdurranno i campioni stratificati. Si potrà notare come in essi sia presente un problema di parametri incidentali nel momento in cui si considera una speficiazione ad effetti fissi per cogliere le caratteristiche proprie di ciascuno strato.
Si illustrano ora alcune funzioni di pseudo-verosimiglianza che permettono di stimare il parametro di interesse ψ in presenza di parametri di disturbo.
1.9
Verosimiglianza profilo e sue modifiche
Dato un modello statistico parametrico, sia θ = (ψ, λ) ∈ Θ ⊆ <p il
para-metro, con ψ parametro di interesse k-dimensionale e λ parametro di disturbo p−k-dimensionale. L’inferenza su ψ può essere basata sulla verosimiglianza profilo definita come:
LP(ψ) = L(ψ, ˆλψ)
dove ˆλψ rappresenta la stima di massima verosimiglianza di λ per ψ fissato.
Si indica invece con lP(ψ) = log LP(ψ) la funzione di log-verosimiglianza
profilo. In linea teorica una qualsiasi stima di λ andrebbe bene ma vi sono delle ragioni per ritenere che la stima di massima verosimiglianza di λ per
ψ fissato, ˆλψ, sia da preferire (Pace e Salvan, 1997, Paragrafo 4.6). Sotto
condizioni di regolarità, ˆλψ è soluzione dell’equazione
lλ(ψ, λ) = ∂l(ψ, λ)/∂λ = 0,
dove lλ(ψ, λ) è il vettore p − k-dimensionale delle derivate parziali prime della
funzione di log-verosimiglianza.
Poichè la pseudo-verosimiglianza LP(ψ) non deriva direttamente da una
funzione di densità, essa non è una verosimiglianza propria. Gode comunque di alcune proprietà desiderabili come:
• la stima di massima verosimiglianza profilo è la stessa della stima di
massima verosimiglianza di ψ ottenuta a partire da L(ψ, λ), ˆψ, ossia
dove ˆθ = ( ˆψ, ˆλ);
• la matrice di informazione osservata profilo è definita come:
jP(ψ) = − ∂2 ∂ψ∂ψTlP(ψ) = − ∂2 ∂ψ∂ψTl(ψ, ˆλψ); • dato che ∂ ∂ψlP(ψ) = lψ(ψ, ˆλψ) + lλ(ψ, ˆλψ) ∂ ∂ψ ˆ λψ, la funzione punteggio profilo è definita come
∂
∂ψlP(ψ) = lψ(ψ, ˆλψ). Questo segue dal fatto che lλ(ψ, ˆλψ) = 0;
• il test log-rapporto di verosimiglianza profilo,
WP(ψ) = 2{lP( ˆψ) − lP(ψ)} = 2{l( ˆψ, ˆλ) − l(ψ, ˆλψ)},
coincide con il test log-rapporto di verosimiglianza ottenuto a partire da L(ψ, λ). Ne mantiene quindi le stesse proprietà sotto le usuali
con-dizioni di regolarità. In particolare ha distribuzione asintotica nulla χ2k,
dove k è la dimensione del parametro di interesse.
La verosimiglianza profilo presenta anche dei problemi. La funzione pun-teggio non ha valore atteso nullo e sotto condizioni di regolarità il suo valore atteso è di ordine O(1) (Pace e Salvan, 1997, Paragrafo 9.4). Nel caso di pa-rametri incidentali invece il valore atteso della funzione punteggio può essere di ordine O(n): questo può far venire meno la consistenza dello stimatore di ψ. Inoltre, se i dati contengono poca informazione riguardante i parametri di disturbo, non è ragionevole usare la verosimiglianza profilo in quanto ciò
corrisponde ad assumere che λ sia uguale a ˆλψ.
Sono state proposte di conseguenza delle modifiche alla verosimiglian-za profilo al fine di sopperire alla mancanverosimiglian-za di informazione riguardante i
parametri di disturbo e di ottenere delle stime migliori per il parametro di interesse.
1.9.1
Verosimiglianza profilo modificata
La verosimiglianza profilo modificata, come definita da Barndorff-Nielsen (1980, 1983), ha espressione
LM(ψ) = LP(ψ)M (ψ). (1.3)
dove il fattore di modificazione M (ψ) è definito come
M (ψ) = |lλ;ˆλ(ψ, ˆλψ; ˆψ, ˆλ, a)|−1|jλλ(ψ, ˆλψ; ˆψ, ˆλ, a)|1/2, dove nel primo determinante compare la derivata mista
lλ;ˆλ(ψ, ˆλψ; ˆψ, ˆλ, a) = ∂2
∂λ∂ ˆλTl(ψ, ˆλψ; ˆψ, ˆλ, a),
in cui è richiesta l’individuazione di una statistica ancillare a, sia essa esatta
o approssimata, al fine di costruire la statistica sufficiente minimale ( ˆψ, ˆλ, a),
attraverso cui riformulare la verosimiglianza. Una statistica a è detta ancil-lare se la sua distribuzione è indipendente dal parametro θ e se la statistica
sufficiente minimale è in relazione biunivoca con (ˆθ, a), dove ˆθ è la stima di
massima verosimiglianza di θ.
La verosimiglianza profilo modificata si pone come un’approssimazione ad una verosimiglianza marginale o condizionata, qualora esistano (Barndorff-Nielsen e Cox 1994, Paragrafo 8.2). Nel caso in cui non esistesse nè una verosimiglianza marginale nè una condizionata, la verosimiglianza profilo modificata permette di giungere a delle equazioni di stima con proprietà migliori rispetto alla verosimiglianza profilo. Uno degli aspetti critici resta il reperimento di una statistica ancillare esatta o approssimata, che può essere individuata con semplicità solo se il modello sottostante appartiene ad una famiglia esponenziale o ad una famiglia di gruppo.
Una soluzione per ovviare al problema di reperimento di un’opportuna statistica ancillare è quello di definire il fattore di modificazione come fatto in Severini (1998):
M (ψ) = |jλλ(ψ, ˆλψ)| 1/2 |Iλλ( ˆψ, ˆλ; ψ, ˆλψ)|
(1.4)
dove ( ˆψ, ˆλ) è la stima di massima verosimiglianza dei parametri, jλλ è il
blocco-λλ della matrice di informazione osservata e Iλλ è definito come
Iλλ( ˆψ, ˆλ; ψ, ˆλψ) = Eψ0,λ0lλ(ψ0, λ0)lλ(ψ1, λ1)
(ψ0= ˆψ,λ0=ˆλ,ψ1=ψ,λ1=ˆλψ).
La costruzione di una verosimiglianza profilo modificata usando il fattore di modificazione sopra esposto porta ad approssimare le derivate nello spa-zio campionario tramite dei valori attesi. Rimangono tuttavia inalterate le proprietà asintotiche, che sono paragonabili a quelle della profilo modificata di Barndorff-Nielsen (1980, 1983).
1.10
Verosimiglianza integrata
La verosimiglianza integrata si pone come alternativa alla profilo e sue modifiche per risolvere il problema dei parametri di disturbo. Riprendendo la notazione precedente, l’inferenza sul parametro di interesse ψ tramite la funzione di verosimiglianza integrata è basata sull’eliminare il parametro di disturbo λ tramite integrazione utilizzando una qualche funzione peso per λ.
Sia θ = (ψ, λ) ∈ Θ ⊆ <p il parametro di un modello statistico
para-metrico. Denotiamo con π(λ|ψ) una funzione non negativa su Λ, spazio
parametrico del parametro di disturbo, che prende il nome di funzione di densità condizionata a priori. La funzione di verosimiglianza integrata rispetto alla a priori π è definita come:
LI(ψ) =
Z
Λ
L(ψ, λ)π(λ|ψ)dλ. (1.5)
Si vuol far notare come non è necessario che π(·) sia una funzione di densità propria in quanto l’ottica adottata non è quella bayesiana.
Uno dei principali vantaggi è che la funzione di verosimiglianza integra-ta è sempre disponibile, cosa che non accade sempre per le verosimiglianze marginali e condizionate. Inoltre essa è basata su una media e non su una massimizzazione, con una conseguente maggior stabilità numerica. Resta comunque il problema della scelta della densità a priori, la quale può influen-zare le proprietà della verosimiglianza integrata (Severini, 2007).
Per lo studio delle proprietà della verosimiglianza integrata è nesessa-rio introdurre il concetto di parametri “disconnessi” e di come si possa costruire un parametro di disturbo disconnesso dal parametro di interesse.
1.10.1
Parametrizzazione Zero Score Expectation
Supponiamo che tramite un’opportuna riparametrizzazione siamo giunti ad ottenere γ, parametro disconnesso dal parametro di interesse ψ. Diremo che γ è debolmente disconnesso da ψ se
ˆ
γψ = ˆγ + O(n−1)
per variazioni di ψ del tipo ψ = ˆψ + O(n−1/2), dove ˆψ e ˆγ sono le stime
di massima verosimiglianza dei parametri. Parametri debolmente discon-nessi si possono ottenere a partire dalla parametrizzazione ortogonale: dato θ = (ψ, λ), ψ e λ sono detti ortognali se il blocco-ψλ della matrice di
infor-mazione attesa è nullo, cioè iψλ = 0. Segue che ˆψ e ˆλ sono asintoticamente
independenti (Pace e Salvan, 1997, Paragrafo 4.7). L’individuazione dei pa-rametri ortogonali richiede la risoluzione di equazioni differenziali e ciò può essere complicato. Inoltre, non sempre la soluzione esiste, a meno che ψ non sia scalare (De Bin, Sartori e Severini, 2015).
Una possibile soluzione è quella di ricorrere alla parametrizzazione
Zero-Score-Expectation (ZSE), descritta successivamente. Oltre ad essere più
agevole da calcolare rispetto alla parametrizzazione ortogonale, tale para-metrizzazione garantisce che il parametro di disturbo individuato sia forte-mente disconnesso dal parametro di interesse. Nello specifico, per forteforte-mente
disconnesso si intende che ˆ
γψ = ˆγ + O(n−1/2),
per variazioni di ψ del tipo ψ − ˆψ = O(1).
La costruzione di un parametro di disturbo fortemente disconnesso dal
parametro di interesse ψ si può ottenere come segue. Sia φ ≡ φ(ψ, λ; ˆψ) un
parametro che dipende dai dati tramite la stima di massima verosimiglianza
di ψ, ˆψ. La soluzione dell’equazione
E{lλ(ψ, λ); ˆψ, φ} ≡ Eψ0,λ0{lλ(ψ, λ)}|(ψ0,λ0)=( ˆψ,φ)= 0
in φ, per (ψ, λ, ˆψ) fissato, dà φ(ψ, λ; ˆψ). Ques’ultima funzione è detta
para-metrizzazione ZSE. Si dimostra che ˆφ = ˆλ e che φ è fortemente disconnesso
da ψ (Severini, 2007).
1.10.2
Proprietà della verosimiglianza integrata
Come accennato in precedenza, le proprietà della verosimiglianza integra-ta dipendono dalla scelintegra-ta della a priori. In particolare, nel momento in cui si riesce a costruire un parametro di disturbo γ, almeno debolmente discon-nesso dal parametro di interesse ψ, la distribuzione a priori dovrebbe essere scelta in modo che i due parametri siano indipendenti. Questo permette di elencare le seguenti proprietà della verosimiglianza integrata:
• sia γ un parametro per cui vale la fattorizzazione L(θ) = L1(ψ)L2(γ).
Se γ è un parametro almeno debolmente disconnesso da ψ, e la distri-buzione a priori è scelta in modo tale per cui ψ e γ sono indipendenti,
allora L1(ψ) può essere utilizzata per l’inferenza su ψ e coincide con
la verosimiglianza integrata. Si può notare, inoltre, come una tale
parametrizzazione e scelta della a priori rendano la verosimiglianza in-tegrata indipendente dalla a priori utilizzata. Per maggiori dettagli si veda Severini (2007);
• si indichi con lI(ψ) = log LI(ψ) e con lIψ(ψ) = ∂lI(ψ)/∂ψ. In generale
Eθ{lIψ(ψ)} e Eθ{lIψ(ψ) + lIψ(ψ)lIψ(ψ)T} sono di ordine O(1) per n →
∞. Nel momento in cui si utilizza una parametrizzazione tale per cui γ è debolmente disconnesso da ψ, e la priori è tale per cui i parametri
sono indipendenti, si ha che Eθ{lIψ(ψ)} è di ordine O(n−1). Se invece γ
e ψ sono fortemente disconnessi, e come al solito la priori è tale per cui i
parametri sono indipendenti, si ha anche che Eθ{lIψ(ψ)+lIψ(ψ)lIψ(ψ)T}
è di ordine O(n−1). Per maggiori dettagli si veda Severini (1998).
Tutto ciò suggerisce quindi di costruire un parametro di disturbo forte-mente disconnesso dal parametro di interesse e successivaforte-mente di utilizzare una densità a priori tale per cui i due parametri siano indipendenti. Di conse-guenza, ottenuto, ad esempio, con la parametrizzazione ZSE il parametro di disturbo φ, si può specificare per esso una a priori uniforme. Facendo così si può mettere in evidenza il legame esistente tra la verosimiglianza integrata, la profilo modificata e sue approssimazioni.
Sia LM(ψ) la verosimiglianza profilo modificata secondo l’espressione (1.3)
e sia ¯LM(ψ) la verosimiglianza profilo modificata usando il fattore di
modi-ficazione (1.4). Nell’Appendice 2 di Severini (2007), si mostra che, presi due parametri ψ e γ fortmente disconnessi e fissata una a priori tale per cui essi siano indipendenti, vale
LI(ψ) = c ¯LM(ψ){1 + O(n−1/2)O(|ψ − ˆψ|)}, (1.6)
dove c è una costante indipendente da ψ. Di conseguenza, dalla relazione ¯
LM(ψ) = cLM(ψ){1 + O(n−1/2)O(|ψ − ˆψ|)},
si ha che
LI(ψ) = cLM(ψ){1 + O(n−1/2)O(|ψ − ˆψ|)},
dove c è una ancora una costante indipendente da ψ.
Poichè la verosimiglianza integrata può essere approssimata da ¯LM, essa
gode delle stesse proprietà asintotiche. Ad esempio, come evidenziato pri-ma, la verosimiglianza integrata è caratterizzata dalla non distorsione della
funzione punteggio e della matrice di informazione attesa. L’uso di una a priori uniforme rende inoltre la verosimiglianza integrata invariante rispetto a parametrizzazioni. Il fatto poi che la priori sia scelta in modo tale per cui il parametro di interesse, ψ, ed il parametro di disturbo, φ, fortemente discon-nessi, siano indipendenti, rende la verosimiglianza integrata poco sensibile alla scelta della a priori. Questo accade poichè l’approssimazione (1.6) vale per ogni scelta di π(φ). Per maggiori dettagli si rimanda a Severini (2007, Paragrafo 5).
1.10.3
Verosimiglianza integrata per campioni
stratifi-cati
Consideriamo ora un campione stratificato y = (y1, . . . , yq), dove yi è
rea-lizzazione di una variabile casuale Yidi dimensione micon densità pi(yi; ψ, λi).
Supponiamo che Y1, . . . , Yqsiano indipendenti ed indichiamo con ψ il
parame-tro di interesse e con λ = (λ1, . . . , λq) il parametro di disturbo. Assumiamo
inoltre che tutti i parametri di disturbo abbiano lo stesso spazio parametrico Λ.
In un contesto del genere, può accadere che il numero di parametri di
disturbo sia molto più grande rispetto alla dimensione dello strato.
Co-me anticipato, questo porta a risultati scadenti se si utilizzano i Co-metodi di verosimiglianza legati alla semplice verosimiglianza profilo. Nel seguito si mostreranno le proprietà asintotiche a due indici della verosimiglianza integrata. Essa può essere quindi una valida soluzione al problema dei pa-rametri incidentali o, più in generale, quando il numero degli strati è molto più grande della dimensione dello strato.
Proprietà asintotiche a due indici Sia L(i)(ψ, λ
i) = pi(yi; ψ, λi) il contributo dell’i-esimo strato alla verosi-miglianza. Poichè abbiamo assunto che gli strati sono tra loro indipendenti, si ha che L(ψ, λ) = q Y i=1 L(i)(ψ, λi).
Di conseguenza, la log-verosimiglianza diventa l(ψ, λ) = q X i=1 l(i)(ψ, λi), dove l(i)(ψ, λ
i) = log L(i)(ψ, λi). Indicando con ˆλiψ la stima di massima
ve-rosimiglianza di λi per ψ fissato, si può definire la log-verosimiglianza profilo
come lp(ψ) = q X i=1 l(i)(ψ, ˆλiψ).
Per semplicità di notazione si assume che il campione stratificato sia
bi-lanciato, ossia mi = m, per i = 1, . . . , q. I risultati di seguito elencati
valgono anche se le dimensioni degli strati differiscono tra di loro, fintanto
che mi = Kim, con A ≤ Ki ≤ B, dove A e B sono due costanti positive
(Sartori, 2003). Questo fa si che gli strati siano asintoticamente bilanciati,
cioè che ogni mi è di ordine O(m).
Come anticipato, le proprietà della verosimiglianza integrata dipendono da come viene scelta la priori. Poichè abbiamo assunto che gli strati sono
indipendenti, è logico assumere che anche i parametri di disturbo λi, propri
di ogni strato, siano indipendenti. Questo porta a specificare una a priori per l’intero parametro di disturbo λ del tipo
π(λ|ψ) = q Y
i=1
π(λi|ψ). (1.7)
Di conseguenza la verosimiglianza integrata assume la forma
LI(ψ) = q Y i=1 Z Λ L(i)(ψ, λi)π(λi|ψ)dλi. (1.8)
L’utilizzo della parametrizzazione ZSE, illustrata in precedenza, permette di ridurre la distorsione della funzione punteggio. In particolare, si ottiene che
Eθ{lIψ(ψ)} = O(
q m),
dove lIψ(ψ) = ∂lI(ψ)/∂ψ. Tale risultato è valido anche usando una para-metrizzazione ortogonale. Viceversa, usando una qualsiasi altra parametriz-zazione, la distorsione è di ordine O(q). Questo è uno dei motivi per cui le proprietà asintotiche a due indici verranno ricavate ipotizzando l’utilizzo della parametrizzazione ZSE.
Siano lI(i)(ψ) e l(i)M(ψ) rispettivamente la log-verosimiglianza integrata e la log-verosimiglianza profilo modificata per lo strato i-esimo. Data l’indipen-denza degli strati e dei parametri di disturbo segue che
lI(ψ) = q X i=1 l(i)I (ψ) e lM(ψ) = q X i=1 l(i)M(ψ).
Sia ˆψM il punto di massimo di lM(ψ). In Sartori (2003) si dimostra che,
indicando con ψ il vero valore del parametro, ˆ
ψM = ψ + Op(1/
√
mq) se q/m3 = o(1)
mentre ˆψM = ψ + Op(1/m2) altrimenti.
Sfruttando la relazione esistente tra la verosimiglianza integrata e la pro-filo modificata nel momento in cui si utilizza la parametrizzazione ZSE con una a priori uniforme, De Bin, Sartori e Severini (2015) determinano le se-guenti proprietà della verosimiglianza integrata in un contesto asintotico a due indici.
• Per ψ = ˆψM + Op(1/
√
mq) e cioè per q/m3 = o(1) si hanno le seguenti
approssimazioni: lI(ψ) = lM(ψ) + Op( r q m3) + Op( 1 m) 1 √ mqlIψ(ψ) = 1 √ mqlM ψ(ψ) + Op( r q m3) + Op( 1 m) 1 mqlIψψ(ψ) = 1 mqlM ψψ(ψ) + Op( 1 m).
• Sia ˆψI il punto di massimo di lI(ψ). Si dimostra che lo stimatore ˆψI ha
la stessa distribuzione asintotica di ˆψM, se q/m3 = o(1) (De Bin, Sartori
e Severini, 2015). In particolare, sfruttando le proprietà asintotiche di ˆ
ψM, descritte in Sartori (2003), e la relazione
√ mq( ˆψI− ψ) = √ mq( ˆψM − ψ) + Op( r q m3) + Op( 1 m), si ha che ˆψI = ψ + Op(1/ √ mq) se q/m3 = o(1) mentre ˆψI = ψ +
Op(1/m2) altrimenti. Per confronto, lo stimatore di massima
verosi-miglianza, ˆψ, soddisfa ˆψ = ψ + Op(1/
√
mq) se q/m = o(1) e ˆψ =
ψ + Op(1/m) altrimenti. Questo mette in luce come, al fine di
garanti-re la stessa pgaranti-recisione, lo stimatogaranti-re di massima verosimiglianza necessiti che la dimensione degli strati, m, cresca alla stessa velocità del
nume-ro degli strati, q. Lo stimatore ˆψI invece richiede che la dimensione
degli strati cresca più velocemente di q1/3. Quindi, in contesti in cui
il numero degli strati è molto maggiore della dimensione degli strati, lo stimatore che deriva dalla verosimiglianza integrata è migliore dello stimatore di massima verosimiglianza e paragonabile asintoticamente a quello che deriva dalla profilo modificata.
• Il test log-rapporto di verosimiglianza
WI(ψ) = 2{lI( ˆψI) − lI(ψ)},
ha distribuzione asintotica chi-quadrato con p gradi di libertà, dove p è l’usuale dimensione del parametro di interesse nel momento in cui
q/m3 = o(1). Se p = 1,
RI(ψ) = sgn( ˆψI− ψ) p
WI
ha distribuzione asintotica normale standard, sempre se q/m3 = o(1).
Per confronto, il test log-rapporto di verosimiglianza basato sulla pro-filo ha distribuzione asintotica chi-quadrato con p gradi di libertà se q/m = o(1). Ancora una volta, le procedure basate sulle
verosimiglian-za integrata forniscono risultati migliori rispetto alla profilo quando la dimensione del parametro di disturbo risulta essere molto più grande della dimensione degli strati.
Alternative alla parametrizzazione ZSE
Come abbiamo visto, l’utilizzo della parametrizzazione ZSE assieme ad una a priori uniforme permette di giungere a procedure statistiche basa-te sulla verosimiglianza inbasa-tegrata che godono di buone proprietà
asinto-tiche. Esistono comunque delle alternative che non richiedono di dover
riparametrizzare il modello.
Arellano e Bonhomme (2009) propongono infatti delle distribuzioni a priori che dipendono dai dati, le quali permettono di ridurre comunque la distorsione della funzione punteggio, senza ricorrere a riparametrizzazioni. I due autori mostrano come la distorsione della funzione punteggio per l’i-esimo strato, per una qualsiasi distribuzione a priori, abbia espressione:
bi(ψ0) = ∂ ∂ψ ψ0 log πi(ˆλiψ|ψ) − ∂ ∂ψ ψ0 log(Eθ0−l (i) λiλi(ψ, ˆλiψ) ×Eθ0[l (i) λi(ψ, ˆλiψ)] 2 −1/2 ),
dove θ0 = (ψ0, λ0) è il vero valore del parametro e πi(·) è la priori per
l’i-esimo strato. Di conseguenza, una a priori riduce la distorsione nel momento in cui: ∂ ∂ψ ψ 0 log πi(ˆλiψ|ψ) = ∂ ∂ψ ψ 0 log(Eθ0−l (i) λiλi(ψ, ˆλiψ) ×Eθ0[l (i) λi(ψ, ˆλiψ)] 2 −1/2 ) +O(1 m).
Sostituendo, ad esempio, la stima di massima verosimiglianza al vero
pa-rametro ignoto θ0, si possono stimare consistentemente le quantità attese
Eθ0{−l
(i)
λiλi(ψ, λi)} e Eθ0{[l
(i)
λi(ψ, λi)]
2} con ˆE{−l(i)
λiλi(ψ, λi)} e ˆE{[l
(i)
λi(ψ, λi)]
Si ottiene che la seguente a priori riduce la distorsione: πiR(λi|ψ) ∝ ˆE{−l (i) λiλi(ψ, λi)}[ ˆE{[l (i) λi(ψ, λi)] 2}]−1/2 . (1.9)
Sempre in Arellano e Bonhomme (2009, Paragrafo 3.2) viene illustrata un’altra distribuzione a priori che riduce la distorsione della funzione pun-teggio basata sulla densità di una normale. Un vantaggio di questa a priori è che, a differenza di (1.9), è una distribuzione propria e quindi, almeno tec-nicamente, può essere utilizzata in un contesto bayesiano. Tale a priori ha la seguente espressione:
πiN(λi|ψ) = N ˆλiψ, dV ar(ˆλiψ), (1.10)
dove
d
V ar(ˆλiψ) = Iλ2iλi( ˆψ, ˆλi; ψ, ˆλiψ)j
−2
λiλi(ψ, ˆλiψ)j
−1
λiλi( ˆψ, ˆλi),
in cui Iλi,λi è lo stesso usato per la costruzione della profilo modificata con
fattore di modificazione pari a (1.4), solo che riferito allo strato i-esimo. L’e-pressione per la varianza della densità (1.10) si può ottenere a partire da Pace e Salvan (2006, Formula (9)).
Al momento, non esistono confronti in letteratura tra la diverse verosimi-glianze integrate illustrate in precedenza. Nei capitoli seguenti, tale confronto verrà presentato per modelli stratificati per dati binari.
Modello logistico per campioni
stratificati
2.1
Introduzione
In questo capitolo si introdurranno le principali caratteristiche di un cam-pione stratificato e le problematiche ad esso associato. Successivamente l’at-tenzione verrà posta nei modelli per dati binari ed in particolare nel modello logistico per campioni stratificati. Quindi, per questo specifico modello, ver-ranno illustrate tutte le quantità introdotte a livello teorico nel Capitolo 1.
2.2
Campioni stratificati
Il campionamento stratificato è un metodo che permette di campionare le unità statistiche di una popolazione. Tale metodo consiste nel suddividere la popolazione in strati omogenei al loro interno e disgiunti tra di loro. Suc-cessivamente le unità statistiche vengono campionate all’interno di ciascuno strato. In questo modo si riescono, in generale, ad ottenere stime più precise sfruttando il fatto che si evita il problema del sovra-campionamento di alcuni tipi di unità statistiche, riducendo così l’errore campionario. Da un punto di vista econometrico i dati di panel costituiscono un campione stratificato,
in cui ciascuno strato è costituito spesso da una singola unità statistica. Si pensi, ad esempio, ai macro-panel in cui le unità statistiche sono solitamente nazioni oppure ai micro-panel in cui le unità statistiche sono spesso degli individui o delle famiglie. Nulla vieta comunque di stratificare la popola-zione e di considerare le osservazioni all’interno di ogni strato come riferite alla stessa unità statistica. Uno dei principali pregi di questo tipo di dati è che contengono un’enorme quantità di informazione, in quanto, potendo avere più osservazioni per la stessa unità statistica, si riesce ad unire l’infor-mazione cross-sezionale a quella longitudinale. La modellazione statistica di questo tipo di dati prevede spesso la specificazione di un effetto proprio per ogni singolo strato o unità statistica, qualora essa venga osservata più volte, con il fine di cogliere le sue caratteristiche non direttamente osservabili. La specificazione di questo effetto può avvenire in due modi. Si può considerare l’effetto proprio di ciascuno strato come una variabile casuale ottenendo il cosiddetto modello ad effetti casuali. Siccome tale effetto non è osserva-bile direttamente, risulta dunque necessario fare delle assunzioni riguardanti la sua distribuzione. Inoltre, affinchè le procedure statistiche mantengano buone proprietà (es. consistenza), si richiede che tale effetto sia indipenden-te dalle variabili usaindipenden-te per cogliere l’eindipenden-terogeneità osservabile. Ques’ultima assunzione è spesso poco realistica e difficile da verificare tramite oppurtuni test di endogeneità. Si tende quindi a preferire la specificazione che conside-ra l’effetto proprio di ciascuno stconside-rato come un paconside-rametro fisso, ottenendo il modello ad effetti fissi. Così facendo si permette alle variabili esplicati-ve di dipendere dall’effetto non osservabile introdotto, aggirando l’assuzione di esogeneità. Sorge però il problema dei parametri incidentali in quanto, per ogni singolo strato, c’è un parametro che deve essere stimato. Di con-seguenza, non risultano soddisfatte le condizioni di regolarità del problema di stima (Paragrafo 1.4) poichè la dimensione dello spazio parametrico viene a dipendere dalla numerosità campionaria attraverso il numero degli strati. Logicamente, tale problema è più evidente nel momento in cui il numero degli strati è molto maggiore rispetto al numero di osservazioni che si effettuano per ogni stato. Risulta quindi necessario ricorrere a procedure statistiche che mantengono buone proprietà asintotiche anche in questi scenari, come ad
esempio la verosimiglianza profilo modificata e la verosimiglianza integrata, introdotte nel capitolo precedente.
2.3
Modelli per dati binari
Sia yij realizzazione della variabile casuale bernoulliana
Yij ∼ Be(πij) i = 1, . . . , q j = 1, . . . , m,
dove q è il numero degli strati ed m è il numero di osservazioni per strato, as-sunto essere comune a tutti gli strati per semplicità di notazione. L’interesse sta nel modellare la probabilità
πij = Pr(Yij = 1|Xij = xij) = E{Yij|Xij = xij} = g(xij; θi) (2.1)
come funzione di un insieme di variabili esplicative, indicate con xij, e di un
parametro θi = (ψ, λi), in cui ψ è il parametro di interesse e λi è l’effetto non
osservabile proprio di ogni strato.
Per determinare quale sia la funzione g(·) da preferire si può ricorrere alle proprietà dei modelli lineari generalizzati, poichè la distribuzione
bernoulliana appartiene alla famiglia delle distribuzioni esponenziali. Sia
Yij ∼ Be(πij), la sua funzione di densità può essere espressa come
pYij(πij; yij) = π
yij
ij (1 − πij)1−yij
= exp{yijlog(πij) + (1 − yij) log(1 − πij)} = exp{yijlog(πij/(1 − πij)) + log(1 − πij)} = exp{yijγij − log(1 + eγij)},
dove γij = log(πij/(1 − πij)) = logit(πij) è il parametro naturale della
distri-buzione e µ(γij) = exp{γij}/(1 + exp{γij}) = πij è la funzione media. Sia
ηij = λi+ x0ijψ il predittore lineare nei parametri e funzione delle esplicative.
h(·) tale per cui (Pace e Salvan, 1997, Paragrafo 6.4): ηij = h(πij) = h(µ(γij)) = γij.
Segue che la funzione h(·) è l’inversa della funzione media. Di conseguenza, nel caso di dati binari, la funzione legame canonica è la funzione logit. Si ottiene quindi la seguente parametrizzazione:
logit(πij) = log πij 1 − πij
= λi + x0ijψ = ηij. (2.2)
Tale scelta per la funzione legame dà origine al modello logistico, o modello logit, ed è equivalente a prendere come funzione g(·) in (2.1) la funzione di ripartizione della variabile casuale logistica. Un’alternativa spesso utilizzata, ma qui non presa in considerazione, è quella di utilizzare al posto della fun-zione di ripartifun-zione logistica quella della normale standard. Ciò dà origine al ben noto modello probit.
2.4
Verosimiglianza per dati binari
In questo paragrafo si mostreranno le funzioni di verosimiglianza, intro-dotte a livello teorico nel Capitolo 1, per la stima in presenza di parametri di disturbo incidentali.
Supponiamo di disporre di un campione stratificato di osservazioni
dico-tomiche. Sia yij realizzazione della variabile casuale bernoulliana
Yij ∼ Be(πij) i = 1, . . . , q j = 1, . . . , m.
Sia θ = (ψ, λ) il parametro complessivo del modello. Esso è costituito da: • ψ, parametro di interesse;
• λ = (λ1, . . . , λq), parametro di disturbo incidentale poichè la sua
dimen-sione aumenta all’aumentare del numero degli strati. Come accennato nel Paragrafo 2.1, ciascun elemento di λ coglie le caratteristiche non
osservabili proprie di ogni strato. Si sta quindi facendo riferimento ad un modello ad effetti fissi.
Sfruttiamo ora le considerazioni fatte nel paragrafo precedente. Si indichi con ηij = λi + x0ijψ, i = 1, . . . , q, j = 1, . . . , m, il predittore lineare nei pa-rametri e funzione delle esplicative. Tale specificazione mette in evidenza un’intercetta variabile di strato in strato, la quale coglie l’eterogeneità non osservabile. La quantità di interesse è invece l’impatto delle variabili esplica-tive, rappresentato da ψ. Segue da (2.2) che il modello logit per dati binari implica la seguente riparametrizzazione:
πij = exp{λi+ x0ijψ} 1 + exp{λi+ x0ijψ} = exp{ηij} 1 + exp{ηij} = F (ηij). (2.3)
Si noti come la funzione F (·) rappresenti la funzione di ripartizione della distribuzione logistica.
2.4.1
Funzione di verosimiglianza e log-verosimiglianza
Assumendo l’indipendenza tra gli strati e tra le osservazioni all’interno di ogni strato, la funzione di verosimiglianza può essere scritta come:
L(ψ, λ) = q Y i=1 L(i)(ψ, λi) = q Y i=1 m Y j=1 pYij(yij; πij) = q Y i=1 m Y j=1 πyij ij (1 − πij)1−yij = q Y i=1 m Y j=1 F (ηij)yij(1 − F (ηij))1−yij, (2.4) dove L(i)(ψ, λ
i) rappresenta il contributo dello strato i-esimo alla
verosimi-glianza complessiva del modello. Indicando con l(i)(ψ, λ
la log-verosimiglianza assume la forma: l(ψ, λ) = log L(ψ, λ) = q X i=1 l(i)(ψ, λi) = q X i=1 m X j=1 yijlog πij + (1 − yij) log(1 − πij) = q X i=1 m X j=1 yijlog F (ηij) + (1 − yij) log(1 − F (ηij)). (2.5)
2.4.2
Verosimiglianza profilo
Poichè ciascun parametro di disturbo compare esclusivamente nel contri-buto alla verosimiglianza del proprio strato, la log-verosimiglianza profilo può essere scritta come:
lP(ψ) = q X i=1 lP(i)(ψ) = q X i=1 l(i)(ψ, ˆλiψ), (2.6)
dove, per ψ fissato, ˆλiψ è soluzione dell’equazione in λi:
l(i)λ i(ψ, λ) = ∂l(ψ, λ) ∂λi = ∂l (i)(ψ, λ i) ∂λi = m X j=1 yij − F (λi+ x0ijψ) = 0. (2.7)
2.4.3
Verosimiglianza profilo modificata
Con un ragionamento analogo a quello effettuato per la costruzione della verosimiglianza profilo, partendo da (1.3), si può scrivere la log-verosimiglianza profilo modificata come:
dove m(ψ) = log M (ψ). Nel seguito, il fattore di modificazione considerato è quello definito in (1.4), poichè non richiede l’individuazione di una statistica ancillare. Inoltre, poichè ciascun parametro di disturbo compare solo nel rispettivo contributo alla verosimiglianza, si può scrivere tale fattore come:
m(ψ) = q X i=1 mi(ψ) = q X i=1 1 2log jλ(i) iλi(ψ, ˆλiψ) − log Iλiλi( ˆψ, ˆλi; ψ, ˆλiψ) , (2.9)
dove ( ˆψ, ˆλi) rappresentano le stime di massima verosimiglianza dei parametri.
Indicando con l(i)λ
i(ψ, λi) = ∂l (i)(ψ, λ i)/∂λi e con f (·) = F0(·), si ha che jλ(i) iλi(ψ, λi) = −l (i) λiλi(ψ, λi) = −∂l (i) λi(ψ, λi) ∂λi = m X j=1 F (λi+ x0ijψ)(1 − F (λi+ x0ijψ)), (2.10) e che Iλiλi(ψ0, λi0; ψ1, λi1) = Eψ0,λi0{l (i) λi(ψ0, λi0)l (i) λi(ψ1, λi1)} = Eψ0,λi0{[ m X j=1 Yij − F (λi0+ x0ijψ0)][ m X u=1 Yiu− F (λi1+ x0iuψ1)]} = m X j=1 f (λi1+ x0ijψ1)f (λi0+ x0ijψ0) (1 − F (λi1+ x0ijψ1))F (λi1+ x0ijψ1) , (2.11)
in quanto, per j 6= u, l’indipendenza tra le osservazioni all’interno di ogni strato implica che
Eψ0,λi0{YijYiu− YijF (λi1+ x
0 iuψ1)+
L’espressione (2.11) deriva da Bellio e Sartori (2003) ed è valida in generale quanto si trattano dati binari. Proseguendo, poichè nel modello logit si ha che f (·) = F (·)(1 − F (·)), si ottiene che
Iλiλi( ˆψ, ˆλi; ψ, ˆλiψ) =
m X
j=1
F (ˆλi+ x0ijψ)(1 − F (ˆˆ λi+ x0ijψ)).ˆ
Quindi, questo termine non dipende da ψ e può essere omesso nella costru-zione della verosimiglianza profilo modificata. Ciò non è vero in generale se la funzione legame non è quella canonica. Ad esempio, nel modello probit tale termine non può essere trascurato.
2.4.4
Verosimiglianze integrate
Per definire la verosimiglianza integrata è innanzitutto necessario sce-gliere la distribuzione a priori per il pametro di disturbo. Sia γ = (γ1, . . . , γq) il parametro di disturbo o una sua eventuale riparametrizzazione. Data l’ipo-tesi di indipendenza tra gli strati, è lecito assumere che anche le componenti di γ siano considerate indipendenti nella specificazione della distribuzione del parametro di disturbo. Questo porta formulare una a priori del tipo:
π(γ|ψ) = q Y
i=1
π(γi|ψ). (2.12)
Di conseguenza, la verosimiglianza integrata assume la forma:
LI(ψ) = q Y i=1 Z Γ L(i)(ψ, γi)π(γi|ψ)dγi.
Nel Capitolo 1 sono stati illustrati tre metodi per la costruzione della ve-rosimiglianza integrata, i quali sono associati a tre diverse scelte della di-stribuzione a priori per il parametro di disturbo. Il primo metodo consiste nell’ottenere, per ogni strato, un parametro di disturbo fortemente disconnes-so dal parametro di interesse tramite la parametrizzazione ZSE, specificando poi per esso una a priori uniforme. Gli altri due metodi, invece, non
neces-sitano di alcuna riparametrizzazione del modello e specificano le priori come illustrato in (1.9) e (1.10).
Per la costruzione della verosimiglianza integrata attravero la parame-trizzazione ZSE, è necessario risolvere l’equazione
Eψ0,λi0{l (i) λi(ψ, λi)}|(ψ0,λi0)=( ˆψ,φi)= m X j=1 F (φi+ x0ijψ) − F (λˆ i+ x0ijψ) = 0,
rispetto a φi, per(ψ, λi, ˆψ) fissata. Si ottiene così un parametro di disturbo
φi = φ(ψ, λi, ˆψ) fortemente disconnesso da ψ (Severini, 2007).
Successiva-mente, sfruttando la proprietà di invarianza della verosimiglianza rispetto a riparametrizzazioni del modello, si giunge alla seguente verosimiglianza integrata: LI(ψ) = q Y i=1 Z Φ L(i)(ψ, λ(φi))dφi, (2.13)
dove λ(φi) ≡ λ(ψ, φi, ˆψ) = φ−1(ψ, λi, ˆψ). Quest’ultima funzione rappresenta
la parametrizzazione inversa alla ZSE, che permette quindi di ottenere λi a
partire da φi. Ciascun φi, i = 1, . . . , q, rappresenta il nuovo parametro di
disturbo proprio di ogni strato. Sfruttando l’assunzione di indipendenza tra gli strati è possibile quindi specificare una distribuzione a priori come quella
mostrata in (2.12) per il parametro di disturbo complessivo φ = (φ1, . . . , φq).
Si noti, in questo caso, come la specificazione di una a priori uniforme per
il parametro φi, i = 1, . . . , q, introduca nella verosimiglianza una quantità
positiva la quale è stata omessa in (2.13). La log-verosimiglianza integrata può essere quindi scritta come:
lI(ψ) = log LI(ψ) = m X i=1 log Z Φ L(i)(ψ, φi)dφi.
Qualora non si vogliano effettuare riparametrizzazioni del modello, si pos-sono utilizzare le a priori proposte da Arellano e Bonhomme (2009). La prima distribuzione a priori per il parametro di disturbo considerata è la cosidetta
robust prior. Essa ha la seguente espressione: πRi (λi|ψ) ∝ ˆE{−l (i) λiλi(ψ, λi)}[ ˆE{[l (i) λi(ψ, λi)] 2}]−1/2 . (2.14)
I due termini ˆE{−l(i)λ
iλi(ψ, λi)} e ˆE{[l (i) λi(ψ, λi)] 2} stimano rispettivamente le quantità attese Eψ0λi0{−l (i) λiλi(ψ, λi)} e Eψ0λi0{[l (i) λi(ψ, λi)]
2}, in cui i veri valori dei parametri sono stati sostituiti con le stime di massima verosimiglianza. Sfruttando (2.10), si ottiene che il primo termine vale:
ˆ E{−lλ(i) iλi(ψ, λi)} = Eψ0λi0{−l (i) λiλi(ψ, λi)}|(ψ0,λi0)=( ˆψ,ˆλi) = Eψ0λi0{j (i) λiλi(ψ, λi)}|(ψ0,λi0)=( ˆψ,ˆλi) = m X j=1 F (λi+ x0ijψ)(1 − F (λi+ x0ijψ)). (2.15)
La quantità ˆE{[l(i)λ
i(ψ, λi)] 2} = E ψ0λi0{[l (i) λi(ψ, λi)] 2}| (ψ0,λi0)=( ˆψ,ˆλi), si può
otte-nere a partire dal fatto che Eψ0λi0{[l (i) λi(ψ, λi)] 2} = Eψ0λi0{[ m X j=1 Yij − F (λi+ x0ijψ)][ m X u=1 Yiu− F (λi+ x0iuψ)]} = m X j=1 m X u=1 Eψ0λi0{[Yij − F (λi+ x 0 ijψ)][Yiu− F (λi+ x0iuψ)]}. (2.16)
Quindi, sostituendo ai veri parametri le stime di massima verosimiglianza, si ottiene che, per j = u:
Eψ0λi0{[Yij − F (λi+ x
0
ijψ)][Yiu− F (λi+ x0iuψ)]}|(ψ0,λi0)=( ˆψ,ˆλi)
= F (ˆλi+ x0ijψ) − 2F (ˆˆ λi+ xij0 ψ)F (λˆ i+ x0ijψ) + F (λi+ x0ijψ) 2,
mentre, per j 6= u: Eψ0λi0{[Yij− F (λi+ x 0 ijψ)][Yiu− F (λi+ x0iuψ)]}|(ψ0,λi0)=( ˆψ,ˆλi) = F (ˆλi+ x0ijψ)F (ˆˆ λi+ x0iuψ) + F (ˆˆ λi+ x0ijψ)F (λˆ i+ x0iuψ) + F (λi+ x0ijψ)F (ˆλi+ x0iuψ) + F (λˆ i+ x0ijψ)F (λi+ x0iuψ). La seconda distribuzione per il parametro di disturbo presa in conside-razione è basata sulla densità della normale standard. Essa, come la robu-st prior, permette di ridurre la dirobu-storsione della funzione punteggio. Tale distribuzione, detta normal prior, assume la seguente forma:
πiN(λi|ψ) = N ˆλiψ, dV ar(ˆλiψ), (2.17)
in cui ˆλiψ è soluzione dell’equazione (2.7). La varianza può essere scritta
come
d
V ar(ˆλiψ) = Iλ2iλi( ˆψ, ˆλi; ψ, ˆλiψ)j
−2
λiλi(ψ, ˆλiψ)j
−1
λiλi( ˆψ, ˆλi),
dove, a partire da (2.10) e (2.11) si ha che:
Iλiλi( ˆψ, ˆλi; ψ, ˆλiψ) = m X j=1 F (ˆλi+ x0ijψ)(1 − F (ˆˆ λi+ x0ijψ))ˆ jλiλi(ψ, ˆλiψ) = m X j=1 F (ˆλiψ+ x0ijψ)(1 − F (ˆλiψ+ x0ijψ)) jλiλi( ˆψ, ˆλi) = m X j=1 F (ˆλi+ x0ijψ)(1 − F (ˆˆ λi+ x0ijψ)).ˆ
Studi di simulazione
3.1
Introduzione
In questo capitolo si confronteranno i metodi descritti precedentemente in un modello logistico stratificato. In particolare, tramite studi di simula-zione, si valuteranno le proprietà dei seguenti metodi basati sulla funzione di verosimiglianza per la stima dei parametri di interesse:
1. verosimiglianza profilo;
2. verosimiglianza profilo modificata;
3. verosimiglianza integrata con parametrizzazione ZSE e distribuzione a priori uniforme;
4. verosimiglianza integrata con distribuzione a priori “robusta”, definita in (1.9);
5. verosimiglianza integrata con distribuzione a priori basata sulla densità normale, definita in (1.10).
Si vuol far notare come, nel modello logit, esiste una verosimiglianza con-dizionata esatta per ψ. Tuttavia, essa non è stata considerata nelle simula-zioni poichè in letteratura è nota la relazione tra la verosimiglianza profilo modificata e tale verosimiglianza condizionata.
Quello che ci si attende a partire dalle considerazioni teoriche esposte nel Capitolo 1 è, innanzitutto, il fallimento del metodo basato sulla sem-plice verosimiglianza profilo. Infatti, in presenza di parametri di disturbo incidentali, vengono meno le condizioni di regolarità che ne garantiscono le buone proprietà asintotiche. Nei Paragrafi 1.10.2 e 1.10.3 si è messo in luce come la log-verosimiglianza integrata possa essere approssimata attraverso
la log-verosimiglianza profilo modificata, fintanto che q/m3 = o(1), dove q
è il numero degli strati e m è la dimensione degli strati. Di conseguenza, è lecito attendersi che i due metodi tendano a dare risultati molto simili. In particolare ci si attende che, all’aumentare della dimensione degli strati, le stime ottenute con la verosimiglianza integrata con parametrizzazione ZSE si avvicinino sempre più a quelle ottenute attraverso la profilo modificata. Per quanto riguarda le verosimiglianze integrate costruite tramite la robust prior e la normal prior, ci si attende che diano dei risultati almeno più accurati della semplice profilo. Questo perchè si conosce solamente il fatto che tali a priori riducono la distorsione della funzione punteggio.
Il modello considerato per i confronti è il modello logit per campioni stra-tificati illustrato nel Paragrafo 2.3. Le funzioni di verosimiglianza elencate in precedenza sono esplicitate invece nel Paragrafo 2.4. La notazione usata nel seguito è la stessa dei capitoli precedenti: si suppone cioè di disporre di
un campione stratificato di osservazioni dicotomiche yij, realizzazioni delle
variabili casuali
Yij ∼ Be(πij) i = 1, . . . , q j = 1, . . . , m,
dove q è il numero degli strati ed m è il numero di osservazioni per strato. Si suppone che gli strati e che le osservazioni all’interno di ciascuno strato
siano indipendenti. La probabilità di successo, πij = Pr(Yij = 1|Xij = xij),
dipende dalla esplicative secondo l’espressione:
πij =
exp{λi+ x0ijψ} 1 + exp{λi+ x0ijψ}
dove ψ costuituisce il parametro di interesse e λiè il parametro di disturbo di natura incidentale, introdotto sotto forma di intercetta variabile. Segue che i metodi di stima vengono confrontati sulla base delle stime del parametro di interesse, per diverse configurazioni di q ed m.
3.2
Aspetti computazionali
L’implementazione delle funzioni necessarie per stimare attraverso la fun-zione di verosimiglianza integrata non è stata priva di problemi. Dato il largo impiego del costrutto for, l’idea di scrivere il codice solamente usando il
lin-guaggio Rè stata abbandonata fin da subito. Questo perchè tale linguaggio
è notoriamente poco prestante nei cicli. In prima battuta, si sono posti come
soluzione i linguaggiCe C++, quest’ultimo utilizzato tramite la libreriaRcpp.
Si sono quindi implementate le funzioni di verosimiglianza integrata, costrui-te a partire dalle tre priori illustracostrui-te in precedenza. Si sono poi utilizzacostrui-te le
routinesRper risolvere i problemi di massimizzazione. Così facendo, il carico
computazionale resta comunque elevato. Nella normal prior, ad esempio, ad ogni iterazione per la ricerca del massimo è necessario determinare la stima di
λi, i = 1, . . . , q per ψ fissato. Questo richiede di individuare numericamente le
radici di un’equazione usando un algoritmo tipo Newton-Raphson, rendendo quindi l’integrazione numerica per l’eliminazione del parametro di disturbo molto lenta. La stessa robust prior, sebbene coinvolge per lo più sommatorie, si è rivelata pesante computazionalmente. Infatti, i tempi necessari alla stima
utilizzando queste due distribuzioni a priori erano dell’ordine degli 801 minuti
e ciò non permette di sfruttare le funzioni così costruite per la simulazione. Il tempo necessario per la stima attraverso la funzione di verosimiglianza in-tegrata costruita tramite la parametrizzazione ZSE, invece, è dell’ordine dei
5 minuti1. Quindi, tale verosimiglianza è l’unica implementata attraverso il
linguaggioC/C++. Inoltre, per rendere possibile l’integrazione numerica inC, è
stata costruita un’apposita classe per il passaggio dei dati e dei parametri tra
1Tempi riferiti a un computer Dell Inspiron, processore Intel Pentium Dual-Core CPU
E5800, 3.20GHz, 4GB di RAM e ad un campione stratificato di dimensioni q = 100 e m = 4.
le varie funzioni. Infine, con lo scopo di rendere la simulazione più veloce si è
sfruttato anche il calcolo parallelo attraverso le libreriedoMCeplyr. Per fare
ciò si è utilizzato il server di calcolo messo a disposizione dal Dipartimento di Scienze Statistiche.
Per rendere fruibile in ottica simulazione la verosimiglianza integrata
co-struita con la robust prior e la normal prior, si è ricorso alla libreria TMB.
Tale libreria nasce per la stima di modelli ad effetti casuali e prevede un’in-tegrazione numerica basata sull’approssimazione di Laplace. Per un appro-fondimento su tale tipo di integrazione si rimanda a Liu e Pierce (1994). La velocità garantita da questo metodo deriva dal fatto che le derivate vengono calcolate in modo analitico in fase di compilazione. Per adattare tale metodo al modello ad effetti fissi considerato è stato sufficiente costruire le due a priori ed indicare qual è il parametro di disturbo rispetto a cui effetuare l’in-tegrazione. I tempi di calcolo sono stati notevolmente ridotti e sono attorno
al secondo1, sia per la robust prior che per la normal prior.
Un’ulteriore nota va fatta per la normal prior. Come detto in precedenza,
essa prevede l’individuazione di λi, i = 1, . . . , q, per ψ fissato. Per diminuire
il carico computazionale, la ricerca di ˆλiψ, soluzione dell’equazione (2.7) per
ψ fissato, è avvenuta attraverso un’approssimazione lineare. In particolare,
approssimando la funzione punteggio per λi attorno alla stima di massima
verosimiglianza ( ˆψ, ˆλi) in ogni strato si ottiene che l(i)λ i(ψ, ˆλiψ) ' l (i) λi( ˆψ, ˆλi) + l (i) λiψ( ˆψ, ˆλi)(ψ − ˆψ) + l (i) λiλi( ˆψ, ˆλi)(ˆλiψ− ˆλi), dove lλ(i) iψ(ψ, λi) = ∂l (i) λi(ψ, λi)/∂ψ. Poichè l (i) λi( ˆψ, ˆλi) = 0, si ha che la relazione
tra ˆλiψ e ψ può essere approssimata linearmente come
ˆ λiψ = ˆλi− l(i)λ iψ( ˆψ, ˆλi) l(i)λ iλi( ˆψ, ˆλi) (ψ − ˆψ).
Così facendo, si riesce ad approssimare ˆλiψutilizzando solo quantità calcolate
Infine, per ottenere le stime basate sulla verosimiglianza profilo e sulla profilo modificata, è stato sufficiente utilizzare in modo opportuno una serie
di funzioni già implementate disponibili nella libreria panelMPL2.
3.3
Risultati
Nel seguito si confronteranno i metodi di stima elencati nel Paragrafo 3.1 tramite un approccio di tipo Monte Carlo. Il vero modello generatore dei dati utilizzato nella simulazione specifica (3.1) nel modo seguente:
πij =
exp{λi− x1,ij+ 2x2,ij} 1 + exp{λi− x1,ij + 2x2,ij}
dove le esplicative x1,ij e x2,ij sono realizzazioni di variabili casuali
indipen-denti normali standard per i = 1, . . . , q e j = 1, . . . , m. L’effetto proprio di
ogni strato, λi, i = 1, . . . , q, è stato ottenuto come media della prima
varia-bile esplicativa a cui è stato aggiunto del rumore bianco. Il vero valore del
parametro di interesse è quindi ψ = (ψ1, ψ2) = (−1, 2).
Si sono quindi simulati R = 1000 campioni stratificati di dati binari, per varie configurazioni di q ed m, ottenendo, per ciascun metodo di stima
considerato, i vettori ψsim
1 = (ψ (1) 1 , . . . , ψ (R) 1 ) e ψ2sim = (ψ (1) 2 , . . . , ψ (R) 2 ). Si
sono anche calcolati gli standard error delle stime, sempre per ciascun metodo di stima, a partire dal calcolo numerico dell’hessiano nel punto di massimo,
ottenendo quindi i vettori σsim
1 = (σ (1) 1 , . . . .σ (R) 1 ) e σsim2 = (σ (1) 2 , . . . .σ (R) 2 ). Per
entrambi i vettori delle stime ψsim1 e ψsim2 , l’adeguatezza dei metodi è stata
valutata calcolando la media (MEAN), la mediana (MED), la distorsione (BIAS), l’errore quadratico medio (MSE), la radice dell’errore quadratico medio (RMSE) e l’errore assoluto medio (MAE). Si è poi valutato il rapporto tra la media degli standard error ottenuti numericamente con lo standard error ottenuto a partire dal vettore delle stime (SD), ottenendo l’indicatore SE/SD. Infine si è valutata la copertura empirica degli intervalli di confidenza alla Wald (IC) ai livelli nominali 0.9, 0.95, 0.99.
Per quanto riguarda le dimensioni del campione stratificato, si sono consi-derati due scenari, in cui q = 100 e q = 200. Successivamente, per entrambi,