Trasformazione box cox: un'analisi basata sulla verosimiglianza

(1)

Università degli studi di Padova

Dipartimento di Scienze Statistiche

Corso di Laurea Triennale in

Statistica, Economia e Finanza

Relazione Finale

Trasformazione Box-Cox: un’analisi basata sulla

verosimiglianza

Relatore Prof. Nicola Sartori

Dipartimento di Scienze Statistiche

Laureando Tommaso Rigon Matricola N 1010510

(2)

Indice

Introduzione 9

1 L’inferenza di verosimiglianza 11

1.1 Introduzione . . . 11

1.2 Specificazione del modello . . . 12

1.3 Assuzioni e notazioni . . . 12

1.4 Quantità di verosimiglianza . . . 15

1.4.1 Stima di massima verosimiglianza . . . 15

1.4.2 Funzione punteggio . . . 15

1.4.3 Informazione osservata e informazione attesa . . . 16

1.5 Alcuni risultati asintotici . . . 16

1.5.1 Test collegati alla verosimiglianza . . . 17

1.6 Verosimiglianza profilo . . . 17

1.7 Metodo di Newton-Raphson . . . 18

1.7.1 Algoritmi numerici con R . . . 19

2 Modello lineare e trasformazione di variabili 23 2.1 Introduzione . . . 23

2.2 Il modello lineare . . . 24

2.2.1 La stima dei parametri . . . 25

2.2.2 Inferenza sui parametri . . . 26

2.3 Trasformazioni della variabile dipendente . . . 26

2.4 Modalità d’utilizzo . . . 28

(3)

3 Box-Cox e l’approccio di verosimiglianza 33

3.1 Introduzione . . . 33

3.2 Funzione di verosimiglianza . . . 34

3.3 Funzione punteggio . . . 35

3.4 Matrice di informazione osservata . . . 36

3.5 Stime di massima verosimiglianza . . . 38

3.5.1 La varianza per λ . . . 39

3.6 Trasformazione Bickel e Docksum . . . 40

3.7 Matrice di informazione attesa . . . 42

3.7.1 Calcolo degli elementi di I(θ) . . . 42

3.8 Alcune considerazioni . . . 44

3.9 Test log-rapporto di verosimiglianza . . . 45

4 Verifiche e simulazioni 47 4.1 Introduzione . . . 47

4.2 La funzione Boxcox . . . 47

4.3 Verifica della correttezza del codice . . . 48

4.3.1 Stima per λ . . . 50

4.3.2 Matrice di informazione osservata . . . 50

4.3.3 Matrice di informazione attesa . . . 52

4.4 Normalità degli stimatori . . . 53

4.5 Test log-rapporto di verosimiglianza profilo per λ . . . 57

4.6 Simulazioni ed intervalli di confidenza . . . 57

4.7 Test log-rapporto di verosimiglianza . . . 59

4.8 Rianalisi dei dati cars . . . 60

4.8.1 Intervalli di confidenza per la media e di previsione . . 62

4.8.2 Ulteriori analisi . . . 64

5 Conclusioni 65

Bibliografia 67

(4)

Elenco dei codici

4.1 Esempio di output per la funzioneBoxcox utilizzando il

data-frame cars . . . 49

4.2 Comandi per la stima del modello, approcci differenti . . . 60

A.1 La funzione Boxcox . . . 69

A.2 Log-verosimiglianza profilo cambiata di segno . . . 74

A.3 Simulazione per la correttezza della stima di λ . . . 75

A.4 Log-verosimiglianza cambiata di segno . . . 75

A.5 Simulazione per la verifica della matrice j(θ) . . . 75

A.6 Test log-rapporto di verosimiglianza profilo per λ . . . 76

A.7 Esempio di simulazione per la verifica della normalità dello stimatore . . . 76

A.8 Simulazione per la distorsione delle deviazioni standard . . . . 77

A.9 Log-verosimiglianza profilo per β . . . 78

A.10 Test log-rapporto di verosimiglianza e intervalli di confidenza per β . . . 78

(5)

Elenco delle tabelle

1.1 Le prime 10 osservazioni dei datistress . . . 20

2.1 Sommario di R per la stima del modello√Yi = β0+ β1xi+ εi 32 4.1 Statistiche descrittive per |λ1− λ2|, . . . 50

4.2 Statistiche descrittive per il vettore quadJ, . . . 51

4.3 Matrice j(ˆθ) per i dati cars . . . 53

4.4 Risultati della simulazione, convergenza delle matrici I(θ) e j(θ) . . . 54

4.5 Errore Medio per ˆβ1 . . . 55

4.6 Statistiche descrittive per la simulazione . . . 59

4.7 Le stime del modello tramite i due metodi . . . 61

(6)

Introduzione

Uno degli strumenti più utilizzati in statistica è il modello lineare. La sua utilità e diffusione giustifica gli sforzi atti a comprendere il suo funzionamen-to. In questa relazione, di carattere prevalentemente teorico, viene analizzata una particolare tecnica utilizzata nei modelli lineari: la trasformazione Box-Cox. Questo approfondimento si è reso necessario poichè, nell’uso quotidiano, essa viene utilizzata trascurando volutamente alcuni aspetti. Lo scopo è mo-strare come questo approccio porti a distorsioni rilevanti. Pur essendo già noti alcuni risultati nella letteratura statistica, questi vengono ripresi e illustrati dettagliatamente, insieme ad alcuni esempi. Contestualmente, si forniscono dei codici che consentono di ripercorrere i calcoli effettuati e condurre analisi su dataset differenti.

Gli argomenti riguardanti la verosimiglianza compaiono trasversalmente e proprio per questo nel primo capitolo si presenta una rassegna delle principali nozioni connesse ad essa. Non sono informazioni direttamente collegate alla relazione ma strettamente necessarie per la sua comprensione. Viene inoltre definita la notazione delle principali quantità di verosimiglianza.

Nel secondo capitolo vengono brevemente presentati il modello lineare e la trasformazione Box-Cox. Si tratta di un’ introduzione volta a esporre i motivi per cui, in certi casi, è necessario utilizzare una trasformazione di variabile tra quelle note. Quella indicata da Box-Cox occupa una posizione di rilievo e viene infatti utilizzata, nel modo consueto, in un dataset, a scopo esemplificativo.

Il terzo capitolo è il nocciolo della relazione. Si affrontano i calcoli analitici che permettono di raggiungere le quantità di verosimiglianza specifiche della trasformazione Box-Cox. Si discute poi la sua legittimità che porterà al suo

(7)

6 parziale abbandono, seguendo le argomentazioni di Bickel e Docksum.

Nel quarto capitolo infine si segnalano, da un punto di vista empirico, le distorsioni che l’approccio usuale comporta, riprendendo il dataset usato nel secondo capitolo. Per far ciò viene prima controllato, tramite simulazioni, il codice che ha reso possibile il calcolo di queste distorsioni.

(8)

Capitolo 1

L’inferenza di verosimiglianza

1.1 Introduzione

Fare inferenza significa, letteralmente, trarre delle conclusioni sulla base di alcune verità. In ambito statistico il punto di partenza sono i dati, da cui si cerca di estrarre qualche informazione di carattere generale. Le quantità d’interesse sono molteplici e differiscono a seconda del contesto applicativo. Ad esempio, spesso si è interessati a studiare l’andamento medio di un fe-nomeno. Dato che il punto di partenza sono indicazioni parziali, o meglio, quantità campionarie, è naturale che le conclusioni che se ne trarranno sa-ranno soggette ad errore. V’è quindi la necessità di una tecnica che permetta di ottenere stime il più precise possibile e di cui si sia in grado di determinare l’affidabilità.

L’inferenza basata sulla verosimiglianza è uno strumento estremamente versatile, introdotto da Ronald Fisher (1890-1962), che presume l’esistenza di un modello statistico F . In questo capitolo introduttivo verranno presentate alcune nozioni basilari e definite le notazioni per le quantità utilizzate.

La presentazione è basata sui testi Azzalini (2008, cap. 2-4) e Pace e Salvan (2001, cap. 1-6).

(9)

1.2 Specificazione del modello 8

1.2 Specificazione del modello

La prima fondamentale assunzione è considerare il vettore delle osserva-zioni y = (y1, . . . , yn) come una realizzazione di una variabile casuale Y con distribuzione di probabilità p0(y). Il modello generatore dei dati è ignoto ma spesso si possono esprimere delle considerazioni sul fenomeno in esame. Data la natura stocastica di Y , la stima del modello generatore dei dati è tanto più accurata quanto più si riesce a restringere la classe F alla quale p0(y) appartiene. Il modello si intende correttamente specificato se p0(y) ∈ F .

Il modello F può appartenere a una delle seguenti classi: modello non parametrico, modello semi-parametrico, modello parametrico. Nel seguito ci si occuperà unicamente di quest’ultimo, la cui definizione formale è:

F = {p(y, θ) : θ ∈ Θ ⊆ Rp},

per qualche p ∈ N. Lo spazio Θ è chiamato spazio parametrico. Si deve ipotizzare che esista una relazione biunivoca tra ciascun modello ed il valore assunto dal parametro. Questa proprietà è chiamata identificabilità.

1.3 Assuzioni e notazioni

Se F è un modello parametrico per i dati y con funzione del modello py(y; θ) e θ = (θ1, . . . , θp) ∈ Θ ⊆ Rp, la funzione di verosimiglianza L : Θ → R+ è definita come:

L(θ; y) = c(y)p(y; θ),

dove c(y) è una costante che non dipende da θ. La funzione L(θ; y) ha quindi la stessa forma della funzione di probabilità del modello in cui però y è fissato e θ è libero di variare. Pur assumendo valori che corrispondono a probabilità, L(y; θ) non è quindi una funzione di probabilità.

La verosimiglianza è in realtà una classe di funzioni equivalenti che dif-feriscono per una costante moltiplicativa c(y) e si può parlare dunque di verosimiglianze equivalenti.

(10)

1.3 Assuzioni e notazioni 9 Il sostegno empirico a favore di θ1 rispetto a θ2 è misurato dal rapporto

L(θ1; y) L(θ2; y) , che è chiamato rapporto di verosimiglianza.

L’interpretazione di L(θ; y) è la seguente: a partire dalle osservazioni y è possibile stabilire quale tra θ1 e θ2 è più verosimile. Segue quindi che θ1 è preferibile a θ1 se L(θ1; y) ≥ L(θ2; y). Ad esempio nella Figura 1.1, θ = 1.9 è preferibile a θ = 1.2, infatti: L(1.9; y) ≥ L(1.2; y).

Un’ipotesi frequente è che i dati y = (y1. . . , yn) siano realizzazioni i.i.d, ovvero osservazioni indipendenti ed identicamente distribuite. Perciò se p(yi; θ) è la distribuzione di probabilità marginale per la singola osservazione, la funzione di verosimiglianza diventa

L(θ; y) = n Y i=1 p(yi; θ). Funzione di log-verosimiglianza

La funzione di log-verosimiglianza viene introdotta perchè permette mag-giore facilità di calcolo pur mantenendo tutta l’informazione contenuta in L(θ; y). È definita come

l(θ; y) = log L(θ; y),

dove log(·) è il logaritmo naturale. Se ne ricava inoltre la quantità l(θ; y) = c0(y) + log p(y; θ),

da cui si deduce che le log-verosimiglianze si equivalgono a meno di una costante additiva, costituendo anch’esse una classe di funzioni equivalenti. Nel caso il campione sia costituito da osservazioni i.i.d., per le proprietà dei logaritmi ne consegue che

l(θ; y) = n X

i=1

(11)

1.3 Assuzioni e notazioni 10

(12)

1.4 Quantità di verosimiglianza 11

1.4 Quantità di verosimiglianza

1.4.1 Stima di massima verosimiglianza

Seguendo le condizioni poste in Azzalini (2008, pag. 88), si è di fronte ad un problema regolare di stima se:

• il modello è identificabile;

• lo spazio parametrico Θ è un intervallo aperto di Rp_;

• le funzioni di probabilità (o densità) hanno tutte lo stesso supporto; • per la funzione di densità f si può scambiare due volte il segno di

integrale con quello di derivata rispetto a θ.

In realtà queste sono condizioni piuttosto deboli che si verificano nella gran parte dei casi pratici. Nel caso oggetto di questa tesi, le condizioni di regola-rità sono soddisfatte.

Il valore ˆθ è detto stima di massima verosimiglianza se L(ˆθ) ≥ L(θ), ∀θ ∈ Θ,

ovvero se ˆθ è il punto di massimo assoluto per la funzione di verosimiglianza. Poiché log(·) è una trasformazione monotona crescente, ne consegue che ˆθ è punto di massimo per L(θ) se e solo se lo è per l(θ).

1.4.2 Funzione punteggio

Si definisce funzione score o punteggio ∂l(θ)

∂θ = l∗(θ). (1.1)

Sotto le condizioni di regolarità il punto di massima verosimiglianza va cerca-to tra le soluzioni dell’equazione l∗(θ) = 0, che prende il nome di equazione di verosimiglianza. Inoltre, vale che

(13)

1.5 Alcuni risultati asintotici 12

1.4.3 Informazione osservata e informazione attesa

La matrice di informazione osservata j(θ) e quella di informazione attesa I(θ) di dimensioni p × p sono definite nel modo seguente

j(θ) = −l∗∗(θ) = ∂l(θ)

∂θT_∂θ, I(θ) = E[j(θ)]. (1.2)

Per indicare la matrice inversa I(θ)−1 nel blocco (τ, τ ) si è soliti indicarla come I(θ)τ τ.

1.5 Alcuni risultati asintotici

Fino ad ora non si è detto nulla circa i vantaggi di utilizzare un approccio di verosimiglianza rispetto ad altri metodi. È auspicabile che lo stimatore fornisca una stima sempre più precisa dei parametri e che converga al vero valore al divergere della numerosità campionaria. Sotto le condizioni di re-golarità è possibile dimostrare alcune proprietà dello stimatore di massima verosimiglianza. In particolare, ˆθ(Y ) è:

• asintoticamente non distorto, ovvero: limn→∞Eθ[ˆθ(Y )] = θ. In campio-ni ficampio-niti è, in generale, distorto;

• consistente, ovvero converge in probabilità a θ, ˆθ(Y ) −→ θ e perciò:p limn→∞Var(ˆθ(Y )) = 0;

• asintoticamente efficiente.

Qualora non fosse possibile risalire alla distribuzione esatta dello stimatore, è possibile ricorrere ad alcuni risultati asintotici. Per n sufficientemente grande vale che

ˆ

θ ˙∼Np(θ, I(θ)−1). (1.3)

La matrice I(θ) in generale non è nota e quindi la si può sostituire sia con I(ˆθ) che con j(ˆθ) che ne costituiscono delle stime consistenti.

Questo risultato è di fondamentale importanza perché ci si riconduce, almeno approssimativamente, ad una distribuzione nota. Ciò permette di co-struire test d’ipotesi ed intervalli di confidenza anche quando la distribuzione esatta è troppo complessa da ricavare analiticamente.

(14)

1.6 Verosimiglianza profilo 13

1.5.1 Test collegati alla verosimiglianza

In un sistema d’ipotesi in cui si ha che H0 : θ = θ0 e H1 : θ 6= θ0 esistono tre test statistici asintoticamente equivalenti che, sotto H0, al divergere di n, convergono in distribuzione ad una distribuzione χ2

p. Il primo è chiamato log-rapporto di verosimiglianza ed è pari a

W (θ0) = 2(l(ˆθ) − l(θ0)) = −2(l(θ0) − l(ˆθ)). (1.4) Il secondo è chiamato test di Wald ed è pari a

We(θ0) = (ˆθ − θ0)TI(θ)(ˆθ − θ0), (1.5) inoltre il terzo è chiamato test score o test di Rao ed è pari a

Wu(θ0) = l∗(θ0)I(θ0)−1l∗(θ0). (1.6) Nel caso in cui p = 1 si ricorre alle versioni unilaterali di questi stessi te-st r(θ0), re(θ0), ru(θ0), che, sotto H0, si distribuiscono approssimativamente come delle N (0, 1). Le definizioni dei test appena citati sono rispettivamente

r(θ0) = sgn(ˆθ − θ0) p W (θ0), re(θ0) = (ˆθ − θ0) q I(ˆθ), ru(θ0) = sgn(ˆθ − θ0)l∗(θ0)I(θ0)− 1 2.

1.6 Verosimiglianza profilo

In alcuni casi pratici, in cui p > 1, l’attenzione è rivolta verso un primo gruppo di parametri detti d’interesse, indicati con τ . Tuttavia si deve co-munque tener conto dell’esistenza dei parametri del secondo gruppo, detti di disturbo, indicati con ζ.

Se ζ = ζ0, ovvero se fosse noto, la funzione di verosimiglianza sarebbe L(τ, ζ0). Ciò tipicamente non avviene e v’è quindi la necessità di introdurre una sorta di surrogato per la funzione di verosimiglianza propria in cui ζ è sostituito con una sua stima. Tale funzione e la sua rispettiva trasforma-ta logaritmica sono chiamate di verosimiglianza e log-verosimiglianza profilo.

(15)

1.7 Metodo di Newton-Raphson 14

Lp(τ ) = L(τ, ˆζτ) e lp(τ ) = l(τ, ˆζτ) (1.7) La stima per ˆζτ è ottenuta come soluzione dell’equazione ∂l(τ,ζ)_∂ζ = 0, ovvero ponendo pari a 0 la derivata parziale in ζ della funzione di verosimiglianza propria considerando τ fissato. Per questo motivo è evidente che la stima di massima verosimiglianza profilo per τ coincide con quella di verosimiglianza propria.

Viene ora presentata una proprietà della verosimiglianza profilo di cui ci si servirà in seguito. Definita l’informazione osservata profilo come

jp(τ ) = − ∂2

∂τ ∂τTlp(τ ) = − ∂2

∂τ ∂τTl(τ, ˆζτ),

si può dimostrare che l’inversa di jp(τ ) è pari all’inversa della matrice di informazione osservata complessiva, nel blocco (τ, τ ). Quindi se j(τ, ζ) è una matrice a blocchi definita come

j(τ, ζ) = " jζζ(τ, ζ) jζτ(τ, ζ) jτ ζ(τ, ζ) jτ τ(τ, ζ) # ,

allora vale che

jp(τ )−1 = [j(τ, ˆζ)−1]τ τ =

jτ τ(τ, ˆζ) − jτ ζ(τ, ˆζ)jζζ(τ, ˆζ)−1jζτ(τ, ˆζ) −1

, (1.8) il cui risultato deriva dalla regola di inversione a blocchi.

Per sistemi d’ipotesi in cui si ha che H0 : τ = τ0 e H1 : τ 6= τ0, esiste una statistica test detta di log-rapporto di verosimiglianza profilo. Si può dimostrare che essa sotto H0 converge in distribuzione ad una distribuzione χ2

q, dove q = dim(τ0). La sua definizione è

Wp(τ0) = 2 lp(ˆτ ) − lp(τ0)= 2 l(ˆτ , ˆζτ) − l(τ0, ˆζτ0).

1.7 Metodo di Newton-Raphson

Alcune difficoltà sorgono quando si tenta di ottenere la soluzione di l∗(θ) = 0. Può accadere che non sia possibile esplicitare la stima di massima verosi-miglianza ed in tal caso si deve ricorrere ad algoritmi numerici. Uno di questi,

(16)

1.7 Metodo di Newton-Raphson 15 che non necessariamente è il più efficiente in termini computazionali, è il me-todo di Newton-Raphson. È un algoritmo iterativo che necessita di un punto d’inizio. Ne viene data, in questo paragrafo, una sommaria spiegazione.

Lo sviluppo in serie di Taylor della funzione l∗(θ) porge

l∗(θ) = l∗(θ0) + l∗∗(θ0)(θ − θ0). (1.9) Imponendo la soluzione l∗(θ) = 0 e ricordando che l∗∗(θ) = −j(θ) si ottiene che

l∗(θ0) − j(θ0)(θ − θ0) = 0 j(θ0)(θ − θ0) = l∗(θ0) θ = θ0+ j(θ0)−1l∗(θ0),

da cui è possibile stabilire un algoritmo iterativo in cui ˆ

θk+1= ˆθk+ j(ˆθk)−1l∗(ˆθk). (1.10)

1.7.1 Algoritmi numerici con R

Nel corso della relazione verrà utilizzato il metodo di Newton-Raphson come approssimazione numerica della stima di massima verosimiglianza. È bene tener conto che, tuttavia, esistono numerosi altri algoritmi che permet-terebbero di ottenere lo stesso risultato. Molti di questi sono già implementati nel software R. Per maggiori approfondiment riguardanti il software utilizzato si veda R Core Team (2012).

A titolo esemplificativo, vengono calcolate le stime di massima verosi-miglianza per i dati riportati in Tabella 1.1, che rappresentano il tempo di rottura di alcune molle, sottoposte a ripetuti sforzi tramite pesi differenti. I dati hanno la seguente struttura. A questo scopo, si utilizzeranno solamente le prime 10 osservazione relative alla variabile cycles che si assumerà sia-no realizzazioni indipendenti provenienti da una variabile Weibull che abbia funzione di densità pari a

p(x; γ, λ) =γ λ x λ γ−1 exp{−x λ γ }.

(17)

Tabella 1.1: Le prime 10 osservazioni dei dati stress

cycles cens stress

1 225 1 950 2 171 1 950 3 198 1 950 4 189 1 950 5 189 1 950 6 135 1 950 7 162 1 950 8 135 1 950 9 117 1 950 10 162 1 950 y<- stress$cycles[1:10]

Si definisce quindi la funzione di log-verosimiglianza cambiata di segno

nlog.weibull<-function(par,y) -sum(dweibull(y,par[1],par[2],log=TRUE))

Quindi si utilizza il comando nlminb, che permette la minimizzazione di una funzione

smv<- nlminb (start=c(0.5,0.5), nlog.weibull, lower=c(1e-8,1e-8),y=y)

La stima di massima verosimiglianza risulta essere ˆθ = (ˆγ, ˆλ) = (5.97, 181.4). Inoltre, tramite la librerianlmeè possibile ottenere la matrice hessiana e, dun-que, anche quella di informazione osservata. Utilizzando lo stesso campione, il codice da utilizzare è

library(nlme)

theta.cappello<-smv$par

fdHess(theta.cappello, nlog.weibull, y=y)

Alternativamente si può utilizzare la libreria numDeriv, che permette di ot-tenere lo stesso risultato con algoritmi più affidabili. Il codice utilizzato è

(18)

library(numDeriv) theta.cappello<-smv$par

hessian(nlog.weibull, theta.cappello, y=y)

Trattandosi di un caso piuttosto semplice, entrambe le funzioni portano a risultati estremamente simili. La matrice di informazione osservata è pari a

j(ˆθ) = " 0.524 −0.024 −0.024 0.0108 # .

Questo risultato è stato mostrato non tanto perché di interesse in sè, ma perché la procedura che si è utilizzata verrà ripresa successivamente. I valori che si ottengono numericamente soffrono di un certo grado di approssimazione ma sono molto affidabili. I risultati analitici, invece, sono matematicamente più precisi ma possono contenere errori di distrazione o logici, commessi dalla persona che li ha ottenuti.

Oltre a queste considerazioni, si aggiunge il fatto che spesso non è proprio possibile giungere ad un risultato analitico. Non sempre l’integrazione di una funzione porta ad una primitiva esprimibile come combinazione di funzioni elementari, si pensi ad esempio a Φ(y). In questi casi il calcolo numerico quindi non è più una valida alternativa, ma l’unica via percorribile.

Infine, il metodo numerico non richiede grandi sforzi per essere applicato. È una procedura automatica che necessita unicamente della funzione di log-verosimiglianza.

(19)

Capitolo 2

Modello lineare e trasformazione di

variabili

2.1 Introduzione

Nel capitolo precedente si è discusso in maniera molto generale di modelli statistici parametrici. Una loro sottoclasse è data dai modelli di regressio-ne liregressio-neare la cui importanza è indiscussa in ambito econometrico, sociale, medico e non soltanto. L’ origine degli studi riguardanti i modelli lineari è abbastanza incerta: le prime fondamentali nozioni vennero introdotte da Adrien-Marie Legendre e Carl Friedrich Gauss, nei primi anni del 1800. Es-se tuttavia si svilupparono notevolmente soprattutto quando si cominciò ad ipotizzare una distribuzione per gli errori, estensione ad opera di Karl Pear-son e George Udny Yule tra il 1897 ed il 1903. Si veda Wikipedia, Modello Lineare (2013) e i documenti ivi citati.

Oggi i modelli lineari sono ampiamente utilizzati e studiati. Ne sono state introdotte numerose estensioni: una fra tutte sono i modelli lineari gene-ralizzati, che però non verranno trattati in questa relazione. Per una loro esaustiva trattazione si veda McCullagh e Nelder (1989). Queste innovazioni sono state possibili grazie all’evoluzione della tecnologia che ha permesso lo sviluppo di rapidi algoritmi di calcolo numerico.

(20)

os-2.2 Il modello lineare 19 servazioni e spesso esse vengono contraddette in fase di verifica. In questi casi si può scegliere di ignorare queste violazioni, se si ritiene che siano lievi o irrilevanti, oppure modificare il modello di partenza, nel tentativo di cor-reggerle. Un metodo diffuso consiste nell’agire sulla variabili, dipendenti o indipendenti che siano, trasformandole con opportune funzioni. Nel caso si decidesse di trasformare la variabile dipendente, sono state fatte numerose proposte di cui la soluzione di Box-Cox rappresenta una generalizzazione. In questo capitolo verranno introdotti alcuni concetti fondamentali riguardanti i modelli lineari e verrà discusso l’approccio proposto da Box-Cox, riportando alcuni esempi.

2.2 Il modello lineare

Si definisce modello lineare una qualunque relazione esprimibile nella forma

Y = Xβ + ε, (2.1)

in cui X è una matrice di dimensione n × p nella quale ciascuna colonna rappresenta una variabile, β è un vettore di dimensione p × 1 di parametri ignoti ed ε è un vettore stocastico di dimensione p × 1. Le caratteristiche del modello lineare quindi sono

• la componente stocastica viene addizionata al resto del modello; • la funzione che esprime Y in funzione di X è lineare nei parametri. Un problema di regressione lineare consiste nel cercare di stimare i pa-rametri ignoti contenuti nel vettore β a partire dalle realizzazioni di y = (y1, . . . , yn) che si suppone abbiano la struttura descritta nell’equazione (2.1). Senza ulteriori restrizioni la stima di β è praticamente impossibile ed è per questo che si suppone che valgano almeno le ipotesi del second’ordine. Si richiede cioè che

• X sia una matrice non stocastica di rango pieno: rank(X) = p; • la media degli errori sia nulla: E[ε] = 0;

(21)

2.2 Il modello lineare 20 • la varianza degli errori sia costante (omoschedasticità) e questi siano

incorrelati tra loro: Var(ε) = σ2_I n.

Utilizzando il criterio dei minimi quadrati è possibile giungere a stima-tori consistenti per β che godono di ottime proprietà. Tuttavia per condurre analisi inferenziali bisogna ipotizzare una distribuzione per le osservazioni. Sotto l’ ipotesi di normalità si ha che ε è distribuito come una normale multivariata e quindi

ε ∼ Nn(0, σ2In) che implica Y ∼ Nn(Xβ, σ2In).

2.2.1 La stima dei parametri

Le stime per β, tramite il criterio dei minimi quadrati, si ottengono mi-nimizzando la funzione Q(β) = (Y − Xβ)T(Y − Xβ) = ||Y − Xβ||2, cioè la distanza tra i valori assunti da Y e quelli previsti dal modello. Si può di-mostrare che nella funzione di massima verosimiglianza profilo per β, sotto l’ipotesi di normalità, il punto di massimo assoluto coincide con quello di mi-nimo della funzione Q(β). Entrambi i metodi di stima per β portano dunque al risultato

ˆ

β = (XTX)−1XTY.

Sotto le condizioni del second’ordine lo stimatore si verifica essere non di-storto e consistente ed inoltre è denominato BLUE (Best Linear Unbiased Estimator). Ciò significa che esso è lo stimatore più efficiente nella classe degli stimatori lineari non distorti. Questo risultato è stato dimostrato nel noto teorema di Gauss-Markov. Si veda Pace e Salvan (2001, pag. 296). Una stima per σ2 _è

ˆ

σ2 = ||y − X ˆβ|| 2

n ,

che è la stima di massima verosimiglianza. In genere però, poichè ˆσ2 _{è uno} stimatore distorto, si preferisce una sua lieve correzione: s2_{, definita come}

s2 = ||y − X ˆβ|| 2

n − p ,

(22)

2.3 Trasformazioni della variabile dipendente 21

2.2.2 Inferenza sui parametri

La semplice stima dei parametri sarebbe inutile se non si riuscisse in qualche modo a quantificarne la precisione. Perciò si ottengono dei test che sono connessi alla verosimiglianza e sono però propri solo dei modelli lineari normali.

Si voglia verificare un sistema d’ipotesi del tipo H0 : Hβ = 0 e H1 : Hβ 6= 0 dove H è una matrice q × p, con q ≤ p. Ciascuna riga rappresenta uno dei vincoli lineari che si intende imporre. Nel capitolo precedente è stato definito il test statistico log-rapporto di verosimiglianza che permetterebbe di verificare H0. La distribuzione normale rende i calcoli analitici piuttosto agevoli e questo consente di arrivare, tramite opportune trasformazioni mo-notone di Wp(θ), ad una quantità la cui distribuzione è completamente nota. Si dimostra che

F = ||ˆµ − ˆµ0|| 2_/q

||y − ˆµ||2_{/(n − p)} ∼ F(q,n−p),

in cui ˆµ = X ˆβ e ˆµ0 = X ˆβ0. Nel caso in cui q = 1 si ha che t2 = F , con t che ha distribuzione t di student con n − p gradi di libertà. Questo implica che con un unico test è possibile verificare tutti i vincoli lineari che si desiderano. Esistono alcuni rilevanti casi particolari: spesso si vuole verificare la nullità di un parametro o di un intero gruppo di questi. Se l’ipotesi nulla venisse accettata, si potrebbero escludere alcune variabili dal modello con un risparmio dal punto di vista interpretativo e, a volte, anche economico.

Queste interessanti applicazioni si reggono sulle ipotesi sopra formulate e, se queste venissero a cadere, i test statistici potrebbero diventare privi di significato. Ecco perchè verranno presentate alcune soluzioni nel paragrafo successivo.

2.3 Trasformazioni della variabile dipendente

Le ottime proprietà del modello lineare normale decadono se qualcuna delle ipotesi iniziali non è rispettata. Ad esempio, i dati potrebbero non avere varianza costante (eteroschedasticità), oppure gli errori potrebbero

(23)

2.3 Trasformazioni della variabile dipendente 22 non provenire da una distribuzione normale o essere correlati. Non esiste un unico approccio risolutivo e le vie percorribili in generale sono:

• ignorare la violazione delle ipotesi e trattare il modello come se queste fossero vere;

• inserire nel modello nuove variabili. È bene far notare che spesso questo non è possibile per motivi economici o di contesto;

• rispecificare il modello. In presenza di errori correlati, ad esempio, potrebbe essere conveniente utilizzare modelli per serie storiche; • trasformare le variabili tramite una funzione

Non esiste una ricetta che permetta di scegliere la soluzione migliore, ammes-so che ne esista una ammes-sola. La scelta dipende dalle esigenze di chi poi utilizzerà il modello e dalla gravità della violazione delle ipotesi.

Anche nel caso in cui si decidesse di trasformare una variabile, le possibili-tà sono numerose. Si potrebbe agire contemporaneamente su tutte le variabili o su una sola di esse. Focalizzando l’attenzione sulla variabile dipendente, le funzioni utilizzate più di frequente sono: la radice quadrata, il logaritmo naturale, il reciproco.

Una prima classe di trasformazioni per la dipendente è stata proposta in Tukey (1957). Essa prevedeva

yλ =    yλ se λ 6= 0 log y se λ = 0 , (2.2)

per valori di y positivi. A seconda del parametro λ si possono ottenere una grande varietà di trasformazioni. Due raffinamenti della (2.2) sono dati dalle trasformazioni Box-Cox, in Box e Cox (1964), le cui espressioni sono

yλ =    yλ₋₁ λ se λ 6= 0 log y se λ = 0 , (2.3)

per valori di y strettamente positivi e

yλ =    (y+λ2)λ1−1 λ1 se λ1 6= 0 log (y + λ2) se λ1 = 0 , (2.4)

(24)

2.4 Modalità d’utilizzo 23 per valori di y maggiori di λ2. Nel seguito della relazione si farà riferimento alla (2.3) a meno che non venga espressamente detto il contrario. Si noti che essa è pari alla (2.2) a meno di trasformazioni lineari. Questo implica che i due modelli sono del tutto equivalenti. Tuttavia vale l’apprezzabile proprietà

lim λ→0

yλ_{− 1}

λ = log y, che implica la continuità della funzione in λ.

Molte altre trasformazioni sono state proposte nel corso degli anni, cia-scuna per correggere difetti della trasformazione Box-Cox. Per una rassegna esaustiva si veda Sakia (1992). Nonostante ciò, la sua semplicità ha fatto in modo che si diffondesse rapidamente e divenisse uno standard nell’ambito della trasformazione di variabili.

Una formulazione alternativa di una certa rilevanza è presente in Bickel e Doksum (1981, pag. 297), riportata qui di seguito

yλ =

sgn(y)|y|λ− 1

λ , (2.5)

con λ > 0. Per gli y positivi la trasformazione, ed anche la funzione di verosimiglianza, coincide con la (2.3). Tuttavia ora y può assumere anche valori negativi. Questa trasformazione è, da un punto di vista teorico, più corretta perchè il campo di variazione di yλ è ora l’intero insieme reale.

2.4 Modalità d’utilizzo

L’approccio usuale consiste nello stimare il parametro λ, spesso tramite verosimiglianza, per poi trattare la stima, o un suo intero vicino, come noto. Sono gli stessi Box e Cox a proporre questa modalità in Box e Cox (1964, pag. 239). Si deve però stabilire se è d’interesse studiare il fenomeno in una determinata scala, suggerita dai dati, oppure lo si vuole analizzare in una scala ignota che dipende dal vero parametro λ0, come loro stessi fanno nota-re. Nel secondo caso si sta quindi supponendo che il modello correttamente specificato sia

Yλ_{− 1}

(25)

2.5 I dati cars 24 È evidente che non si può trascurare la variabilità aggiunta che la stima di λ comporta. In particolare le varianze associate alle stime dei parametri β saranno presumibilmente maggiori di quelle del modello in cui λ è trattato come noto. Si dovrà quindi utilizzare un approccio alternativo per cercare di quantificare la variabilità aggiuntiva.

2.5 I dati

cars

Verrà ora presentato un dataset per illustrare la procedura originaria proposta da Box-Cox. Si è scelto un insieme di dati in cui, ovviamente, vi fosse la necessità di una trasformazione della variabile dipendente che fosse, inoltre, strettamente positiva.

I dati cars sono relativi alla distanza percorsa da un auto, che viaggiava ad una certa velocità prima di fermarsi. La distanza è espressa in piedi, la ve-locità in miglia orarie. Sono 50 osservazioni che risalgono agli anni venti. Sono presenti nel software R e possono essere facilmente richiamati col comando data(cars). In Figura 2.1 v’è una loro rappresentazione. Si è interessati a spiegare la distanza percorsa dalle auto in funzione della loro velocità.

Appare evidente che intercorre una relazione tra le due variabili. Si intra-vede tuttavia un problema di eteroschedasticità nel caso si scegliesse di utiliz-zare semplicemente un modello lineare, anche se in forma non eccessivamente grave.

Si introduce allora la trasformazione Box-Cox e dunque il modello viene definito in questa maniera

Y_iλ− 1

λ = β0 + β1xi+ εi,

per i = 1, . . . , 50, in cui sono valide tutte le ipotesi fatte in questo capitolo. La stima di massima verosimiglianza è ˆλ = 0.43, ottenuta con i metodi descritti nei capitoli successivi. Al posto di utilizzare la stima di massima verosimiglianza si assume che λ sia noto e posto pari a 0.5. Il modello diventa

p

Yi = β0+ β1xi+ εi, (2.7)

Utilizzando il software R il modello viene stimato e sono riportate in Tabella 2.1 le stime dei coefficienti con i relativi scarti quadratici medi.

(26)

2.5 I dati cars 25

(27)

2.5 I dati cars 26

(28)

2.5 I dati cars 27

Tabella 2.1: Sommario di R per la stima del modello√Yi = β0+ β1xi+ εi Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.2771 0.4844 2.64 0.0113

speed 0.3224 0.0298 10.83 0.0000

L’adattamento è buono, non si riscontrano particolari problemi nei gra-fici diagnostici. Questi stessi dati verranno rianalizzati successivamente, uti-lizzando un approccio differente. Ciò che per ora si fa notare è che l’unica variabile esplicativa è indubbiamente significativa.

(29)

Capitolo 3

Box-Cox e l’approccio di

verosimiglian-za

3.1 Introduzione

Per condurre un’analisi approfondita circa gli effetti di λ sul resto del mo-dello è necessario ricavare le matrici di informazione osservata j(θ) e quella di informazione attesa I(θ) da utilizzare, ad esempio, nel test statistico definito nella (1.5). Grazie a queste due matrici sarà possibile quindi avere un’eviden-za empirica a sostegno della supposizione dell’aumento della variabilità nel modello. La prima può essere ottenuta sia analiticamente che numericamen-te. La seconda invece comporta alcune difficoltà aggiuntive. Per ottenerle si dovrà innanzitutto costruire un algoritmo di approssimazione numerica con il quale ottenere le stime di massima verosimiglianza. Si è deciso di mostrare ogni singolo passaggio effettuato per raggiungere il risultato. I risultati ine-renti alla matrice di informazione osservata e l’algoritmo di Newton-Raphson sono parzialmente basati su Scott, 1999.

Si ipotizza che il modello abbia la forma specificata nella (2.6), che gli errori siano normali e che valgano le ipotesi del second’ordine.

(30)

3.2 Funzione di verosimiglianza 29

3.2 Funzione di verosimiglianza

Il primo passo consiste nel ricavare la funzione di densità per Y , da cui poi si otterrà la funzione di verosimiglianza e tutte le quantità ad essa collegate. La distribuzione di Y non è nota ma può essere calcolata analiticamente. Sia Yλ la variabile trasformata per la quale vale che

Yλ = Xβ + ε.

Allora seguirà che Yλ ∼ N (Xβ, σ2In) e la funzione di densità sarà pari a fyλ(yλ) = 1 (2πσ)n/2e − 1 2σ2(yλ−Xβ) T_(y λ−Xβ)_,

che si ricava dalla definizione di normale multivariata. Non è questa tuttavia la quantità d’interesse: si vuole trovare la funzione di densità per Y . Si defi-nisca Yλ = g(Y ) la relazione che intercorre tra le due variabili. È noto che le funzioni di densità sono legate dalla relazione

fy(y) = fyλ g(y)|J(y)|, (3.1)

dove |J (y)| è il determinante della matrice jacobiana definita come J (y) = ∂g(y)

∂y . Si ottiene che g(yi)

∂yj

= 0 per i 6= j e g(yi) ∂yj

= y_jλ−1 per i = j, con i, j = 1, . . . , n. Quindi risulta che J (y) = diag y₁λ−1, . . . , yλ−1

n . Trattan-dosi di una matrice diagonale, il determinante è semplicemente il prodotto di ciascun elemento: |J(y)| = n Y i=1 y_iλ−1.

A questo punto, sfruttando la (3.1), si ottiene la funzione di densità e dunque anche la funzione di verosimiglianza per Y . Viene riportata solamente la seconda che è pari a

L(θ; y) = 1 (2πσ)n/2e − 1 2σ2(yλ−Xβ) T_(y λ−Xβ) n Y i=1 y_iλ−1,

(31)

3.3 Funzione punteggio 30 dove θ = (β, σ2_{, λ). Come di consueto, si preferirà non trattare direttamente} la funzione di verosimiglianza, ma la sua trasformazione logaritmica. Perciò si proseguirà utilizzando la funzione di log-verosimiglianza che è

l(θ; y) = −n 2log (2πσ 2_{) −} 1 2σ2(yλ− Xβ) T_(y λ− Xβ) + (λ − 1) n X i=1 log yi.

3.3 Funzione punteggio

La funzione punteggio, definita nella (1.1), verrà calcolata a gruppi di parametri. Si procede innanzitutto alla derivazione per β e per σ2_{, il cui} calcolo è abbastanza agevole. Derivando per β si ottiene che

∂l(θ; y) ∂β = ∂ − 1 2σ2(yλ − Xβ)T(yλ − Xβ) ∂β = − 1 2σ2∂ (yT λyλ− (Xβ)Tyλ− yλTXβ + βTXTXβ) ∂β = − 1 2σ2(−2X T yλ+ 2XTXβ) = −1 σ2(−X T yλ+ XTXβ). Inoltre la derivazione per σ2 fornisce

∂l(θ; y) ∂σ2 = − n 2σ2 + (yλ− Xβ)T(yλ− Xβ) 2(σ2₎2 .

Si nota subito che queste due funzioni sono molto simili alle corrispondenti quantità di verosimiglianza in cui, al posto della variabile y, c’è la sua tra-sformazione yλ. Ciò comporta che si otterranno le consuete stime di massima verosimiglianza per la variabile trasformata, per ˆλ fissato.

Infine si deriva rispetto a λ, ottenendo ∂l(θ; y) ∂λ = − 1 2σ2∂ (yλ − Xβ)T(yλ− Xβ) ∂λ + n X i=1 log yi = −2(yλ− Xβ) T 2σ2 ∂yλ ∂λ + n X i=1 log yi = −u T_(y λ− Xβ) σ2 + n X i=1 log yi,

(32)

3.4 Matrice di informazione osservata 31 dove u = ∂yλ

∂λ. Il generico elemento ui per λ 6= 0 è dato da ui = ∂ ∂λ yλ i − 1 λ = yλ i log yiλ− 1+1 λ2 .

Per λ = 0 invece la funzione è ricavata come soluzione del limite limλ→0ui. Nel complesso risulta quindi che

ui =    yλ i(log yiλ−1)+1 λ2 se λ 6= 0 log2_(y i) 2 se λ = 0 .

Riassumendo, la funzione score è il vettore seguente

l∗(θ; y) =         ∂l(θ;y) ∂β ∂l(θ;y) ∂σ2 ∂l(θ;y) ∂λ         =         −1 σ2(−XTyλ+ XTXβ) − n 2σ2 + (yλ−Xβ)T(yλ−Xβ) 2(σ2₎2 −uT(yλ−Xβ) σ2 + Pn i=1log yi         .

3.4 Matrice di informazione osservata

La matrice j(θ) è ricavata prima ancora di impostare le equazioni di vero-simiglianza perchè sarà necessaria in seguito per il loro calcolo. Questa inver-sione nella procedura è quindi, in questo caso, concettualmente più lineare di quella usuale.

Come per la funzione l∗(θ; y), anche j(θ) verrà calcolata per gruppi di parametri. Si suddivide la matrice simmetrica j(θ) a blocchi, come segue

j(θ) =    j11(θ) j12(θ) j13(θ) − j22(θ) j23(θ) − − j33(θ)   = −    ∂l(θ;y) ∂βT_∂β ∂l(θ;y) ∂σ2_∂β ∂l(θ;y) ∂λ∂β − ∂l(θ;y)_∂(σ2₎2 ∂l(θ;y) ∂σ2_∂λ − − ∂l(θ;y)_∂λ2   . (3.2)

Innanzitutto si ottiene il blocco per la derivata seconda di β j11(θ) = − ∂l(θ; y) ∂βT_∂β = − ∂ ∂β − 1 σ2(−X T_y λ+ XTXβ) = X T_X σ2 ,

(33)

3.4 Matrice di informazione osservata 32 ovvero una matrice di dimensione p × p. Il vettore misto in β e σ2 _è

j12(θ) = − ∂l(θ; y) ∂σ2_∂β = − ∂ ∂σ2 − 1 σ2(−X T yλ+ XTXβ) = X T_y λ− XTXβ (σ2₎2 , di dimensione p × 1. Il vettore misto in β e λ è

j13(θ) = − ∂l(θ; y) ∂λ∂β = − ∂ ∂λ − 1 σ2(−X T_y λ+ XTXβ) = −X T_u σ2 , ricordando che si è definito u = ∂yλ

∂λ. Quindi j13(θ) ha dimensione p × 1. Lo scalare relativo alla derivata seconda per σ2 _{è dato da}

j22(θ) = − ∂l(θ; y) ∂σ2_∂σ2 = − ∂ ∂σ2 − n 2σ2 + (yλ − Xβ)T(yλ− Xβ) 2(σ2₎2 = − n 2(σ2₎2 + (yλ− Xβ)T(yλ− Xβ) (σ2₎3 .

Lo scalare relativo alla derivata mista in λ e σ2 è pari a

j23(θ) = − ∂l(θ; y) ∂λ∂σ2 = − ∂ ∂λ (y_λ− Xβ)T(y_λ− Xβ) 2(σ2₎2 = −2(yλ− Xβ) T 2(σ2₎2 ∂yλ ∂λ = −u T_(y λ− Xβ) (σ2₎2 = − (yλ− Xβ)Tu (σ2₎2 Infine va calcolata la derivata seconda in λ

j33(θ) = − ∂l(θ; y) ∂λ2 = ∂ ∂λ uT(yλ− Xβ) σ2 =u T_{u + (y} λ− Xβ)Tv σ2 ,

(34)

3.5 Stime di massima verosimiglianza 33 vi = ∂ui ∂λ = y_iλ[(log (yλ_i)2− 2 log (yλ i) + 2] − 2 λ3 .

Come con ui il caso per λ = 0 è definito come il limλ→0vi =

log (yi)3

3 . Que-sto risultato è mostrato in appendice. Riassumendo, quindi, la matrice di informazione osservata è pari a

j(θ) =    XT_X σ2 XT_y λ−XTXβ (σ2₎2 − XT_u σ2 − − n 2(σ2₎2 + (yλ−Xβ)T(yλ−Xβ) (σ2₎3 − (yλ−Xβ)Tu (σ2₎2 − − uTu+(yλ−Xβ)Tv σ2   .

3.5 Stime di massima verosimiglianza

Nella ricerca della stima di massima verosimiglianza, che va cercata tra le soluzioni dell’equazione l∗(θ) = 0, si incorre in un problema: non tutte le soluzioni sono ricavabili esplicitamente. In particolare, l’equazione relativa alla derivata in λ non ammette soluzione esplicita. Per le altre si ricava che

ˆ βλ = (XTX)−1XTYλ, (3.3) ˆ σ_λ2 = Y T λ (In− P )Yλ n = (Yλ− X ˆβ)T(Yλ− X ˆβ) n . (3.4)

La matrice P è di proiezione ed è definita come P = X(XT_X)−1_XT_{. Questo} suggerisce che per trovare il vettore ˆθ è sufficiente massimizzare la funzione di verosimiglianza profilo per λ e sostituire il punto di massimo nella (3.3) e nella (3.4). La log-verosimiglianza profilo è pari a

lp(λ; y) = − n 2log (2πˆσ 2 λ) − 1 2ˆσ2 λ (yλ− X ˆβλ)T(yλ− X ˆβλ) + (λ − 1) n X i=1 log yi che è equivalente a lp(λ; y) = − n 2log (ˆσ 2 λ) + λ n X i=1 log yi (3.5)

in cui la stima vincolata ˆσ2

λ è data dalla (3.4). Per massimizzare la (3.5) si possono utilizzare numerosi metodi numerici. Verrà utilizzato l’algoritmo di

(35)

3.5 Stime di massima verosimiglianza 34 Newton-Raphson che verrà poi confrontato con altri algoritmi numerici, per verificarne la correttezza.

Innanzitutto viene calcolata la derivata di lp(λ; y) che coincide con ∂l(θ;y)_∂λ in cui però i parametri β e σ2 _{sono sostituiti con la loro stima di massima} verosimiglianza. Si ottiene quindi che:

g(λ) = ∂lp(λ; y) ∂λ = − uT_(y λ− X ˆβ) ˆ σ2 + n X i=1 log yi (3.6)

La soluzione di g(λ) = 0 non è disponibile in forma chiusa, perciò l’algoritmo iterativo sarà:

λk+1= λk+ jp(λk)−1g(λk) (3.7) seguendo le indicazioni date nella (1.10).

3.5.1 La varianza per λ

La funzione jp(λ) andrebbe calcolata come jp(λ) =

∂lp(λ;y)

∂λ2 , ma poichè

j(θ) è nota, essa si può ricavare abbastanza velocemente usando la (1.8). Innanzitutto si fa notare che j12(λ, ˆζˆ_λ) = j21(λ, ˆζˆ_λ)T = 0, con ζ = (β, σ2). Infatti: j12(λ, ˆζ_λˆ) = XT_y λ− XTX ˆβ (ˆσ2₎2 = XT_y λ − XTX(XTX)−1XTyλ (ˆσ2₎2 = 0

. Anche j22(λ, ˆζ_λˆ) può essere semplificata e risulta che

j22(λ, ˆζˆ_λ) = − n 2(ˆσ2₎2 + (yλ− X ˆβ)T(yλ− X ˆβ) (ˆσ2₎3 = − n 2(ˆσ2₎2 + nˆσ2 (ˆσ2₎3 = − n 2(ˆσ2₎2 + n (ˆσ2₎2 = n 2(ˆσ2₎2

Perciò una nuova suddivisione in blocchi dà

j(λ, ˆζˆ_λ) = " jζζ(λ) jζλ(λ) jλζ(λ) jλλ(λ) # =     XT_X ˆ σ2 0 − XT_u ˆ σ2 0T n 2(ˆσ2₎2 − (yλ−X ˆβ)Tu (ˆσ2₎2 −uT_X ˆ σ2 − (yλ−X ˆβ)Tu (ˆσ2₎2 uT_u+(y λ−X ˆβ)Tv ˆ σ2 ,    

(36)

3.6 Trasformazione Bickel e Docksum 35 e quindi complessivamente si ha che

jp(λ)−1 =j(λ, ˆζ_λˆ)−1 λλ= jλλ(λ) − jλζ(λ)jζζ(λ) −1 jζλ(λ) −1 . Si vuole verificare il risultato di:

ˆ σ2jλζ(λ)jζζ(λ)−1jζλ(λ) = h −uT_X ₋yλT(In−P )u ˆ σ2 i " (XTX)−1 0 0T 2ˆσ_n2 # " −XT_u −yλT(In−P )u ˆ σ2 # =h−uT_X(XT_X)−1 ₋2yT λ(In−P )u n i " −XT_u −yTλ(In−P )u ˆ σ2 # = uTP u + 2(y T λ(In− P )u)2 nˆσ2 . Quindi nel complesso si ottiene che:

jp(λ) = uT_{u + (y} λ− X ˆβ)Tv − uTP u ˆ σ2 − 2 n yT λ(In− P )u ˆ σ2 2 = u T_(I n− P )u + yλT(In− P )v ˆ σ2 − 2 n yT λ(In− P )u ˆ σ2 2 . (3.8)

Ottenuto questo risultato bisogna affidarsi ad un calcolatore per ottenere la stima per λ. Un esempio di codice per il software R è dato in appendice.

3.6 Trasformazione Bickel e Docksum

Finora si è scelto di ignorare una particolarità della trasformazione Box-Cox: non si è tenuto conto del fatto che gli errori variano nell’intervallo reale mentre la trasformazione è definita solo nei reali positivi. Nella maggior parte dei casi questo ha poco senso, a meno che non si voglia sostenere che la variabile Y possa assumere anche valori complessi, cosa che nei casi pratici avviene di rado.

Condizionandosi al caso in cui ciascuna realizzazione di Y è positiva, si ottengono risultati ragionevoli sia nelle stime di massima verosimiglianza, sia nella matrice di informazione osservata, pur trattandosi di un approccio formalmente poco corretto.

Qualora si intendesse calcolare il valore atteso E(Y ), però, ci si scontre-rebbe con questa incogruenza formale. Il valore che si otterscontre-rebbe sascontre-rebbe

(37)

3.6 Trasformazione Bickel e Docksum 36 complesso, E(Y ) ∈ C, e non sarebbe più nè utilizzabile nè interpretabile. Per risolvere questa difficoltà si sceglie di abbandonare la trasformazio-ne Box-Cox e di utilizzare al suo posto quella proposta da Bickel e Doksum, 1981, definita nella (2.5).

Quanto descritto nei capitoli precedenti, tuttavia, non perde di validità nel caso in cui y > 0. La trasformazione Bickel-Docksum non deve essere vista come un approccio completamente differente, quanto come un’ esten-sione della trasformazione Box-Cox dato che, per y > 0, queste coincidono. Perciò sia le stime di massima verosimiglianza che la stima della matrice di in-formazione osservata saranno le stesse. Nel caso generale, invece, la funzione di log-verosimiglianza è lBD(θ; y) = − n 2 log (2πσ 2_{) −} 1 2σ2(yλ− Xβ) T_(y λ− Xβ) + (λ − 1) n X i=1 log |yi|, che quindi differisce da l(θ; y) solamente per un modulo e per il fatto che yλ ora rappresenta la nuova trasformazione. Il determinante della matrice jacobiana è |J(y)| = n Y i=1 |yi|λ−1.

I primi due blocchi della funzione score sono praticamente identici a quelli precedentemente ottenuti. Vi sono alcune distinzioni però nel termine ∂l(θ;y)_∂λ . Si ricava infatti che

∂lBD(θ; y) ∂λ = − uT_∗(yλ− Xβ) σ2 + n X i=1 log |yi|,

in cui, con conti analoghi ai precedenti, si definisce l’elemento i-esimo del vettore u∗

u∗i = ∂yiλ

∂λ =

sign(yi)|yi|λ(log (|yi|λ) − 1) + 1

λ2 .

Non è necessario ricavare la matrice di informazione osservata ex novo, ma è sufficiente un accorgimento: jBD(θ) si ottiene sostituendo u∗ al vettore u e v∗ al vettore v all’interno della matrice j(θ). Si definisce v∗ = ∂u_∂λ∗, il cui elemento i-esimo è

vi∗ = ∂ui∗

∂λ =

sign(yi)|yi|λ[(log (|yi|λ) 2

− 2 log (|yi|λ) + 2] − 2

(38)

3.7 Matrice di informazione attesa 37

3.7 Matrice di informazione attesa

Anche se jBD(θ) ha proprietà apprezzabili, esistono validi motivi che spin-gono alla ricerca della matrice I(θ). Innanzitutto I(θ) è definita positiva in qualunque punto essa venga calcolata, mentre questo non è vero per jBD(θ) che lo è, in generale, solo nel punto di massima verosimiglianza. Inoltre I(θ)−1 raggiunge il limite inferiore di Cramer-Rao che implica, sostanzialmente, una maggiore efficienza dello stimatore. La dimostrazione e l’illustrazione di questo risultato sono date in Azzalini, 2008, pag. 79.

Come si è visto, però, la trasformazione Box-Cox non si presta al calcolo dei valori attesi. Qui di seguito quindi verrà mostrato come ricavare la matrice di informazione attesa della trasformazione (2.5) basandosi parzialmente sui risultati già ottenuti in Bickel e Doksum, 1981.

3.7.1 Calcolo degli elementi di I(θ)

La matrice I(θ) non può essere calcolata tramite un processo numerico automatico come avviene con jBD(θ). Si suppone anche questa volta che I(θ) sia una matrice decomposta a blocchi

I(θ) =    i11(θ) i12(θ) i13(θ) − i22(θ) i23(θ) − − i33(θ)   , (3.9)

e verrà calcolata come valore atteso di ciascun elemento di jBD(θ). Per prima cosa si otterranno i valori attesi degli elementi che non presentano grosse problematiche computazionali. L’elemento per i coefficienti β è pari a

i11(θ) = E hXTX σ2 i = X T_X σ2 , (3.10)

che quindi coincide con quello della matrice di informazione osservata, i11(θ) = j11(θ). L’elemento in β e σ2 è pari a i12(θ) = E hXTY_λ− XTXβ (σ2₎2 i = X T_{Xβ − X}T_Xβ (σ2₎2 = 0, (3.11)

(39)

3.7 Matrice di informazione attesa 38 essendo E[Yλ] = Xβ. In questo caso i12(θ) = j12(ˆθ) ed inoltre anche i21(θ) = j21(ˆθ). L’elemento per σ2 è pari a

i22(θ) = E h − n 2(σ2₎2 + (Yλ− Xβ)T(Yλ− Xβ) (σ2₎3 i .

Per definizione, posto Q = ZTZ con Z ∼ Nn(0, In), si ha che Q ∼ χ2n. Da ciò segue che se U ∼ Nn(0, σ2In) allora UTU ∼ σ2χ2n. È noto che E[Q] = n. Poichè è immediato notare che (Yλ − Xβ) ∼ Nn(0, σ2In), si ottiene che E[(Yλ − Xβ)T(Yλ− Xβ)] = nσ2. Perciò i22(θ) = − n 2(σ2₎2 + nσ2 (σ2₎3 = n 2(σ2₎2. (3.12)

Quindi anche per questo caso si ha che i22(θ) = j22(ˆθ). Per gli elementi successivi la questione diventa più complessa perchè non si riesce a ricon-dursi a distribuzioni note di cui si conosce il valore atteso. Si ricorrerà ad algoritmi numerici per approssimare i valori attesi che non sono ricavabili analiticamente.

Si introduce un risultato preliminare, dimostrato in Ross,2007, pag. 204. Sia Z una variabile casuale continua con funzione di densità f (z) e g(·) una funzione a valori reali; allora vale che

E[g(Z)] = Z +∞

−∞

g(z)f (z) dz. (3.13)

I valori attesi di cui non si dispone di un risultato analitico sono, sostanzial-mente, tre. In particolare si vogliono conoscere

i31(θ) = E h −u T ∗X σ2 i , i32(θ) = E h −(Yλ− Xβ) T_u ∗ (σ2₎2 i , i33(θ) = E huT ∗u∗+ (Yλ− Xβ)Tv∗ σ2 i . (3.14)

Si procede quindi per integrazione numerica tramite la funzione integrate del software R, sfruttatando la (3.13). Si è scelto di utilizzare V , definita qui di seguito, come variabile di riferimento, la cui distribuzione è nota. È

(40)

3.8 Alcune considerazioni 39 necessario quindi esprimere ciascun termine in funzione di V . Si definisce quindi

V = sign(Y )|Y |λ che implica che |V | = |Y |λ_. _(3.15) Ne consegue inoltre che V ∼ Nn(1 + λXβ, λ2σ2In), grazie alle proprietà della distribuzione normale. I vettori u∗ e v∗ possono essere riscritti come segue

u∗ = 1 + V (log |V | − 1) λ2 , v∗ = V log(|V |)2_{− 2 log |V | + 2−2} λ3 .

Ponendo µ pari a Xβ si ottiene anche che Yλ− Xβ =

V − 1

λ − µ. (3.16)

Unendo queste quantità nella maniera indicata nella (3.14), si perviene al risultato finale. Non vengono riportate le formule complessive per evitare inutili appesantimenti nella lettura. Per i32(θ) può essere utile ricordare che

Eh−u T ∗(yλ− Xβ) σ2 + n X i=1 log |yi| i = 0,

per le proprietà del vettore score. Si ricava quindi che i32(θ) = E h −(Yλ− Xβ) T_u ∗ (σ2₎2 i = 1 σ2_λ n X i=1 E[log |Vi|]. (3.17)

3.8 Alcune considerazioni

In questo capitolo sono state analizzate due differenti trasformazioni: quel-la proposta da Box-Cox e quelquel-la suggerita da Bickel e Docksum. Esse non sono intercambiabili e non possono essere ipotizzate contemporaneamente. Un approccio sensato, per dati positivi, potrebbe essere: ipotizzare la tra-sformazione (2.5) per la variabile dipendente tenendo conto che i risultati inferenziali che se ne otterrebbero utilizzando invece la (2.4), sarebbero i me-desimi. Infatti coinciderebbero sia le stime di massima verosimiglianza che la matrice di informazione osservata. Tuttavia ora è lecito utilizzare la matrice

(41)

3.9 Test log-rapporto di verosimiglianza 40 di informazione attesa senza incorrere in valori complessi, che sarebbero di difficile interpretazione ed inoltre più complicati da gestire a livello di calcolo numerico.

Nonostante le dimensioni trascurabili di questi valori, non si vede l’uti-lità di rocambolesche approssimazioni quando una soluzione più corretta è facilmente disponibile.

3.9 Test log-rapporto di verosimiglianza

Un metodo alternativo per condurre verifiche d’ipotesi sui coefficienti β è il test log-rapporto di verosimiglianza. La sua definizione è

Wp(β0) = 2 lp( ˆβ) − lp(β0). (3.18) Il suo utilizzo richiede la risoluzione di un problema di ottimo vincolato in quanto nella funzione lp(β0) i termini di disturbo devono essere massimizzati. Per questa ragione è necessario il calcolo analitico della seguente quantità

min l(θ; y) sotto il vincolo Hβ = C.

Il teorema dei moltiplicatori di Lagrange garantisce che le soluzioni del pro-blema di ottimo vanno ricercate tra le soluzioni del seguente sistema

( _∂

∂βl(θ; y) = H T_γ

Hβ = C ,

dove γ è il vettore dei moltiplicatori di Lagrange. Si sono omesse la stime di σ2 _{e λ perchè esse coincidono con quelle usuali, sostituendovi le nuove stime} di β. Come si è visto in precedenza, il risultato che se ne ottiene è

( − 1 σ2(−X T_y λ+ XTXβ) = HTγ Hβ = C .

Focalizzando l’attenzione sul primo termine si ottiene che − 1 σ2(X T_X)−1 (−XTyλ) − 1 σ2(X T_X)−1 XTXβ = (XTX)−1HTγ, β = (XTX)−1(XTyλ) − σ2(XTX)−1HTγ, β = ˆβ − σ2(XTX)−1HTγ.

(42)

3.9 Test log-rapporto di verosimiglianza 41 Sostituendo la quantità ottenuta nel vincolo si ottiene che

H ˆβ − σ2(XTX)−1HTγ= C, − σ2_H(XT_X)−1

HTγ = C − H ˆβ Definendo K = H(XTX)−1HT−1

, si ottiene quindi che ˆ

γ = − 1

σ2K(C − H ˆβ)

Risostituendo il termine γ nell’equazione precedente si ottiene in conclusione che

ˆ

β0 = ˆβ + (XTX)−1HTK(C − H ˆβ).

Le stime per σ2 e per λ derivano di conseguenza e vengono calcolate la prima analiticamente, la seconda numericamente in maniera analoga a quanto visto finora.

(43)

Capitolo 4

Verifiche e simulazioni

4.1 Introduzione

Nel capitolo precedente sono state trattate le trasformazioni dal punto di vista teorico. Scopo di questo capitolo è invece presentare la funzione Boxcox per il software R, con la quale si otterranno tutte le quantità di verosimiglianza viste finora. Questa funzione verrà poi sfruttata per condurre delle simulazioni.

Una prima parte del capitolo sarà dedicata a verificare la correttezza di questa funzione, confrontandola, ove possibile, con altre librerie già presen-ti all’interno del software. Una seconda parte sarà volta a verificare sia la consistenza che la normalità degli stimatori, tramite simulazioni. Infine ci si occuperà di mettere in luce quali possono essere le conseguenze che deriva-no dall’assumere il parametro λ come deriva-noto. Ideriva-noltre, per fornire un esempio pratico, verranno ripresi i dati cars.

4.2 La funzione

Boxcox

La funzione, come è riportata nel Codice A.1 a pagina 69, richiede come argomento il modello di cui si vuole effettuare la trasformazione di variabile. Il suo ouput è costituito da una lista che comprende:

(44)

4.3 Verifica della correttezza del codice 43 • un dataframe, denonominatoCoefficienti, contenente le informazioni

relative ai coefficienti β: stime, deviazioni standard, test statistici; • un dataframe, denonominato lambda, contenente le informazioni

rela-tive al parametro λ: stima, deviazione standard, test statistico per la verifica di λ = 1;

• un intervallo di confidenza per λ con livello di significatività α, deno-minato Intervallo_lambda;

• la stima di massima verosimiglianza per σ2_{, denominata}_{Stima_varianza;} • un oggetto matrix contenente la stima della matrice di informazione

attesa, I(ˆθ), denonimata Informazione_attesa;

• un oggetto matrix contenente la stima della matrice di informazione osservata, j(ˆθ), denominata Informazione_osservata;

• un grafico della log-verosimiglianza profilo per λ in cui è segnalata la sua stima e un intervallo di confidenza, disattivabile ponendo come argomento plot=FALSE.

Tutti i test statistici e gli intervalli di confidenza si basano sul test di Wald in cui si è utilizzata la matrice di informazione attesa I(ˆθ). All’occorrenza si può selezionare un livello di significatività diverso da quello predefinito, ovvero alpha=0.05, inserendolo come argomento. Un esempio di output è riportato nel Codice 4.1.

4.3 Verifica della correttezza del codice

Prima di iniziare a trarre una qualunque conclusione è necessario since-rarsi della bontà del codice utilizzato. Per fare ciò si è scelto, in alcuni casi, di confrontare i risultati prodotti dalla funzione Boxcox con quelli che si ot-terrebbero utilizzando altre funzioni. Altre volte questo non sarà possibile perchè potrebbero non esistere in R delle funzioni analoghe. In questi casi si sceglierà un approccio differente.

(45)

4.3 Verifica della correttezza del codice 44

Codice 4.1: Esempio di output per la funzioneBoxcoxutilizzando il dataframecars

Boxcox(lm(dist~speed))

#$Coefficienti

# Stima StdError TestZ Pvalue #(Intercept) 1.0466220 1.0536595 0.993321 0.32055357 #speed 0.5064258 0.2203969 2.297790 0.02157372

#$lambda

# Stima StdError_Wald Test Pvalue #1 0.4305987 0.1208956 -4.70986 2.478867e-06 #$Intervallo_lambda #[1] 0.1936476 0.6675497 #$Stima_varianza #[1] 2.8362 #$Informazione_Attesa # 17.62922 271.490 0.000000 -374.90744 # 271.49000 4663.987 0.000000 -6635.20490 # 0.00000 0.000 3.107894 -62.40306 # -374.90744 -6635.205 -62.403057 10831.22406 #$Informazione_Osservata # 17.62922 271.490 0.000000 -375.18496 # 271.49000 4663.987 0.000000 -6624.82784 # 0.00000 0.000 3.107894 -62.33529 # -375.18496 -6624.828 -62.335291 10797.92233

(46)

4.3.1 Stima per λ

La stima di massima verosimiglianza, nella funzione Boxcox, è ottenuta tramite l’algoritmo di Newton-Raphson, seguendo il metodo illustrato nel capitolo precedente. Si deve confrontare quindi la stima per λ, calcolata con questo metodo, con quella che si ottiene tramite la funzione nlminb, nella quale si massimizza la log-verosimiglianza profilo. Se le due stime per λ fos-sero uguali, conciderebbero di conseguenza anche quelle per β e σ2 che sono, come si è visto, calcolate esplicitamente. Per far ciò si è definita la funzio-ne nlogprofilo, che è la funzione di log-verosimiglianza profilo cambiata di segno: −lp(θ; y), presentata nel codice Codice A.2 a pagina 74.

Si è condotta una simulazione: sono stati generati 1000 differenti modelli (supponendo λ = 0), in cui n = 50. Per ciascuno di questi modelli si è stimato λ tramite i due differenti metodi allocando i risultati nei vettori lambda1 e lambda2. Viene quindi analizzato il vettore |λ1−λ2|, di cui si forniscono alcune statistiche descrittive. I comandi per la simulazione sono dati nel CodiceA.3 a pagina 75. La Tabella 4.1 riporta i risultati ottenuti. Eccezion fatta per

Tabella 4.1: Statistiche descrittive per |λ1− λ2|,

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.00000 0.00000 0.00000 0.00003 0.00000 0.00709

alcuni valori anomali, i due metodi portano agli stessi risultati. L’indicatore più rilevante è il terzo quartile di |λ1 − λ2|, pari esattamente a 0 che indica un errore praticamente nullo per la gran parte dei casi.

Utilizzando i dati cars, invece, si possono confrontare i grafici in Figu-ra 4.1, prodotti dalla funzione Boxcox e dalla funzione boxcox della libreria MASS. Si tenga presente che la prima costruisce intervalli di confidenza ba-sandosi sul test di Wald, la seconda sul test log-rapporto di verosimiglianza e perciò questi non coincidono, pur essendo molto simili.

4.3.2 Matrice di informazione osservata

Di interesse maggiore è la verifica della correttezza della versione anali-tica della matrice j(θ). A tale scopo, si può utilizzare il comando hessian

(47)

Figura 4.1: Grafico funzioni Boxcoxe boxcox, utilizzando il dataframe cars

della libreria numDeriv per un confronto numerico. È necessaria, però, qual-che operazione aggiuntiva perchè deve essere definita una nuova funzione, quella di verosimiglianza, che sarà poi utilizzata come argomento della fun-zione hessian. Si è deciso di definirla di segno invertito per poter ottenere automaticamente la matrice di informazione osservata. La funzione di vero-simiglianza cambiata di segno, nlog.ver, è definita nel Codice A.4 a pagina 75. Le stime di massima verosimiglianza sono ottenute anch’esse tramite cal-colo numerico. Per confrontare i risultati si è scelto di utilizzare la seguente quantità tr (j1(θ) − j2(θ))2 , (4.1)

che rappresenta la somma di ciascun elemento della matrice differenza preso al quadrato. Vengono generati 1000 modelli, a cui viene applicata la (4.1), ed il risultato viene allocato nel vettore quadJ. Questo processo è eseguito nel Codice A.5 a pagina 75. Le statistiche descrittive, riportate in Tabella 4.2,

Tabella 4.2: Statistiche descrittive per il vettorequadJ,

Min. 1st Qu. Median Mean 3rd Qu. Max.

(48)

4.3 Verifica della correttezza del codice 47 confermano che, ad eccezione di qualche errore di approssimazione numeri-ca, le due stime portano circa allo stesso risultato. Anche in questo caso il terzo quartile è nullo ed indica che nella gran parte dei casi le stime sono praticamente coincidenti.

Confronto matrici dei dati cars

Viene ora riportato un esempio, in cui si confrontano le matrici ottenute nei due metodi, utilizzando i dati cars. La prima si ottiene semplicemente con i comandi seguenti

attach(cars)

Boxcox(lm(dist~speed))$Informazione_Osservata

La seconda invece si ottiene tramite i comandi

theta.cappello<-c(1.0466220,0.5064258,2.8362,0.4305987)

hessian(function(p) nlog.ver(dist,speed,p[1],p[2],p[3], p[4]), theta. cappello)

Il risultato è riportato nella Tabella 4.3. A meno di errori trascurabili, si giunge allo stesso risultato. Con poche righe di codice si è riusciti ad ot-tenere un risultato equivalente, tramite le librerie già presenti. Pur essendo leggermente meno preciso, lo sforzo per il calcolo analitico potrebbe sembrare ingiustificato. Questo non è vero, in questo caso, perchè si è ottenuta anche la matrice di informazione attesa.

4.3.3 Matrice di informazione attesa

Non è possibile verificare la correttezza del codice per la matrice di in-formazione attesa tramite un pacchetto già presente nel software R, perchè non ne esiste uno adeguato allo scopo. Quindi si è scelto di mostrare che, utilizzando una numerosità campionaria elevata, la matrice j(θ) converge a I(θ). Pur non essendo una condizione sufficiente, è comunque un risultato confortante. Il modello dal quale si sta simulando è

(49)

4.4 Normalità degli stimatori 48

Tabella 4.3: Matrice j(ˆθ) per i dati cars

(a) Metodo analitico

(Intercept) β1 σ2 λ 17.62922 271.49000 0.00000 -375.18496 271.49000 4663.98658 0.00000 -6624.82784 0.00000 0.00000 3.10789 -62.33529 -375.18496 -6624.82784 -62.33529 10797.92233 (b) Metodo numerico (Intercept) β1 σ2 λ 17.62922 271.49002 0.00000 -375.18505 271.49002 4663.98702 0.00008 -6624.82942 0.00000 0.00008 3.10790 -62.33543 -375.18505 -6624.82942 -62.33543 10797.92750

con ε ∼ Nn(0, In), ovvero si sta implicitamente assumendo λ = 0. Si sono ge-nerate 2000 osservazioni indipendenti ed identicamente distribuite. I comandi per questa simulazione sono

set.seed(11) x<-runif(2000,0,5) yl<-exp(x+rnorm(2000)) stima<-Boxcox(lm(yl~x))

I risultati sono riportati nella Tabella4.4. Poichè le due matrici paiono abba-stanza simili, pare piuttosto plausibile che i due risultati possano convergere, all’aumentare della numerosità campionaria.

4.4 Normalità degli stimatori

La teoria della verosimiglianza garantisce che gli stimatori utilizzati ab-biano buone proprietà. Poichè in seguito si utilizzerà la normalità appros-simata degli stimatori si vuole mostrare che questa è un’ipotesi plausibile. Anche questo viene verificato tramite una simulazione. Per n sufficientemen-te elevato lo stimatore di massima verosimiglianza ha distribuzione normale.

(50)

4.4 Normalità degli stimatori 49 (c) Matrice di informazione attesa

(Intercept) β1 σ2 λ

1854.58 4669.65 0.00 -9165.76

4669.65 15592.38 0.00 -32989.32

0.00 0.00 859.87 -4704.75

-9165.76 -32989.32 -4704.75 109022.59 (d) Matrice di informazione osservata

(Intercept) β1 σ2 λ

1854.58 4669.65 0.00 -9165.35

4669.65 15592.38 0.00 -33055.40

0.00 0.00 859.87 -4704.77

-9165.35 -33055.40 -4704.77 109668.21

Tabella 4.4: Risultati della simulazione, convergenza delle matrici I(θ) e j(θ)

Il processo generatore dei dati è yλ− 1

λ = 0.5x + ε, (4.3)

con ε ∼ Nn(0, In) e λ = 0.5. La quantità pivotale di cui è nota la distribuzione è la seguente ˆ β1 − 0.5 pI(θ)β1β1 ˙ ∼ N (0, 1). (4.4)

Il coefficiente β è stimato per N = 1000 volte, con n = 200, allocando ciascun valore nel vettore beta.stima mentre gli standard error vengono conservati nei vettori SeJ e SeI. Nel Codice A.7 a pagina 76 si effettua questa specifi-ca simulazione. In Figura 4.2 vi è una diagnostica grafica per verifica della normalità della quantità pivotale oggetto d’analisi. Si applica inoltre il test di Shapiro-Wilks, il cui p-value risulta essere circa 0.06. Alla luce di ciò, si accetta l’ipotesi di normalità dello stimatore nonostante l’asimmetria mani-festata dai dati. Si deve infatti tenere conto che la normalità è garantita solo asintoticamente e non per campioni finiti.

Per meglio comprendere quanto sia plausibile assumere la normalità dello stimatore, questa simulazione viene replicata cambiando alcuni parametri.

(51)

4.4 Normalità degli stimatori 50

(a) Il grafico quantile contro quan-tile

(b) Frequenze e approssimazione gaussiana

Figura 4.2: Grafici diagnostici per la normalità dello stimatore con N = 1000 e

n = 200

Si assumerà n = 50, 100, 150, 200 e λ = −1, 0, 0.5, 1. Nella Tabella 4.5 viene riportato l’errore medio per β1 definito come

Errore Medio = PN

i=1βˆ1i

N − β1. (4.5)

I grafici diagnostici per queste simulazioni sono riportati in Figura 4.3. Ciò che se ne deduce è che, nella maggior parte dei casi, la convergenza alla normalità non avviene. Lo stimatore pare essere distorto anche se converge lentamente al vero valore, all’aumentare della numerosità campionaria. La velocità di convergenza dipende dal valore dei parametri e va valutata caso per caso. Ciò suggerisce una certa cautela al momento della verifica d’ipotesi soprattutto quando non si dispone di una grande quantità di dati.

λ = −1 λ = 0 λ = 0.5 λ = 1

n = 50 -0.36 0.023 0.0015 0.0444

n = 100 -0.19 0.011 0.0002 0.0264

n = 150 -0.09 0.009 0.0001 0.0204

n = 200 -0.06 0.009 0.0001 0.0112

(52)

4.4 Normalità degli stimatori 51 (a) λ = − 1 (b) λ = 0 (c) λ = 0 .5 (d) λ = 1 Figur a 4.3: Grafici diagnositici p er la normalità di ˆ β1 p er n = 50 , 100 , 150 , 200 in senso orario a partire dalla pri ma in al to a sinistra