• Non ci sono risultati.

FASE 3: CREAZIONE DEL QUESTIONARIO

6. L'IDENTIFICAZIONE DEL MODELLO

Il trattamento del tema dell'identificazione del modello econometrico per l‟argomento di cui si sta discutendo richiede, preventivamente, la definizione dei concetti come già accennati di variabili endogene ed esogene.

Secondo l'approccio tradizionale (definito "della Cowles Commission"), le variabili di interesse del problema da affrontare (da modellare) sono classificabili a priori in variabili endogene e variabili esogene. Le variabili endogene sono quelle spiegate dal modello strutturale, le variabili esogene sono le variabili che, anche se entrano a far parte del modello, non ne sono spiegate. Ad esempio, in un modello di determinazione dei prezzi in Italia, i prezzi al consumo e i salari sono variabili endogene, mentre i prezzi delle materie prime sono esogeni: i prezzi delle materie prime, solitamente stabiliti dalle condizioni di domanda e di offerta sui mercati internazionali, hanno una influenza sulla formazione di prezzi al consumo e salari in Italia ma, a loro volta, non ne sono influenzati; detto altrimenti, le condizioni di prezzo e di salario in Italia non retroagiscono sul meccanismo di formazione dei prezzi delle materie prime.

Le precedenti definizioni si ricollegano alle ipotesi statistiche del modello classico di regressione lineare, in quanto le variabili Yi sono le variabili endogene (cui corrisponde una equazione) e le variabili Xi sono le variabili esogene, definite non stocastiche: sono fisse (date) indipendentemente dal valore assunto dalle variabili Yi.

Nella fase di specificazione del modello, data la classificazione in endogene ed esogene delle variabili di interesse del problema che si intende affrontare (ad esempio, il modello più semplice di studio dell'interrelazione fra prezzi e quantità si basa su due sole variabili: Pi e Qi), si definiscono:

(a) il modello econometrico strutturale, il quale è espresso in termini di parametri strutturali (sui quali si vuole fare inferenza perché di contenuto “economico”). Talvolta i parametri strutturali non sono stimabili direttamente a partire dalla specificazione del modello strutturale; (b) il modello statistico, il quale rappresenta il processo generatore dei dati (indicato spesso con DGP, data generation process); i parametri del modello statistico, sempre stimabili, sono i momenti primi e secondi delle

variabili di interesse (nel nostro esempio le medie di Pi e Qi, e la matrice delle varianze covarianze).

A partire da un modello statistico nei prezzi e nelle quantità (ipotizzato essere una normale bivariata in Pi e Qi), è sempre possibile definire modelli statistici condizionali, semplicamente concentrandoci sulla definizione di valore atteso condizionale di una variabile rispetto ad un'altra (ad esempio, E[Qi|Pi]), mediante l'applicazione delle proprietà della normale multivariata: esempio attinente la formazione dei prezzi nella disponibilità delle case. Il punto è che un generico modello condizionale è ancora statistico, nel senso che la sua validità strutturale è subordinata alla sensatezza economica del definire una variabile (nel nostro caso Pi) come condizionante, cioè esogena ("fissa"). Nell‟esempio, data l'interazione fra prezzi e quantità nell'ambito di un modello di domanda e offerta di immobile, supporre data la variabile Pi per spiegare la Qi non pare una scelta opportuna ma il viceversa si.

E' stato dimostrato che, a partire da una distribuzione congiunta di variabili casuali normali, la definizione di valore atteso condizionale di un sottoinsieme di variabili equivale a supporre valido un modello di regressione lineare in cui le variabili condizionate sono le dipendenti e quelle condizionanti sono le esplicative.

Da un punto di vista sostanziale, l‟identificazione del modello strutturale equivale a rispondere alla seguente domanda: a partire dalla stima dei parametri del modello statistico, è possibile risalire ad una stima dei parametri strutturali? Se la risposta è affermativa, allora il modello strutturale è identificato a partire dall‟insieme informativo a disposizione. Da un punto di vista tecnico, l‟identificazione del modello procede secondo i seguenti passi:

1) a partire dal modello strutturale si risale, con passaggi algebrici, alla forma ridotta del modello; nel modello in forma ridotta ogni variabile endogena del problema è spiegata da una specifica equazione le cui variabili esplicative sono tutte le esogene del problema (al limite, come nel caso del modello semplificato di prezzi e quantità, compaiono le sole costanti perché il modello non presenta variabili esogene); 2) se nella forma ridotta compaiono ancora i parametri del modello strutturale, si parla di forma ridotta vincolata; la forma ridotta non vincolata presenta invece i soli parametri del modello statistico e sono quindi tutti riconducibili ai momenti primi e secondi del DGP; 3) le relazioni di identificazione sono definite dall‟uguaglianza dei parametri della forma ridotta vincolata con i corrispondenti parametri

della forma ridotta non vincolata. (Il numero di parametri della forma ridotta non vincolata definisce il numero delle relazioni di identificazione);

4) se il numero di parametri strutturali è pari al numero di quelli della forma ridotta non vincolata, allora il modello è detto esattamente identificato e i parametri strutturali sono stimabili a partire da quelli statistici; se il numero dei parametri statistici è invece inferiore il modello è non identificato e, quindi, i parametri strutturali non sono stimabili. In seguito, vedremo anche un caso di modello sovraidentificato, in cui cioè il numero dei parametri statistici è superiore al numero di parametri strutturali.

In termini generali, un modello strutturale è identificato quando tutte le equazioni che lo compongono lo sono. Le condizioni di identificazione di una equazione sono riconducibili alla seguente definizione, detta condizione d'ordine di identificazione: i parametri di una equazione strutturale sono esattamente identificati se il numero di variabili esogene escluse da quella equazione, ma presenti nelle altre equazioni del modello strutturale, è uguale al numero delle variabili endogene esplicative in quella equazione. Quando invece il numero di esogene escluse è maggiore del numero di endogene esplicative, allora l'equazione si dice sovraidentificata. Infine, quando il numero di esogene escluse è inferiore a quello delle endogene esplicative, l'equazione non è identificata. La condizione d'ordine è solo una condizione necessaria per l'identificazione. La condizione di rango è invece necessaria e sufficiente. E' importante notare che la non identificazione di un modello strutturale non implica la invalidità del modello economico che ne sta a monte della specificazione, ma rende impossibile la stima dei parametri strutturali: non è infatti possibile risalire a questa a partire dalla stima dei parametri statistici (sempre stimabili).

In Golinelli (1994), paragrafo 2.4, si presenta il caso di stima di parametri strutturali a partire dalla stima dei parametri delle corrispondenti forme ridotte non vincolate. I parametri delle forme ridotte non vincolate sono stimabili col metodo OLS nell'ipotesi che sia valido il condizionare la distribuzione statistica di alcune variabili (condizionate, stocastiche, endogene) rispetto ad un sottoinsieme di altre varibili (condizionanti, fisse, esogene). La stima dei parametri strutturali è ottenuta, grazie alle relazioni di identificazione, a partire dalle precedenti stime OLS dei parametri delle forme ridotte non vincolate e, per questo motivo, tale metodo di stima viene detto dei minimi quadrati indiretti (indirect least

squares, ILS). Se però i parametri strutturali non sono identificati, allora la stima ILS è impossibile. Infine, si noti che se un parametro strutturale è sovraidentificato, si dispone di alternative stime ILS per lo stesso parametro.

Esempio. Analizzando le condizioni di identificazione, si evidenzia che il modello semplice di prezzi-quantità Pi e Qi, non è identificato e si dimostra che la stima OLS ottenuta non costituisce informazione di interesse, in quanto non misura effetti strutturali, bensì una miscellanea di effetti di domanda e di offerta.

L‟introduzione nel modello semplificato del reddito dei consumatori, yi, come variabile esplicativa dell‟equazione di domanda, permette di identificare il parametro strutturale dell‟equazione di offerta. Il modello completo non è però identificato perché, affinché un modello sia identificato, è necessario che tutte le equazioni che lo compongono lo siano.

Affinché il nostro modello iniziale di interazione fra prezzi e quantità sia (esattamente) identificato, è necessario che nella sola equazione di domanda compaia una variabile esogena (ad esempio il reddito yi) e nella sola equazione di offerta un altra variabile esogena (diversa dal reddito, ad esempio il costo dell‟immobile wi), in modo che la prima esogena, facendo fluttuare autonomamente la curva di domanda, permetta l'identificazione della pendenza dell'inclinazione dell'offerta rispetto ai prezzi. Allo stesso modo, variazioni del costo del‟immobile, agendo sulla sola offerta, permette di identificare la pendenza della curva di domanda.

LA STIMA DEL MODELLO

Per quanto finora spiegato possiamo identificare come primo passo per l‟individuazione di un modello ottimale, un semplice multinomial logit. In realtà il modello in questo contesto mal rappresenta la realtà dei fatti perche individua un solo valore per ogni singolo parametro dell‟attributo indagato non mostrando l‟eterogeneità dei comportamenti della popolazione sulle scelte residenziali. La stima del MNL è stata quindi realizzata come riferimento e confronto, in quanto si e supposta la presenza di eterogeneita nel campione, non trattabile con tale approccio. Per questo si e elaborato e stimato un Mixed Multinomial logit che rende il problema matematicamente 30mila volte più complesso di un semplice multinomial logit. Per capire il valore aggiunto del modello basti pensare

che in un o sistema di utilità a 6 attributi in un MNL l‟interrelazione tra i parametri si calcola in “6!”; nel caso invece di un Mixed MNL la complessità del problema è identificabile nel caso più semplice ovvero che tutti i parametri siano distribuiti secondo una “Normale”, in “12!”. In questo caso i parametri avrebbero non un solo valore per tutto il dominio di riferimento rappresentato come media dei comportamenti ma una distribuzione a classi latenti lungo tutta la popolazione. Il tempo per un calcolatore di calibrare i parametri se in un MNL è di circa 8 secondi in un Mixed MNL è di circa 9 ore. Già questo valore può dare l‟idea della complessità della verifica. In questo caso l‟interrelazione tra almeno 12 attributi (media e varianza per ogni parametro) permette di considerare la componente di eterogeneità dei gusti. Tutti i parametri presentano valori di deviazione standard significativi confermando la presenza di variabilità. Il modello Mixed MNL risulta essere migliore dal punto di vista della fit e delle stime di welfare (Birol et al. 2006; Carlsson et al. 2003).

Nel modello sarà ovviamente obbligatorio inserire un parametro fisso identificato come Attributo Specifico dell‟Alternativa, mentre si e supposto che gli altri parametri si distribuiscano normalmente.

La scelta del parametro fisso permette di mantenere il segno del parametro e di conoscere la distribuzione delle WTP (Volontà a pagare), che per ogni parametro sarà coincidente con la distribuzione di quest‟ultimo (Sillano e Ortuzar 2005; Hensher et al. 2005; Birol et al. 2006; Carlsson et al. 2003). Inoltre, inserire solo alcuni parametri come random permette una maggiore stabilita del modello (Carlsson et al. 2003) e la scelta della distribuzione normale è il primo passo per raffinare il modello (Birol et al. 2006; Carlsson et al. 2003).

Fig. 5 – Esempi di distribuzione dei parametri nel continuo

Come poi si vedrà per le simulazioni di probabilità sono state utilizzate 1000 ripetizioni della sequenza standard di Halton (SHS- Standard Halton Sequence).

La ripetizione della sequenza standard introdotta alla luce del teorema del limite centrale è alla base dell'uso di numeri pseudocasuali. La generazione di numeri casuali normalmente distribuiti assume una particolare importanza nell'ambito di problemi di utilità e stima di parametri. Il fondamento statistico dei MMC è il teorema che assicura che la media di N variabili casuali indipendenti e identicamente distribuite con media  si distribuisce approssimativamente in modo normale, con media  e varianza tendente a zero con N. Formalmente:

Sia X1,,XN, una successione di variabili casuali indipendenti e

identicamente distribuite, E[Xi] = ,Var[Xi] = 2, i = 1,,. Allora, detta SN = 1/Ni = 1NXi si ha SN N   , 2 N    ,

cioè SN si distribuisce normalmente con media e varianza 2/N per N

grande.

Le ipotesi del teorema possono essere notevolmente indebolite, ad esempio consentendo correlazione fra le X.

Se si suppone che la precisione della stima sia misurata dalla sua deviazione standard (tanto miniore è, tanto meglio). Se è vero che aumentando N la deviazione standard diminuisce tendendo a zero, è pur sempre vero che la velocità di convergenza è molto lenta. Poiché la deviazione standard tende a zero con 1/N, per dimezzare l'errore bisogna quadruplicare il numero di simulazioni e quindi anche il tempo di calcolo. Questo significa che l'ottenimento di piccole deviazioni standard potrebbe richiedere tempi di calcolo inaccettabilmente lunghi.

Sia f una funzione integrabile e supponiamo per semplicità che sia non nulla solo nell'intervallo [0,1]. Questo non riduce la generalità di quanto esposto. Allora si può approssimare l'integrale di f con delle somme:

E[f]: =   1 0 f(x)dx  1 N N  i = 1 f(xi),

dove ciascun xi [0,1]. L'approssimazione è tanto migliore quanto più fitti e numerosi sono i punti impiegati. Non abbiamo fatto nulla di diverso da prima, cioè generazione di molti xi uniformemente distribuiti e calcolo della media. Ma riconoscere che la struttura del problema equivale ad integrare la funzione f da un lato ci svincola da ipotesi statistiche sugli xi (ad esempio, l'indipendenza) e dall'altro suggerisce che con una scelta accorta del metodo d'integrazione si potrebbero ottenere risultati migliori di quanto possibile con altre approssimazione. Si pensi all'utilizzo di tecniche di quadratura (dovute originariamente a Gauss) in cui f è approssimato come  f(x) dx  p  i = 1 aif(yi),

in cui i pesi ai, i = 1,,p e i nodi yi,i = 1,,p sono scelti con cura e dipendono dalla funzione f. In maniera ancora più semplice, perché non

utilizzare una formula in cui gli xi sono equispaziati? Ne risulta la ben nota formula d'integrazione per rettangoli

  1 0 f(x)dx  1 N N  1 f(1/i),

che quasi certamente produce un errore, a parità di N, inferiore a quanto ottenibile con xi casuali. In tale contesto si dimostra quindi che, come già accennato, possiamo cercare di campionare numeri casuali in modo da riempire lo spazio “più uniformemente” di quanto sia possibile con estrazioni pseudocasuali: si pensi ad esempio a punti distribuiti su una griglia mono o bidimensionale, che evidentemente `riempiono meglio' il quadrato unitario. Esiste quindi un modo per generare successioni di numeri ``casuali" di lunghezza non predeterminata: queste successioni sono dette quasi-casuali anche se non vi è nulla di aleatorio ma, al contrario, sono costituite di punti che si posizionano nei buchi lasciati dai punti precedenti. Un semplice esempio è la successione di Halton {Hj},j = 1,, ottenibile con la seguente procedura:

 scrivere j in base b, con b numero primo. Sia j = d0b0+d1b1++dnbn;  porre Hj = dnb-1+dn-1b-2++d0b-n-1.

In sostanza la procedura consiste nel capovolgere le cifre dell'espansione in base b e porre un punto decimale di fronte a quanto ottenuto. Se sono necessari numeri casuali multidimensionali si può procedere generando per ciascuna componente una successione di Halton con radice b diversa. Solitamente si utilizzano in successione i numeri primi (2,3,5,...) [Joy et al., 1996,Dupire, 1998]. L'uso di successioni di punti quasi-casuali è appetibile poiché l'integrazione di una funzione smooth f in un dominio n- dimensionale produce un errore dell'ordine di

(logN)n

N ,

in cui N è il numero di simulazioni. Quindi, a fronte di una convergenza di tipo N-1/2 tipica dei numeri pseudocasuali, l'utilizzo di sequenze quasi- casuali produce errori decrescenti quasi alla velocità di 1/N. Si noti che sono comunque richieste proprietà di regolarità della funzione f e che n elevati potrebbero rendere meno utile il ricorso a numeri quasi-casuali.

In applicazioni di questo tipo sono necessari dei valori normalmente distribuiti nei parametri. La valutazione dei parametri si ottiene a partire dalla funzione di errore complementare erfc(x) [Press et al., 1992].

erfc(x) = 1- 2    x 0 e-y2dy, z = x, t = 1 1+z/2 ,

Tornando quindi a confrontare i due modelli Mixed MNL con il modello MNL, due osservazioni sono evidenti. La prima e la grandezza dei coefficienti: i modelli Mixed MNL (detti ML) presentano coefficienti numericamente maggiori. Questo e dovuto al fatto che, nei modelli ML, parte della varianza viene trattata esplicitamente come una componente separata dell‟errore (Sillano e Ortuzar, 2005). La seconda e l‟incremento della fit in termini di Rquadro dei modelli ML, che presentano un migliore adattamento ai dati; anche la percentuale di previsioni corrette e leggermente superiore. I parametri dei coefficienti sono stati stimati permettendo correlazione tra loro. Emerge, analizzando la matrice di Cholesky, che la variabilità del modello e strettamente legata alla presenza di correlazione. In pratica, la variabilità non e dovuta ai singoli parametri indipendentemente uno dall‟altro ma dalla loro variabilità congiunta. Cercando di capire meglio l‟eterogeneità presente, si e valutato l‟effetto di alcune caratteristiche personali dei rispondenti, facendole interagire con i singoli attributi.

Inizialmente si e stimato un modello più esteso, contenente tutte le caratteristiche rilevate tramite questionario (genere, istruzione, presenza di figli sotto i 14 anni, ecc…), ma molte di queste non sono risultate significative e, per tanto, il modello e stato stimato nuovamente con le sole caratteristiche dotate di significato.

STATISTICA DEL MODELLO DI UTILITA’

Una volta specificato e calibrato, un modello di domanda va opportunamente validato. In questa fase si verifica la ragionevolezza e la significatività dei parametri stimati, nonchè la capacità del modello di riprodurre le scelte effettuate da un campione di utenti; inoltre,vanno verificate le ipotesi alla base della forma funzionale assunta. Tutte queste verifiche possono essere condotte attraverso appropriati test effettuati a partire da informazioni relative a un campione di utenti.

Questi test si basano in prima approssimazione su aspettative sui segni dei coefficienti calibrati e sui loro reciproci rapporti. Segni errati dei coefficienti indicano che molto probabilmente ci sono errori nella base di dati utilizzata per il calcolo degli attributi, nei risultati dell'indagine ovvero nella specificazione del modello.

Test formali sui coefficienti del modello

- Test t-Student su singoli coefficienti: questi test verificano l'ipotesi nulla (H0) che un coefficiente k sia pari a zero e la stima kML sia diversa da zero per effetto di errori campionari (H0 : k= 0). Essi sono basati sulla statistica t-Student:

In alternativa,la statistica t-Student può essere utilizzata per verificare che due coefficienti k e j siano uguali (H0:k= j):

In entrambi i casi, nell'ipotesi nulla la statistica t è distribuita secondo una variabile t-Student con un numero di gradi di libertà pari alla dimensione del campione meno il numero di coefficienti stimati. Tuttavia, si assume di solito che la statistica t sia distribuita come una variabile normale standard, che rappresenta la distribuzione limite della variabile t di Student al crescere del numero dei gradi di libertà. L'ipotesi nulla viene rifiutata con una probabilità  di commettere un errore di I specie (ovvero

rigettare un'ipotesi vera) se il valore della statistica t è esterno all‟intervallo di estremi (z α/2 , z 1-α/2) che, per α = 0,05 valgono ±1,96. Si può dimostrare che, per campioni tratti da una variabile gaussiana, il rapporto "t" è una variabile casuale la cui distribuzione è descritta da una funzione simmetrica la cui forma dipende dai gradi di libertà della stima campionaria della varianza e che è nota con il nome di "t" di Student. All' aumentare dei gradi di libertà la distribuzione "t" di Student tende rapidamente alla Gaussiana standard.

Fig. 6 –distribuzione T-Student

- Test chi-quadro su vettori di coefficienti: per verificare l'ipotesi nulla che il vettore vero dei coefficienti , ovvero un suo sottovettore, sia pari ad un determinato vettore * (H0: = *), si può ricorrere alla seguente statistica:

Se l'ipotesi nulla è vera, la statistica è asintoticamente distribuita secondo una variabile chi-quadro con un numero di gradi di libertà pari al numero di componenti di .

- Test del rapporto di verosimiglianza su vettori di coefficienti: il test del rapporto di verosimiglianza è analogo al precedente e verifica

l'ipotesi nulla che il vettore , ovvero un suo sottovettore, sia pari ad un vettore *,che può anche essere definito indirettamente imponendo alcuni vincoli al vettore , ad esempio specificando un insieme di fattibilità B( appartenente a B). In ogni caso * è il vettore che massimizza la funzione log- likelihood sottoposta ai vincoli considerati:

- Statistiche e test sulla bontà dell'accostamento (goodness of fit) del modello: la capacità del modello di riprodurre le scelte effettuate da un campione di utenti può essere misurata utilizzando la statistica rho- quadro:

Tale statistica è una misura normalizzata nell'intervallo [0,1]; essa vale zero se L(ML) è eguale a L(0), ovvero il modello non ha alcuna capacità esplicativa, vale uno se il modello fornisce una probabilità unitaria di osservare le scelte effettivamente compiute da ciascun utente del campione,ovvero il modello ha una perfetta capacità riproduttiva.

In alternativa si può utilizzare la statistica rho-quadro corretta,che sostituisce alla funzione log-likelihood lnL(ML) la sua stima corretta lnL(ML)-

N, dove N è il numero di parametri stimati nel modello:

Questo test, che poi è quello che è stato da noi preso in considerazione, cerca di eliminare l'effetto del numero di parametri inclusi nella

Documenti correlati