• Non ci sono risultati.

3.6 I risultati della regressione

3.6.3 Indici relativi alla multicollinearit`a

Si parla di multicollinearit`a allorch´e una o pi`u colonne della matrice dei regressori sono prossime ad essere linearmente dipendenti. Questo ha due conseguenze di particolare rilievo nelle applicazioni:

ˆ La significativit`a statistica dei singoli coefficienti ricavabili dalla re- gressione risulter`a modesta; ci`o porta a dire che gli intervalli di confi- denza per i valori dei coefficienti saranno relativamente ampi e quindi,

se tali intervalli includono lo zero, non si pu`o rifiutare l’ipotesi nulla che la variabile corrispondente non abbia alcun effetto sulla variabile dipendente.

ˆ Il fitting della regressione risulta elevato (si osservano elevati valori dell’indice R2).

Il VIF

Un indicatore di multicollinearit`a spesso utilizzato nella pratica `e il Variance Inflation Factor (fattore di inflazione della varianza), o VIF. Viene calco- lato per ciascuna variabile del modello (spesso automaticamente da diversi software statistici), in base all’espressione:

V IFi =

1 1 − Ri2

(3.30) dove Ri2 `e il coefficiente R2 di una regressione della colonna i-esima di

X su tutti gli altri regressori (incluso il termine costante, se `e presente). `

E possibile dimostrare che la varianza dell’elemento i-esimo del vettore delle stime ˆβ`e proporzionale al V IF ; dunque un V IF elevato comporter`a una mi- nore significativit`a del coefficiente ricavato, andando a ridurre il valore della statistica t di Student associata. Un V IF elevato `e indice di dipendenza lineare tra la colonna i-esima e le restanti colonne della matrice delle vari- abili indipendenti, ossia `e un indice di multicollinearit`a. Non esiste, tuttavia, un particolare valore soglia di questo parametro che determini inequivoca- bilmente la multicollinearit`a; sta alla sensibilit`a del ricercatore valutare, con l’ausilio dell’indicazione del VIF, se sussista o meno multicollinearit`a, nel qual caso `e opportuno rimuovere il regressore i-esimo.

Il p-value associato ai regressori

Questo indice valuta se l’i-esimo regressore offra o meno informazioni aggiun- tive rispetto a tutti gli altri regressori. Il test statistico che viene condotto (il risultato del quale `e proprio il p-value) confronta l’ipotesi nulla in cui si hanno tutti i regessori tranne quello considerato contro l’ipotesi in cui sono presenti tutti i regressori. Pi`u il valore del p-value `e basso pi`u sar`a falsa l’ipotesi nulla, come valore discriminante per rifiutare l’ipotesi si `e soliti considerare il 10%.

Il PRESS

Il PRESS (Predicted Residual Sums of Squares) viene utilizzato per fornire una misura sintetica del fitting di un modello in relazione ad un campione di osservazioni, nel caso in esame sempre i consumi di energia. Per poter calcolare il PRESS, si deve calcolare la somma dei quadrati dei residui di previsione per le osservazioni a disposizione. Solo dopo aver prodotto un modello adattato ovvero con un R2 alto `e meglio procedere. Una per una le

un valore di predizione dell’osservazione eliminata. Il PRESS viene calcolato come la somma di tutte gli errori (differenze tra le osservazioni rimosse e le previsioni del modello) risultanti.

3.7

Conclusioni

Questo capitolo `e stato strutturato attraverso la descrizione dei passi seguiti per costruire il modello di previsione dei consumi energetici. Inizialmente si `e descritta la struttura del modello che si `e voluta adottare, si `e passati poi alla ipotesi e successivamente alla scelta delle variabili indipendenti da utilizzare. In conclusione `e stato presentato il metodo con cui verranno effettuate le regressioni lineari multiple nel capitolo successivo ed il significato degli indici e dei risultati che da queste saranno generati. Si `e a questo punto in possesso di tutti i dati necessari per calcolare ed analizzare i risultati finali del mod- ello che verranno presentati di seguito. La strategia seguita all’interno del capitolo successivo `e quella, in riferimento inizialmente al caso di validazione, di riportare inizialmente i risultati delle regressioni lineari di ogni settore con i valori degli indici descritti nell’ultima parte di questo capitolo; in seguito saranno analizzate le previsioni relative alle singole variabili di influenza ed in fine si passer`a alla presentazione dei risultati finali del modello di previ- sione la cui accuratezza potr`a essere confrontata con gli studi condotti da enti nazionali ed internazionali.

Validazione e taratura del

modello: caso Italia

4.1

Risultati della regressione

La presentazione dei risultati ottenuti dalle regressioni multiple effettuate per i vari settori considerati, sempre in riferimento al caso di validazione riferi- to alla realt`a nazionale, parte dalla Tabella 3.9 che riporta il riassunto del modello costruito con le variabili indipendenti utilizzate per caratterizzare i consumi dei vari settori. In seguito alle valutazioni espresse sulla regres- sione lineare multipla, soprattutto per quanto riguarda gli indici statistici ed il problema dell’eteroschedasticit`a, come anticipato nella sezione precedente, si `e deciso di effettuare i calcoli delle regressioni non utilizzando semplice- mente le variabili in questione bens`ı i loro logaritmi decimali. In sostanza si otterranno espressioni come quella generale rappresentata in (4.1).

log Cons = β0+ β1· log V ar1+ β2· log V ar2+ ... (4.1)

Questa variazione di riferimento necessita una verifica delle valutazioni fatte in precedenza; infatti le correlazioni che servono ai fini dell’accuratezza del modello non sono quelle tra variabili indipendenti e consumi bens`ı tra i loro logaritmi in base dieci. La verifica di cui si necessita `e costituita dalla Tabella 4.1 in cui, allo stesso modo fatto in precedenza per la scelta delle variabili, vengono riportati i parametri di correlazione (numero punti ed indici R2 e Corr) tra il logaritmo dei consumi settoriali ed il logaritmo di

ogni variabile di influenza ipotizzata.

Di seguito si riportano, a valle di una valutazione di tipo statistico sulla scelta delle migliori regressioni, i risultati ottenuti dalle regressioni multiple effettuate per i vari settori (si riportano i risultati della regressione completa ossia che include tutti i regressori scelti e di quella migliore nel senso che viene spiegato nell’analisi descritta di seguito) attraverso i parametri statis- tici di significativit`a (R2, R2 corretto, PRESS ed R2 per predizione) e di

influenza espressi tramite logaritmi decimali, ITALIA

y x p.ti R2 Corr.

Cons agr. NV agr. 39 0,873 0,934 Cons agr. UL agr. 30 0,835 0,914 Cons agr. INV agr. 28 0,856 0,925 Cons agr. Efficienza 21 0,506 0,711 Cons r&s Pop 39 0,790 0,889 Cons r&s PIL 30 0,844 0,919 Cons r&s INV costr. 28 0,901 0,949 Cons r&s Efficienza 21 0,261 0,511 Cons trasp. Pop. 39 0,699 0,836 Cons trasp. NV tot 39 0,976 0,988 Cons trasp. PIL 30 0,967 0,983 Cons trasp. Efficienza 21 0,670 0,819 Cons ind. INV ind. ss. 28 0,611 0,782 Cons ind. Prod ind. no costr. 20 0,801 0,895 Cons ind. Efficienza 19 0,004 0,062