Indici relativi alla multicollinearit`a - I risultati della regressione

3.6 I risultati della regressione

3.6.3 Indici relativi alla multicollinearit`a

Si parla di multicollinearità allorché una o più colonne della matrice dei regressori sono prossime ad essere linearmente dipendenti. Questo ha due conseguenze di particolare rilievo nelle applicazioni:

La significatività statistica dei singoli coefficienti ricavabili dalla regressione risulterà modesta; ciò porta a dire che gli intervalli di confi- denza per i valori dei coefficienti saranno relativamente ampi e quindi,

se tali intervalli includono lo zero, non si pu`o rifiutare l’ipotesi nulla che la variabile corrispondente non abbia alcun effetto sulla variabile dipendente.

Il fitting della regressione risulta elevato (si osservano elevati valori dell’indice R2_).

Il VIF

Un indicatore di multicollinearit`a spesso utilizzato nella pratica `e il Variance Inflation Factor (fattore di inflazione della varianza), o VIF. Viene calcolato per ciascuna variabile del modello (spesso automaticamente da diversi software statistici), in base all’espressione:

V IFi =

1 1 − Ri2

(3.30) dove Ri2 `e il coefficiente R2 di una regressione della colonna i-esima di

X su tutti gli altri regressori (incluso il termine costante, se `e presente). `

E possibile dimostrare che la varianza dell’elemento i-esimo del vettore delle stime ˆβè proporzionale al V IF ; dunque un V IF elevato comporterà una mi- nore significatività del coefficiente ricavato, andando a ridurre il valore della statistica t di Student associata. Un V IF elevato è indice di dipendenza lineare tra la colonna i-esima e le restanti colonne della matrice delle variabili indipendenti, ossia è un indice di multicollinearità. Non esiste, tuttavia, un particolare valore soglia di questo parametro che determini inequivoca- bilmente la multicollinearità; sta alla sensibilità del ricercatore valutare, con l’ausilio dell’indicazione del VIF, se sussista o meno multicollinearità, nel qual caso è opportuno rimuovere il regressore i-esimo.

Il p-value associato ai regressori

Questo indice valuta se l’i-esimo regressore offra o meno informazioni aggiun- tive rispetto a tutti gli altri regressori. Il test statistico che viene condotto (il risultato del quale è proprio il p-value) confronta l’ipotesi nulla in cui si hanno tutti i regessori tranne quello considerato contro l’ipotesi in cui sono presenti tutti i regressori. Più il valore del p-value è basso più sarà falsa l’ipotesi nulla, come valore discriminante per rifiutare l’ipotesi si è soliti considerare il 10%.

Il PRESS

Il PRESS (Predicted Residual Sums of Squares) viene utilizzato per fornire una misura sintetica del fitting di un modello in relazione ad un campione di osservazioni, nel caso in esame sempre i consumi di energia. Per poter calcolare il PRESS, si deve calcolare la somma dei quadrati dei residui di previsione per le osservazioni a disposizione. Solo dopo aver prodotto un modello adattato ovvero con un R2 _{alto `e meglio procedere. Una per una le}

un valore di predizione dell’osservazione eliminata. Il PRESS viene calcolato come la somma di tutte gli errori (differenze tra le osservazioni rimosse e le previsioni del modello) risultanti.

3.7 Conclusioni

Questo capitolo è stato strutturato attraverso la descrizione dei passi seguiti per costruire il modello di previsione dei consumi energetici. Inizialmente si è descritta la struttura del modello che si è voluta adottare, si è passati poi alla ipotesi e successivamente alla scelta delle variabili indipendenti da utilizzare. In conclusione è stato presentato il metodo con cui verranno effettuate le regressioni lineari multiple nel capitolo successivo ed il significato degli indici e dei risultati che da queste saranno generati. Si è a questo punto in possesso di tutti i dati necessari per calcolare ed analizzare i risultati finali del modello che verranno presentati di seguito. La strategia seguita all’interno del capitolo successivo è quella, in riferimento inizialmente al caso di validazione, di riportare inizialmente i risultati delle regressioni lineari di ogni settore con i valori degli indici descritti nell’ultima parte di questo capitolo; in seguito saranno analizzate le previsioni relative alle singole variabili di influenza ed in fine si passerà alla presentazione dei risultati finali del modello di previsione la cui accuratezza potrà essere confrontata con gli studi condotti da enti nazionali ed internazionali.

Validazione e taratura del

modello: caso Italia

4.1 Risultati della regressione

La presentazione dei risultati ottenuti dalle regressioni multiple effettuate per i vari settori considerati, sempre in riferimento al caso di validazione riferi- to alla realtà nazionale, parte dalla Tabella 3.9 che riporta il riassunto del modello costruito con le variabili indipendenti utilizzate per caratterizzare i consumi dei vari settori. In seguito alle valutazioni espresse sulla regressione lineare multipla, soprattutto per quanto riguarda gli indici statistici ed il problema dell’eteroschedasticità, come anticipato nella sezione precedente, si è deciso di effettuare i calcoli delle regressioni non utilizzando semplice- mente le variabili in questione bens`ı i loro logaritmi decimali. In sostanza si otterranno espressioni come quella generale rappresentata in (4.1).

log Cons = β0+ β1· log V ar1+ β2· log V ar2+ ... (4.1)

Questa variazione di riferimento necessita una verifica delle valutazioni fatte in precedenza; infatti le correlazioni che servono ai fini dell’accuratezza del modello non sono quelle tra variabili indipendenti e consumi bens`ı tra i loro logaritmi in base dieci. La verifica di cui si necessita `e costituita dalla Tabella 4.1 in cui, allo stesso modo fatto in precedenza per la scelta delle variabili, vengono riportati i parametri di correlazione (numero punti ed indici R2 _{e Corr) tra il logaritmo dei consumi settoriali ed il logaritmo di}

ogni variabile di influenza ipotizzata.

Di seguito si riportano, a valle di una valutazione di tipo statistico sulla scelta delle migliori regressioni, i risultati ottenuti dalle regressioni multiple effettuate per i vari settori (si riportano i risultati della regressione completa ossia che include tutti i regressori scelti e di quella migliore nel senso che viene spiegato nell’analisi descritta di seguito) attraverso i parametri statistici di significativit`a (R2_{, R}2 _{corretto, PRESS ed R}2 _{per predizione) e di}

influenza espressi tramite logaritmi decimali, ITALIA

y x p.ti R2 _Corr.

Cons agr. NV agr. 39 0,873 0,934 Cons agr. UL agr. 30 0,835 0,914 Cons agr. INV agr. 28 0,856 0,925 Cons agr. Efficienza 21 0,506 0,711 Cons r&s Pop 39 0,790 0,889 Cons r&s PIL 30 0,844 0,919 Cons r&s INV costr. 28 0,901 0,949 Cons r&s Efficienza 21 0,261 0,511 Cons trasp. Pop. 39 0,699 0,836 Cons trasp. NV tot 39 0,976 0,988 Cons trasp. PIL 30 0,967 0,983 Cons trasp. Efficienza 21 0,670 0,819 Cons ind. INV ind. ss. 28 0,611 0,782 Cons ind. Prod ind. no costr. 20 0,801 0,895 Cons ind. Efficienza 19 0,004 0,062

Nel documento Analisi di scenario energetico per la Sardegna : situazione attuale, previsione futura e possibili alternative di sviluppo sostenibile (pagine 96-100)