verificare direttamente la restrizione. Alcuni pacchetti statistici hanno un comando specificamente concepito per verificare restrizioni come quella nella (5.25) e il

Verifica di ipotesi su due o pi`u coefficienti

Approccio 1: verificare direttamente la restrizione. Alcuni pacchetti statistici hanno un comando specificamente concepito per verificare restrizioni come quella nella (5.25) e il

ri-sultato è una statistica F che, poiché q = 1, ha una distribuzione F_1,∞sotto l’ipotesi nulla (si ricordi dalla sezione 2.4 che il quadrato di una variabile casuale normale standardizzata ha distribuzione F_1,∞e che il 95% percentile della distribuzione F_1,∞è 1, 96²= 3, 84).

Approccio 2: trasformare la regressione. Se il nostro pacchetto statistico non pu`o verificare la restrizione direttamente, l’ipotesi (5.25) pu`o essere verificata riscrivendo l’equazione di regressione originale al fine di trasformare la restrizione nella (5.25) in una restrizione su un singolo coefficiente. Concretamente, supponiamo che ci siano solo due regressori, X1ie X2i,

5.9. Regioni di confidenza per coefficienti multipli

e che la regressione nella popolazione sia

Yi= β0+ β1X1i+ β2X2i+ ui. (5.26) Il trucco `e questo: sottraendo e aggiungendo β2X1i, si ottiene β1X1i+β2X2i= β1X1i− β2X1i+β2X1i+β2X2i= (β1−β2)X1i+β2(X1i+X2i) = γ1X1i+β2Wi, dove γ1= β1−β2

e Wi = X1i+ X2i. Cos`ı, la regressione (5.26) pu`o essere riscritta come

Yi= β0+ γ1X1i+ β2Wi+ ui. (5.27) Poich´e il coefficiente γ1`e pari a γ1= β1−β², sotto l’ipotesi nulla nella (5.25) γ1= 0, mentre sotto l’alternativa γ16= 0. Quindi, trasformando la (5.26) nella (5.27), abbiamo trasformato una restrizione su due coefficienti di regressione in una restrizione su un singolo coefficiente di regressione.

Poiché la restrizione coinvolge ora il solo coefficiente γ1, l’ipotesi nulla nella (5.25) può essere verificata usando il metodo della statistica t descritto nella sezione 5.6. In pratica, si costruisce prima il nuovo regressore Wi come somma dei due regressori originari e poi si stima la regressione di Yi su X1i e Wi. Un intervallo di confidenza di livello 95% per la differenza tra i coefficienti β1− β²può essere calcolato come ˆγ1± 1, 96 SE(ˆγ¹).

Questo metodo pu`o essere esteso ad altre restrizioni sulle equazioni di regressione, usando lo stesso trucco (si veda l’esercizio 5.8).

I due metodi (gli approcci 1 e 2) sono equivalenti, nel senso che la statistica F del primo metodo `e uguale alla statistica t del secondo.

Estensione al caso di q > 1. In generale, è possibile avere q restrizioni sotto l’ipotesi nulla, di cui tutte o solo alcune coinvolgono più coefficienti. La statistica F della sezione 5.7 si estende a questo tipo di ipotesi congiunta. La statistica F può essere calcolata con ciascuno dei due approcci appena discussi per il caso q = 1. In pratica, l’approccio migliore dipende dal pacchetto di regressione che si usa.

5.9 Regioni di confidenza per coefficienti multipli

Questa sezione spiega come costruire una regione di confidenza per due o più coefficienti di una regressione multipla. Il metodo è concettualmente simile al metodo esposto nella sezione 5.6 per la costruzione di intervalli di confidenza per un singolo coefficiente usando la statistica t, eccetto che la regione di confidenza per più coefficienti è basata sulla statistica F.

Unaregione di confidenza di livello 95% per due o più coefficienti è una regione che contiene i veri valori di questi coefficienti nel 95% dei campioni estratti casualmente dalla popolazione. Perciò, una regione di confidenza è la generalizzazione al caso di due o più coefficienti di un intervallo di confidenza per un singolo coefficiente.

5.9. Regioni di confidenza per coefficienti multipli

Figura 5.1:regione di confidenza al95%perβ1eβ2

β₂

Electronic Publishing Services Inc.

Stock/Watson, Econometrics 1e STOC.ITEM.0019

Fig. 05.01

1st Proof 2nd Proof 3rd Proof Final

β₁ Regione di confidenza al 95%

-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 -1

0 1 2 3 4 5 6 7 8 9

La regione di confidenza al95%perβ1eβ2`e un’ellisse. L’ellisse contiene le coppie di valori diβ1eβ2che non possono essere rifiutate usando la statisticaFal livello di significativit`a5%.

Si ricordi che un intervallo di confidenza al 95% si calcola trovando l’insieme dei valori dei coefficienti che non sono rifiutati da un test t al livello di significativit`a 5%. Questo approccio pu`o essere esteso al caso di coefficienti multipli. In concreto, supponiamo di essere interessati alla costruzione di una regione di confidenza per i due coefficienti, β1 e β2. La sezione 5.7 ha mostrato come usare la statistica F per verificare l’ipotesi nulla congiunta che β1 = β1,0 e β2 = β2,0. Supponiamo di dover verificare ogni possibile valore di β1,0

e β2,0 al livello 5%. Per ogni coppia di valori di prova (β1,0, β2,0), costruiamo la statistica F e rifiutiamo se è maggiore di 3, 00, il valore critico al 5%. Poiché il test ha livello di significatività 5%, i veri valori di β1e β2nella popolazione non saranno rifiutati nel 95% di tutti i campioni. Perciò, l’insieme dei valori non rifiutati al livello 5% tramite questa statistica F costituisce una regione di confidenza di livello 95% per β1e β2.

Sebbene il metodo di provare tutti i valori possibili di β1,0 e β2,0 funzioni in teoria, in pratica è molto più semplice usare una formula esplicita per la regione di confidenza. La formula per un numero arbitrario di coefficienti è basata sulla statistica F della sezione 16.3.

Quando ci sono due coefficienti, le regioni di confidenza sono ellittiche.

Come illustrazione, la figura 5.1 mostra una regione di confidenza al 95% (ellisse di con-fidenza) per i coefficienti del rapporto studenti-insegnanti e della spesa per studente, tenendo costante la percentuale di studenti non di madrelingua inglese, basata sulla regressione

sti-5.10. Altre statistiche di regressione

mata (5.18). Questa ellisse non include il punto (0, 0). Ciò significa che l’ipotesi nulla che questi due coefficienti siano entrambi nulli è rifiutata tramite la statistica F al livello di signi-ficatività 5%, cosa che già conosciamo dalla sezione 5.7. L’ellisse di confidenza somiglia a un salsicciotto rigonfio con la parte lunga orientata in direzione basso-sinistra/alto-destra. La ragione di tale orientamento è che la correlazione stimata tra ˆβ1e ˆβ2 è positiva, il che deriva a sua volta dalla correlazione negativa tra ST R e Expn (le scuole che spendono di più per gli studenti tendono ad avere meno studenti per insegnante).

5.10 Altre statistiche di regressione

Tre statistiche descrittive comunemente usate nella regressione multipla sono l’errore stan-dard di regressione, l’R²di regressione e l’R²corretto (anche noto come ¯R²). Tutte e tre le statistiche misurano la bont`a con cui la stima OLS della retta di regressione multipla descrive, o “si adatta a”, i dati.

Nel documento Regressione lineare con regressori multipli (pagine 28-31)