• Non ci sono risultati.

Verifica dei concetti

5.1 Una ricercatrice `e interessata all’effetto dell’uso del computer sui punteggi del test. Per mezzo dei dati relativi ai distretti scolastici usati in questo capitolo, effettua una regres-sione del punteggio medio del test per distretto sul numero di computer per studente.

Sar`a ˆβ1uno stimatore non distorto dell’effetto sui punteggi dei test di un incremento del numero di computer per studente? Perch´e o perch´e no? Se riteniamo che ˆβ1sia distorto, lo `e verso il basso o verso l’alto? Perch´e?

5.2 Una regressione multipla include due regressori: Yi = β0+ β1X1i + β2X2i+ ui. Quale sarebbe la variazione attesa di Y , se X1aumentasse di 3 unit`a e X2fosse lasciato invariato? Quale sarebbe la variazione attesa di Y , se X2diminuisse di 5 unit`a e X1

fosse lasciato invariato? Quale sarebbe la variazione attesa di Y , se X1aumentasse di 3unit`a e X2diminuisse di 5 unit`a?

5.3 Si speghi perch´e due regressori perfettamente collineari non possono essere inclusi in un modello di regressione lineare multipla. Si forniscano due esempi di coppie di regressori perfettamente multicollineari.

Sommario

5.4 Si spieghi come si testerebbe l’ipotesi nulla che β1 = 0 nel modello di regressione multipla, Yi= β0+ β1X1i+ β2X2i+ ui. Si spieghi come si testerebbe l’ipotesi nulla che β2 = 0. Si spieghi come si verificherebbe l’ipotesi congiunta che β1= 0e β2= 0.

Perch´e il risultato dell’ipotesi congiunta non `e implicato dai risultati dei primi due test?

5.5 Si fornisca un esempio di regressione che a ragione avrebbe un valore alto di R2, ma produrrebbe stimatori distorti e inconsistenti del coefficiente (o dei coefficienti) di regressione. Si spieghi il motivo per cui l’R2`e verosimilmente alto. Si spieghi perch´e gli stimatori OLS sarebbero distorti e inconsistenti.

Esercizi

I primi sei esercizi si riferiscono alla seguente tavola di regressioni stimate, calcolata usando dati dal CPS relativi al 1998. Il dataset contiene informazioni su 4.000 individui che hanno lavorato a tempo pieno per l’intero anno. Il livello d’istruzione pi`u alto raggiunto da ciascun lavoratore `e o il diploma di scuola secondaria o una laurea. L’et`a dei lavoratori varia tra 25-34 anni. I dati contengono anche informazioni sulla regione del paese dove questi sono vissuti, lo stato civile e il numero di figli. Per i propositi di questo esercizio siano

AHE =retribuione oraria media (in dollari 1998)

college =variabile binaria (1 se universit`a, 0 se scuola superiore) f emale =variabile binaria (1 se femmina, 0 se maschio) age =(in anni)

N theast =variabile binaria (1 se regione = nord-est, 0 altrimenti) M idwest =variabile binaria (1 se regione = sud-ovest, 0 altrimenti) South =variabile binaria (1 se regione = sud, 0 altrimenti)

W est =variabile binaria (1 se regione = ovest, 0 altrimenti)

5.1 Si Aggiungano “ * ” (5%) e “ ** ” (1%) alla tavola per indicare la significativit`a statistica dei coefficienti.

5.2 Si calcoli l’R2per ogni regressione.

Sommario

Risultati delle regressioni del salario orario medio sulle variabili binarie sesso, istruzione e altre caratteristiche per i dati tratti dal Current Population Survey del 1998

Variabile dipendente: Average Hourly Earnings (AHE)

Regressore (1) (2) (3)

College (X1) 5,46 5,48 5,44

(0,21) (0,21) (0,21)

Female (X2) -2,64 -2,62 -2,62

(0,20) (0,20) (0,20)

Age (X3) 0,29 0,29

(0,04) (0,04)

Northeast (X4) 0,69

(0,30)

Midwest (X5) 0,60

(0,28)

South (X6) -0,27

(0,26)

Intercetta 12,69 4,40 3,75

(0,14) (1,05) (1,06)

Statistiche descrittive e test di ipotesi congiunte

Statistica F per gli effetti di zona = 0 6,10

SER 6,27 6,22 6,21

R2 0,176 0,190 0,194

n 4000,0 4000,0 4000,0

5.3 Si utilizzino i risultati della regressione nella colonna (1).

a. I lavoratori con laurea guadagnano di pi`u, in media, rispetto ai lavoratori con un diploma di scuola superiore? Quanto di pi`u? `E la differenza stimata tra le retribuzioni da questa regressione statisticamente significativa al livello 5%?

b. Gli uomini guadagano pi`u delle donne in media? Quanto di pi`u? `E la diffe-renza tra le retribuzioni stimate sulla base di questa regressione statisticamente significativa al livello 5%?

5.4 Si utilizzino i risultati della regressione nella colonna (2).

a. L’et`a `e un’importante determinante del reddito? Si argomenti la risposta;

b. Sally `e una laureata di 29 anni. Betsy `e una laureata di 34 anni. Si prevedano le retribuzioni di Sally e di Betsy e si costruisca un intervallo di confidenza di livello 95%per la differenza tra i loro salari attesi.

Sommario

5.5 Si utilizzino i risultati della regressione nella colonna (3).

a. C’`e qualche evidenza di differenze regionali rilevanti?

b. Perch´e il regressore W est viene omesso dalla regressione? Cosa accadrebbe se lo si includesse?

c. Sia Juanita una laureata di 28 anni proveniente dal sud. Sia Molly una laureata di 28anni proveniente dall’ovest. Sia Jennifer una laureata di 28 anni proveniente dal centro-ovest.

ci. Si costruisca un intervallo di confidenza di livello 95% per la differenza tra le retribuzioni attese tra Juanita e Molly.

cii. Si calcoli la differenza tra le retribuzioni attese tra Juanita e Jennifer.

ciii. Si spieghi come si potrebbe costruire un intervallo di confidenza per la dif-ferenza tra le retribuzioni attese tra Juanita e Jennifer (suggerimento: cosa accadrebbe se si includesse West e escludesse Midwest dalla regressione?).

5.6 La regressione mostrata nella colonna (2) `e stata stimata ancora una volta, usando i dati relativi al 1992. (4.000 osservazioni selezionate casualmente dal CPS del marzo 1993, convertite in dollari 1998 usando l’indice dei prezzi al consumo). I risultati sono

AHE = 0, 77d (0, 98)

+ 5, 29

(0, 20)College − 2, 59 (0, 18)

F emale + 0, 40 (0, 03)

Age,

SER = 5, 85, ¯R2= 0, 21.

Paragonando questa regressione a quella per il 1998 mostrata nella colonna (2), si evidenzia una variazione statisticamente significativa del coefficiente di College?

5.7 Si valuti la seguente affermazione: “in tutte le regressioni, il coefficiente di F emmina

`e negativo, elevato e statisticamente significativo. Ci`o supporta una forte evidenza statistica di discriminazione dovuta al genere nel mercato del lavoro degli USA”

5.8 Si consideri il modello di regressione Yi= β01X1i2X2i+ui. Si usi l’“approccio 2” dalla sezione 5.8 per trasformare la regressione in modo che si possa usare una statistica t per verificare:

a. β1= β2

b. β1+ aβ2= 0, dove a `e una costante;

c. β1+ β2 = 1(suggerimento: bisogna ridefinire la variabile dipendente della regressione).

5.9 L’appendice 5.3 mostra le due formule per la statistica F classica (5.38) e (5.39). Si mostri che esse sono equivalenti.

Appendice

Appendice 5.1: derivazione della formula (5.1)

Quest’appendice presenta una derivazione della formula (5.1) per la distorsione da variabile omessa. L’equazione (4.51) dell’appendice 4.3 mostra che

βˆ1= β1+

Sotto le assunzioni dei minimi quadrati nel concetto chiave 5.4, 1/nPn

i=1(Xi− ¯X)2 p→ σX2

Sebbene la formula generale per la varianza degli stimatori OLS nella regressione multipla sia complessa, se ci sono due regressori (k = 2) e gli errori sono omoschedastici, la formula si semplifica abbastanza da fornire alcune intuizioni circa la distribuzione degli stimatori OLS.

Poich´e gli errori sono omoschedastici, la varianza condizionata di ui pu`o essere scritta come var(ui

X1i, X2i) = σu2. Quando ci sono due regressori X1ie X2i e l’errore `e omo-schedastico, in grandi campioni la distribuzione campionaria di ˆβ1`e N(β1, σβ2ˆ

1)e la varianza

1 della distribuzione campionaria di ˆβ1 dipende dal quadrato del coeffi-ciente di correlazione tra i regressori. Se X1e X2sono fortemente correlate, positivamente o negativamente, allora ρ2X1,X2 `e prossimo a uno e quindi il termine 1 − ρ2X1,X2 al denomina-tore della (5.33) `e piccolo e le varianze di ˆβ1e ˆβ2sarebbero pi`u elevate di quanto sarebbero se ρX1,X2fosse prossimo a zero. Questo risultato ha un’interpretazione intuitiva. Si ricordi che il coefficiente di X1 `e l’effetto di una variazione unitaria del primo regressore, tenendo costante il secondo. Se i due regressori sono altamente correlati, `e difficile stimare l’effetto

Appendice

parziale del primo regressore, tenendo costante il secondo, perch´e i due regressori si muovono insieme nella popolazione.

Ad esempio, supponiamo di voler stimare gli effetti separati sui punteggi del test dell’a-vere pi`u insegnanti (un pi`u basso ST R) tenendo costante la spesa per studente, e dell’adell’a-vere pi`u studenti tenendo costante ST R. Poich´e i salari degli insegnanti rappresentano una quota molto grande del bilancio di una scuola elementare, ST R e spese per studente hanno una forte correlazione negativa (un numero maggiore di insegnanti implica un ST R inferiore e una maggiore spesa per studente). Siccome queste due variabili hanno una forte correlazione negativa, potrebbe essere difficile stimare con precisione i loro effetti separati usando dati campionari. Ci`o fa s`ı, in termini matematici, che ˆβ1abbia una grande varianza.

Un’altra caratteristica della distribuzione congiunta normale degli stimatori OLS in grandi campioni `e che ˆβ1e ˆβ2sono in genere correlati. Quando gli errori sono omoschedastici, la correlazione tra gli stimatori OLS ˆβ1 e ˆβ2 `e pari all’opposto della correlazione tra i due regressori,

corr( ˆβ1, ˆβ2) = −ρX1,X2. (5.34)

Appendice 5.3: due altri modi di verificare ipotesi congiunte

Il metodo della sezione 5.7 `e quello preferito per verificare ipotesi congiunte in una regres-sione multipla. Tuttavia, se l’autore di uno studio presenta i risultati di una regresregres-sione ma non verifica una restrizione congiunta e non si hanno a disposizione i dati originali, non si sar`a in grado di calcolare la statistica F della sezione 5.7.

Quest’appendice descrive due altri modi per verificare ipotesi congiunte che possono es-sere usati quando si dispone solo di una tabella con i risultati di regressione. Il primo di questi modi, il test di Bonferroni, `e un’applicazione di un approccio molto generale alla verifica di ipotesi basato sulla disuguaglianza di Bonferroni. Il secondo, la statistica F classica, `e un approccio specifico alla regressione multipla, giustificato da un punto di vista teorico solo se gli errori sono omoschedastici; la statistica F classica `e il corrispondente per la statistica F della statistica t calcolata usando gli errori standard classici.

Documenti correlati