• Non ci sono risultati.

Analisi dei dati sui punteggi del test

Specificazione del modello in teoria e in pratica

5.12 Analisi dei dati sui punteggi del test

mica non sono quelle per le quali sono disponibili i dati. Perci`o, il passo successivo `e quello di sviluppare un elenco di possibilispecificazioni alternative, ovvero un insieme alterna-tivo di regressori. Se le stime dei coefficienti di interesse sono numericamente simili nelle diverse specificazioni alternative, questo costituisce evidenza del fatto che le stime derivanti dalla specificazione di base sono affidabili. Se, d’altro canto, le stime dei coefficienti d’in-teresse cambiano sostanzialmente tra le varie specificazioni, ci`o `e spesso sintomo del fatto che la specificazione originale soffre di distorsione da variabile omessa. Utilizzeremo que-sto approccio nella specificazione del modello della sezione 7.2, dopo aver studiato alcuni strumenti importanti per la specificazione di un modello di regressione.

5.12 Analisi dei dati sui punteggi del test

Questa sezione presenta un’analisi dell’effetto sui punteggi del test del rapporto studenti-insegnanti usando i dati della California. Il nostro principale proposito `e quello di fornire un esempio in cui l’analisi di regressione multipla `e utilizzata per mitigare la distorsione da variabile omessa. Il nostro obiettivo secondario `e quello di mostrare come utilizzare una tabella per riassumere i risultati delle regressioni.

La nostra analisi si concentra sulla stima dell’effetto sui punteggi del test della variazione nel rapporto studenti-insegnanti, tenendo costanti le caratteristiche degli studenti che il prov-veditore non `e in grado di controllare. In precedenza, in questo capitolo, abbiamo stimato regressioni che includevano sia il rapporto studenti-insegnanti sia la spesa per studente. Il coefficiente del rapporto studenti-insegnanti in tali regressioni era l’effetto di una variazione di questo rapporto tenendo costante la spesa per studente e le nostre stime suggerivano che questo effetto `e piccolo e non significativamente diverso da zero. Le regressioni qui riportate non includono la spesa per studente, cos`ı l’effetto stimato del rapporto studenti per insegnanti non tiene costante la spesa per studente.

Molti fattori possono potenzialmente influenzare il punteggio medio del test in un di-stretto. Alcuni di questi fattori sono correlati con il rapporto studenti-insegnanti, e quindi ometterli dalla regressione determiner`a distorsione da variabile omessa. Se sono disponi-bili dati su queste variadisponi-bili omesse, la soluzione al problema `e quella di includerli come regressori aggiuntivi nella regressione multipla. Se si fa questo, il coefficiente del rapporto studenti-insegnanti misura l’effetto di una variazione di tale rapporto tenendo costanti questi altri fattori.

Consideriamo ora tre variabili che catturano le caratteristiche degli studenti che potreb-bero influenzare i punteggi. Una di queste variabili di controllo, gi`a usata in precedenza, `e la frazione di studenti non di madrelingua inglese. Le altre due variabili sono nuove e control-lano per le condizioni economiche degli studenti. I dati non contengono una misura precisa delle condizioni economiche, e quindi usiamo due indicatori imperfetti di reddito basso nel

5.12. Analisi dei dati sui punteggi del test

Figura 5.2:grafici a nuvola dei punteggi del test su tre caratteristiche dello studente

(a) Percentuale di studenti che stanno apprendendo l’inglese Punteggio test

(b) Percentuale di aventi diritto al sussidio mensa

(c) Percentuale di aventi diritto a un sostegno del reddito

Electronic Publishing Services Inc.

I grafici a nuvola mostrano una relazione negativa tra punteggi del test e (a) percentuale di studenti che appren-dono l’inglese (correlazione =−0, 64), (b) percentuale di studenti aventi diritto al sussidio mensa (correlazione

=−0, 87) e (c) percentuale di aventi diritto a un sostegno del reddito (correlazione =−0, 63).

distretto. Il primo indicatore `e la percentuale di studenti che hanno diritto al sussidio mensa totale o parziale. Gli studenti risultano idonei per tale programma di diritto, se il loro reddito familiare `e inferiore a una certa soglia (approssimativamente pari al 150% della linea di po-vert`a). Il secondo indicatore `e la percentuale di studenti nel distretto la cui famiglia `e idonea per il programma di pubblica assistenza sul reddito dello stato della California. Se una fami-glia sia idonea per questo tipo di sussidi sul reddito dipende in parte dal reddito familiare, ma la soglia `e inferiore rispetto a quella per il sussidio mensa. Questi due indicatori misurano, perci`o, la frazione di bambini economicamente svantaggiati del distretto; anche se essi sono

5.12. Analisi dei dati sui punteggi del test

legati, non sono perfettamente correlati (il loro coefficiente di correlazione `e 0, 74). Sebbene la teoria suggerisca che la condizione economica possa essere un fattore omesso importante, la teoria e l’esperienza non ci aiutano a scegliere quale tra queste due variabili (la percentuale che ha diritto al sussidio mensa o la percentuale che ha diritto al sussidio sul reddito) sia la miglior misura della condizione economica. Per la nostra specificazione di base, scegliamo la percentuale di aventi diritto al pranzo gratuito come indicatore della condizione economica, ma considereremo anche una specificazione alternativa che include entrambi gli stimatori.

I grafici a nuvola dei punteggi del test e di queste variabili sono presentati nella figura 5.2.

Ciascuna di queste variabili mostra una correlazione negativa con il punteggio del test: la cor-relazione tra punteggi e percentuale di studenti non di madrelingua inglese `e −0, 46; tra pun-teggi e percentuale di aventi diritto al pranzo gratuito `e −0, 87; e tra punpun-teggi e percentuale di idonei al sussidio sul reddito `e −0, 63.

Abbiamo ora un problema di presentazione. Qual `e il modo migliore per mostrare i risultati di molte regressioni multivariate che contengono sottoinsiemi diversi dei possibili regressori? Finora abbiamo presentato i risultati delle regressioni riportando le equazioni di regressione stimate, come nel caso della (5.18). Questo approccio `e fattibile quando ci sono solo pochi regressori e poche equazioni, ma con un numero di regressori ed equazioni questo metodo di presentazione pu`o portare a confusione. Un modo migliore di presentare i risultati delle regressioni `e quello di tabularli.

La tabella 5.2 riassume i risultati delle regressioni dei punteggi del test sui vari insiemi di regressori. Ogni colonna rappresenta una regressione separata. Tutte le regressioni hanno la stessa variabile dipendente, il punteggio del test. Le voci delle prime 5 righe sono i coefficien-ti di regressione scoefficien-timacoefficien-ti, con i rispetcoefficien-tivi errori standard riportacoefficien-ti in parentesi. Gli asterischi indicano se la statistica t, verificando l’ipotesi che il coefficiente rilevante sia nullo, `e signifi-cativa al livello 5% (1 asterisco) o 1% (2 asterischi). Le tre righe finali contengono statistiche sintetiche della regressione (l’errore standard della regressione o SER, e l‘R2corretto o ¯R2) e la dimensione campionaria (che `e la stessa per tutte le regressioni, 420 osservazioni).

Tutte le informazioni che abbiamo presentato finora in forma di equazione appaiono in una delle colonne di questa tabella. Ad esempio, consideriamo la regressione del punteggio del test sul rapporto studenti-insegnanti, senza variabili di controllo. In forma di equazione, tale regressione appare come

T estScore = 698, 9d

(10, 4)− 2, 28

(0, 52)× ST R, ¯R2= 0, 049, SER = 19, 26, n = 420. (5.31) Tutte queste informazioni compaiono nella colonna (1) della tabella 5.2. Il coefficiente sti-mato del rapporto studenti-insegnanti (−2, 28) compare nella prima riga di numeri e l’errore standard corrispondente (0, 52) `e riportato appena sotto il coefficiente stimato. L’intercetta (698, 9)e il suo errore standard (10, 4) sono riportati nella riga indicata come “intercetta”

(talvolta si pu`o trovare tale riga indicata come “costante”, perch´e, come discusso nella

sezio-5.12. Analisi dei dati sui punteggi del test

ne 5.2, l’intercetta pu`o essere considerata come il coefficiente di un regressore che `e sempre pari a uno). Similmente, l’ ¯R2(0,049), l’SER (18,58) e la dimensione campionaria n (420) appaiono nella riga finale. Le posizioni vuote della tabella indicano che i corrispondenti regressori non sono inclusi in questa regressione.

Sebbene la tabella non riporti le statistiche t, queste possono essere calcolate grazie al-l’informazione fornita; ad esempio, la statistica t per verificare l’ipotesi che il coefficiente del rapporto studenti-insegnanti della colonna (1) sia nullo `e pari a −2, 28/0, 52 = −4, 38.

Questa ipotesi `e rifiutata al livello 1%, il che `e indicato dal doppio asterisco posto accanto al coefficiente stimato nella tavola.

Le regressioni che includono le variabili di controllo che misurano le caratteristiche de-gli studenti sono riportate nelle colonne (2)–(5). La colonna (2), che riporta la regressione dei punteggi del test sul rapporto studenti-insegnanti e sulla percentuale di studenti non di madrelingua, corrisponde alla (5.16).

La colonna (3) presenta la specificazione di base, in cui i regressori sono il rapporto studenti-insegnanti e due variabili di controllo, la percentuale di studenti non di madrelingua inglese e la percentuale di studenti aventi diritto al sussidio mensa.

Le colonne (4) e (5) presentano specificazioni alternative che esaminano l’effetto di varia-zioni nel modo in cui viene misurata la condizione economica degli studenti. Nella colonna (4), si include come regressore la percentuale di studenti la cui famiglia rientra nel program-ma di assistenza pubblica, mentre nella colonna (5) sono incluse entrambe le variabili relative alla condizione economica.

Tali risultati suggeriscono tre conclusioni.

1. Controllare per queste caratteristiche degli studenti riduce l’effetto del rapporto studenti-insegnanti sui punteggi di circa la met`a. L’effetto stimato non `e molto sensibile alle variabili di controllo specifiche incluse nella regressione. In tutti i casi, il coefficien-te del rapporto studenti-insegnanti rimane statisticamencoefficien-te significativo al livello 5%.

Nelle quattro specificazioni con variabili di controllo, le regressioni (2)–(5), ridurre il rapporto studenti-insegnanti di uno studente per insegnante si stima aumenti il punteg-gio medio del test di approssimativamente un punto, tenendo costanti le caratteristiche dello studente.

2. Le variabili che rappresentano le caratteristiche dello studente sono predittori molto utili dei punteggi. Il rapporto studenti-insegnanti da solo spiega una frazione piccola della variazione nei punteggi del test: l’ ¯R2nella colonna (1) `e 0, 049. L’ ¯R2aumenta, tuttavia, in modo sostanziale, quando vengono aggiunte le caratteristiche dello studen-te. Ad esempio, l’ ¯R2 della specificazione di base, regressione (3), `e 0, 773. Il segno dei coefficienti delle variabili demografiche degli studenti `e coerente con l’andamento osservato nella figura 5.2: i distretti con molti studenti non di madrelingua e i distretti con molti bambini poveri ottengono punteggi pi`u bassi nel test.

5.13. Conclusioni

Tabella 5.2:risultati delle regressioni dei punteggi del test sul rapporto studenti-insegnanti e su altre variabili che controllano per le caratteristiche degli studenti usando i dati relativi ai distretti scolasti elementari della California

Variabile dipendente: media dei punteggi del test nel distretto.

Regressore (1) (2) (3) (4) (5)

Rapporto studenti-insegnanti −2, 28∗∗ −1, 10 −1, 00∗∗ −1, 31∗∗ −1, 01∗∗

(X1) (-0,52) (0,43) (0,27) (0,34) (0,27)

% studenti −0, 650∗∗ −0, 122∗∗ −0, 488∗∗ −0, 130∗∗

non di madrelingua (X2) (0,031) (0,033) (0,030) (0,036)

% aventi diritto −0, 547∗∗ −0, 529∗∗

al sussidio mensa (X3) (0,024) (0,038)

% studenti nel programma −0.790∗∗ 0.048

di assistenza pubblica (X4) (0,068) (0,059)

Intercetta 698, 9∗∗ 686, 0∗∗ 700, 2∗∗ 698, 0∗∗ 700, 4∗∗

(10,4) (8,7) (5,6) (6,9) (5,5)

Statistiche descrittive

SER 18,58 14,46 9,08 11,65 9,08

R¯2 0,049 0,424 0,773 0,626 0,773

n 420,0 420,0 420,0 420,0 420,0

Queste regressioni sono state stimate utilizzando i dati relativi ai distretti scolastici K-8, descritti nel-l’appendice 4.1, della California. Gli errori standard sono mostrati in parentesi sotto i coefficienti. Il coefficiente

`e significativo al livello5%o∗∗1%utilizzando un test bilaterale.

3. Le variabili di controllo non sono sempre statisticamente significative: nella specifica-zione (5), l’ipotesi che il coefficiente della percentuale degli aventi diritto al sussidio sul reddito sia nulla non `e rifiutata al livello 5% (la statistica t `e −0, 82). Poich´e aggiun-gere tale variabile di controllo alla specificazione di base (3) ha un effetto trascurabile sul coefficiente stimato e il suo errore standard e poich´e il coefficiente di questa varia-bile di controllo non `e significativo nella specificazione (5), tale variavaria-bile di controllo addizionale `e ridondante, almeno ai fini di quest’analisi.

5.13 Conclusioni

Questo capitolo era cominciato con una nota di monito: nella regressione dei punteggi del test sul rapporto studenti-insegnanti, caratteristiche omesse degli studenti che influenzano i punteggi del test potrebbero essere correlate con il rapporto studenti-insegnanti nel distretto

Sommario

e, se cos`ı, il rapporto studenti-insegnanti nel distretto catturerebbe l’effetto sui punteggi di tali caratteristiche omesse. Perci`o, lo stimatore OLS potrebbe soffrire di distorsione da variabile omessa. Per mitigare questa potenziale distorsione, abbiamo incluso nella regressione una serie di variabili al fine di controllare per varie caratteristiche degli studenti (la percentuale di studenti non di madrelingua inglese e due misure della condizione economica degli studenti).

In questo modo, l’effetto stimato di una variazione unitaria del rapporto studenti-insegnanti si riduce della met`a, sebbene rimanga possibile rifiutare al 5% l’ipotesi che l’effetto sui punteggi del test, tenendo costanti queste altre variabili di controllo, sia nullo. Poich´e queste variabili di controllo eliminano la distorsione da variabile omessa che deriva dall’ignorare le caratte-ristiche degli studenti, queste stime basate sulla regressione multipla (e i relativi intervalli di confidenza), sono molto pi`u utili per il provveditore delle stime con un solo coefficiente del capitolo 4.

L’analisi di questo capitolo partiva dal presupposto che la funzione di regressione della popolazione fosse lineare nei regressori, ovvero che l’aspettativa di Yidati i regressori fosse una linea retta. Non c’`e, tuttavia, alcuna ragione particolare per pensare che sia cos`ı. In realt`a, l’effetto di ridurre il rapporto studenti-insegnanti potrebbe essere molto diverso tra i distretti con classi numerose e quelli che hanno gi`a classi piccole. Se cos`ı, la retta di regressione della popolazione `e non lineare nelle X, ma `e invece una funzione non lineare delle X. Per estendere la nostra analisi alle funzioni di regressione che sono non lineari nelle X, tuttavia, abbiamo bisogno degli strumenti che saranno sviluppati nel prossimo capitolo.

Sommario

1. La distorsione da variabile omessa si verifica quando una variabile omessa (1) `e corre-lata con un regressore incluso e (2) `e una determinante di Y .

2. Il modello di regressione multipla `e un modello di regressione lineare che include pi`u regressori, X1, X2, . . . , Xk. A ciascun regressore `e associato un coefficiente di regres-sione, β1, β2, . . . , βk. Il coefficiente β1rappresenta la variazione attesa di Y associata a una variazione unitaria di X1, tenendo costanti gli altri regressori. Gli altri coefficienti di regressione hanno un’analoga interpretazione.

3. I coefficienti del modello di regressione multipla possono essere stimati tramite gli OLS. Quando valgono le quattro assunzioni dei minimi quadrati contenute nel concetto chiave 5.4, gli stimatori OLS sono non distorti, consistenti e normalmente distribuiti in grandi campioni.

4. Le verifiche di ipotesi e la costruzione di intervalli di confidenza per un singolo coeffi-ciente di regressione sono ottenute usando essenzialmente le stesse procedure usate nel modello di regressione lineare a una variabile del capitolo 4. Ad esempio, un intervallo di confidenza di livello 95% per β1 `e dato da ˆβ1± 1, 96 SE( ˆβ1).

Sommario

5. Ipotesi che coinvolgono pi`u di una restrizione sui coefficienti sono note come ipotesi congiunte. Le ipotesi congiunte possono essere verificate usando una statistica F . 6. L’errore standard della regressione, l’R2e l’ ¯R2sono statistiche descrittive per il

mo-dello di regressione multipla.

regione di confidenza di livello 95% (169) R2e R2corretto ( ¯R2) (171, 172)

specificazione di base (175) specificazioni alternative (176) statistica F classica (190)

Verifica dei concetti

5.1 Una ricercatrice `e interessata all’effetto dell’uso del computer sui punteggi del test. Per mezzo dei dati relativi ai distretti scolastici usati in questo capitolo, effettua una regres-sione del punteggio medio del test per distretto sul numero di computer per studente.

Sar`a ˆβ1uno stimatore non distorto dell’effetto sui punteggi dei test di un incremento del numero di computer per studente? Perch´e o perch´e no? Se riteniamo che ˆβ1sia distorto, lo `e verso il basso o verso l’alto? Perch´e?

5.2 Una regressione multipla include due regressori: Yi = β0+ β1X1i + β2X2i+ ui. Quale sarebbe la variazione attesa di Y , se X1aumentasse di 3 unit`a e X2fosse lasciato invariato? Quale sarebbe la variazione attesa di Y , se X2diminuisse di 5 unit`a e X1

fosse lasciato invariato? Quale sarebbe la variazione attesa di Y , se X1aumentasse di 3unit`a e X2diminuisse di 5 unit`a?

5.3 Si speghi perch´e due regressori perfettamente collineari non possono essere inclusi in un modello di regressione lineare multipla. Si forniscano due esempi di coppie di regressori perfettamente multicollineari.

Documenti correlati