• Non ci sono risultati.

Regressione lineare con regressori multipli

N/A
N/A
Protected

Academic year: 2022

Condividi "Regressione lineare con regressori multipli"

Copied!
51
0
0

Testo completo

(1)

Capitolo 5

Regressione lineare

con regressori multipli

Il capitolo 4 si `e concluso con una nota di monito. Nell’indagine relativa alla California, sebbene i distretti scolastici con rapporto studenti-insegnanti pi`u piccolo tendano ad avere punteggi del test pi`u alti, `e plausibile ipotizzare che gli studenti provenienti da distretti con classi piccole abbiano altre caratteristiche che li aiutino ad avere risultati migliori nei test standardizzati. Ci`o potrebbe aver prodotto risultati fuorvianti. Se fosse cos`ı, cosa si potrebbe fare?

I fattori omessi, come le caratteristiche degli studenti, possono rendere fuorviante, o pi`u precisamente distorto, lo stimatore dei minimi quadrati ordinari (OLS) dell’effetto della di- mensione delle classi sui punteggi del test. Questo capitolo spiega questa “distorsione da variabile omessa” e introduce la regressione multipla, un metodo che pu`o eliminare la distor- sione da variabile omessa. L’idea chiave della regressione multipla `e che, se sono disponibili i dati sulle variabili omesse, possiamo aggiungerle come regressori addizionali e perci`o stima- re l’effetto di un regressore (il rapporto studenti-insegnanti), tenendo costanti le altre variabili (come le caratteristiche degli studenti).

Questo capitolo spiega come stimare i coefficienti di un modello di regressione lineare multivariata. Esamina come effettuare inferenza statistica, ovvero come verificare le ipote- si riguardanti pi`u coefficienti di regressione e come costruire gli intervalli di confidenza per tali coefficienti. Molti aspetti della regressione multipla ricalcano quelli della regressione con un singolo coefficiente studiati nel capitolo 4. I coefficienti del modello di regressione multipla possono essere stimati dai dati tramite gli OLS; gli stimatori OLS nelle regressio- ni multivariate sono variabili casuali perch´e dipendono da un campione casuale di dati; per grandi campioni, le distribuzioni campionarie degli stimatori OLS sono approssimativamente normali; inoltre, gli stimatori OLS possono essere usati per verificare ipotesi e costruire inter-

(2)

5.1. La distorsione da variabile omessa

valli di confidenza circa i coefficienti di regressione nella popolazione. Una delle ipotesi che possono essere sottoposte a verifica `e che la riduzione nel rapporto studenti-insegnanti non abbia effetti sui punteggi del test, tenendo costanti le caratteristiche misurabili degli studenti appartenenti al distretto.

5.1 La distorsione da variabile omessa

Focalizzando l’attenzione soltanto sul rapporto studenti-insegnanti, l’analisi empirica del ca- pitolo 4 ha ignorato alcune determinanti potenzialmente rilevanti dei punteggi del test e con- centrato tutta la loro influenza nell’errore della regressione. Questi fattori omessi includono caratteristiche della scuola, come la qualit`a degli insegnanti e l’uso del computer, e peculia- rit`a degli studenti, come la condizione economica familiare. Cominciamo con il considerare una caratteristica omessa relativa agli studenti che `e particolarmente rilevante in California a causa della sua ampia popolazione di immigrati: la prevalenza nel distretto scolastico di studenti non di madrelingua inglese.

Ignorando la percentuale di studenti non di madrelingua nel distretto, lo stimatore OLS della pendenza della retta di regressione dei punteggi sul rapporto studenti-insegnanti potreb- be essere distorto; in altre parole, la media della distribuzione campionaria dello stimatore OLS potrebbe non essere uguale all’effetto vero sui punteggi del test di una variazione uni- taria nel rapporto studenti-insegnanti. Il ragionamento `e il seguente. Gli studenti non di ma- drelingua potrebbero avere prestazioni peggiori nei test standardizzati rispetto agli studenti di madrelingua inglese. Se i distretti con classi grandi avessero molti studenti non di madrelin- gua, allora la regressione OLS dei punteggi del test sul rapporto studenti-insegnanti potrebbe erroneamente trovare una correlazione e produrre un coefficiente stimato elevato, quando, in realt`a, il vero effetto causale della riduzione nella dimensione delle classi sui punteggi del test `e irrisorio o addirittura nullo. Di conseguenza, basandosi sull’analisi del capitolo 4, il provveditore potrebbe assumere nuovi insegnanti in numero sufficiente per ridurre il rapporto studenti-insegnanti di due unit`a, ma la sua speranza di migliorare i punteggi del test potrebbe non concretizzarsi, se il vero coefficiente fosse piccolo o nullo.

Uno sguardo ai dati della California d`a adito a questa preoccupazione. La correlazio- ne tra il rapporto studenti-insegnanti e la percentuale di studenti non di madrelingua inglese (studenti non nativi americani e che non hanno ancora assimilato la lingua inglese com- pletamente) nel distretto `e pari a 0, 19. Questa piccola ma positiva correlazione suggerisce che i distretti con un numero maggiore di studenti non di madrelingua mostrano la tenden- za a un pi`u alto rapporto studenti-insegnanti (classi di maggiori dimensioni). Se il rapporto studenti-insegnanti non dipendesse dalla percentuale di non di madrelingua, sarebbe allora legittimo ignorare la conoscenza dell’inglese nella regressione dei punteggi del test sul rap- porto studenti-insegnanti. Tuttavia, poich´e il rapporto studenti-insegnanti e la percentuale di

(3)

5.1. La distorsione da variabile omessa

non di madrelingua sono correlati, `e possibile che il coefficiente OLS nella regressione dei punteggi del test sul rapporto studenti-insegnanti rifletta tale influenza.

Definizione di distorsione da variabile omessa

Se il regressore (il rapporto studenti-insegnanti) `e correlato con una variabile omessa dall’a- nalisi (la percentuale di studenti non di madrelingua inglese) ma che determina, in parte, la variabile dipendente (i punteggi ottenuti nel test), lo stimatore OLS subir`a unadistorsione da variabile omessa.

La distorsione da variabile omessa si verifica quando valgono due condizioni: la variabile omessa `e correlata con il regressore incluso; la variabile omessa contribuisce a determinare la variabile dipendente. Per illustrare queste condizioni, consideriamo tre esempi di variabili che sono omesse dalla regressione dei punteggi del test sul rapporto studenti-insegnanti.

Esempio 1: percentuale di studenti non di madrelingua inglese. Poich´e la percentuale di studenti non di madrelingua inglese `e correlata con il rapporto studenti-insegnanti, sussiste la prima condizione per la distorsione da variabile omessa. `E plausibile che gli studenti non di madrelingua inglese abbiano prestazioni peggiori nei test standardizzati rispetto agli studenti di madrelingua inglese, nel qual caso la percentuale di studenti non di madrelingua

`e una determinante dei punteggi del test ed `e cos`ı verificata la seconda condizione per la distorsione da variabile omessa. Per queste ragioni, lo stimatore OLS nella regressione dei punteggi del test sul rapporto studenti-insegnanti potrebbe erroneamente riflettere l’influenza della variabile omessa, la percentuale di studenti non di madrelingua. In altre parole, omettere la percentuale di studenti non di madrelingua potrebbe introdurre una distorsione da variabile omessa.

Esempio 2: ora del test. Un’altra variabile omessa dall’analisi `e l’ora in cui viene svolto il test. Per questa variabile omessa, `e plausibile che non valga la prima condizione per la distor- sione da variabile omessa, ma che valga la seconda. Ad esempio, se l’ora in cui si effettua il test varia da un distretto a un altro in modi che non dipendono dalla dimensione delle classi, allora l’ora e la dimensione delle classi dovrebbero essere incorrelate, e quindi non dovrebbe valere la prima condizione. D’altro canto, l’ora in cui si svolge il test potrebbe influenzare i risultati (l’attenzione varia durante le ore di lezione), facendo valere la seconda condizione.

Tuttavia, siccome in questo esempio l’ora in cui viene svolto il test `e incorrelata con il rap- porto studenti-insegnanti, quest’ultimo non dovrebbe incorrettamente catturare l’effetto “ora del giorno”. Perci`o, omettere l’ora in cui si svolge il test non si dovrebbe risolvere in una distorsione da variabile omessa.

Esempio 3: l’area di parcheggio per studente. Un’altra variabile omessa `e l’area di par-

(4)

5.1. La distorsione da variabile omessa

cheggio per studente (l’area del parcheggio degli insegnanti divisa per il numero degli stu- denti). Questa variabile soddisfa la prima, ma non la seconda condizione per la distorsione da variabile omessa. Nello specifico, le scuole con pi`u insegnanti per studente probabilmente hanno aree di parcheggio pi`u grandi, soddisfacendo cos`ı la prima condizione. Tuttavia, data l’ipotesi che l’apprendimento avvenga nelle classi, e non nel parcheggio, la dimensione di questo non ha un effetto diretto sull’apprendimento, e quindi non `e soddisfatta la seconda condizione. Siccome lo spazio per parcheggiare non `e una determinante dei punteggi del test, ometterla dall’analisi non induce distorsione da variabile omessa.

La distorsione da variabile omessa `e riassunta nel concetto chiave 5.1.

La distorsione da variabile omessa e la prima ipotesi dei minimi quadrati. La distor- sione da variabile omessa `e dovuta all’erroneit`a della prima ipotesi dei minimi quadrati – E(ui

Xi) = 0, come dall’elenco riportato nel concetto chiave 4.3. Per comprenderne il moti- vo, si ricordi che l’errore uidel modello di regressione con un singolo regressore rappresenta tutti gli altri fattori, oltre a Xi, che contribuiscono a determinare Yi. Se uno di questi altri fattori `e correlato con Xi, anche l’errore (che contiene questo fattore) `e correlato con Xi. In altre parole, se una variabile omessa `e una determinante di Yi, essa `e inclusa nell’errore e, se correlata con Xi, anche l’errore `e correlato con Xi. Siccome uie Xisono correlati, la media condizionata di uidata Xi`e non nulla. Questa correlazione viola, perci`o, la prima ipotesi dei minimi quadrati e la conseguenza `e rilevante: lo stimatore OLS `e distorto. Questa distorsione non svanisce neanche in grandi campioni, e quindi lo stimatore OLS `e inconsistente.

Una formula per la distorsione da variabile omessa

La discussione della sezione precedente riguardante la distorsione da variabile omessa pu`o essere sintetizzata matematicamente da una formula. Sia corr(Xi, ui) = ρXula correlazione tra Xi e ui. Supponiamo che valgano la seconda e la terza assunzione dei minimi quadra- ti, ma non la prima perch´e ρXu `e non nullo. Allora, lo stimatore OLS ha limite (derivato nell’appendice 5.1)

βˆ1

→ βp 1+ ρXu

σu

σX

. (5.1)

In altre parole, al crescere della dimensione campionaria, ˆβ1`e prossimo a β1+ ρXuuX) con probabilit`a alta e crescente.

La formula contenuta nella (5.1) riassume molte delle idee discusse in precedenza circa la distorsione da variabile omessa.

1. La distorsione da variabile omessa `e un problema sia per grandi sia per piccoli campio- ni. Quando ˆβ1non converge in probabilit`a al vero valore β1, ˆβ1 `e inconsistente; cio`e, βˆ1non `e uno stimatore consistente di β1, quando c’`e distorsione dovuta all’omissione

(5)

5.1. La distorsione da variabile omessa

Concetto chiave 5.1:la distorsione da variabile omessa nella regressione con un singolo regressore

Ladistorsione da variabile omessa `e la distorsione dello stimatore OLS che si ha quando il regressore X `e correlato con una variabile omessa. Perch´e vi sia distorsione da variabile omessa devono verificarsi due condizioni:

1. X `e correlato con la variabile omessa;

2. la variabile omessa concorre nel determinare la variabile dipendente, Y .

di una variabile. Il termine ρXuuX)nella (5.1) rappresenta la distorsione di ˆβ1

che persiste anche in grandi campioni.

2. Quanto `e grande questa distorsione dipende, in pratica, dalla correlazione ρXu tra il regressore e l’errore. Maggiore `e |ρXu|, maggiore `e la distorsione.

3. La direzione della distorsione di ˆβ1dipende dal fatto che X e u siano positivamente o negativamente correlati. Ad esempio, abbiamo avanzato l’ipotesi che la percentuale di studenti non di madrelingua abbia un effetto negativo sui punteggi del test in un distret- to (gli studenti non di madrelingua hanno punteggi inferiori), cosicch´e la percentuale di questi studenti entra nell’errore con segno negativo. Nei nostri dati, la frazione di stu- denti non di madrelingua `e positivamente correlata con il rapporto studenti-insegnanti (i distretti con un maggior numero di studenti non di madrelingua inglese hanno classi pi`u grandi). Il rapporto studenti-insegnanti (X) sarebbe perci`o negativamente correla- to con l’errore (u), quindi ρXu < 0e il coefficiente del rapporto studenti-insegnanti βˆ1sarebbe distorto verso un numero negativo. In altre parole, una percentuale minore di studenti non di madrelingua `e associata sia con punteggi del test migliori sia con un minor rapporto studenti-insegnanti; per tali motivi, una ragione per cui gli OLS sugge- riscono che classi piccole contribuiscono ad aumentare i punteggi potrebbe essere che i distretti con classi piccole contengono un minor numero di studenti non di madrelingua inglese.

Affrontare la distorsione da variabile omessa dividendo i dati in gruppi

Cosa si pu`o fare per la distorsione da variabile omessa? Il nostro provveditore sta conside- rando l’opportunit`a di aumentare il numero di insegnanti nel suo distretto, ma non ha alcun controllo sulla frazione di immigranti nella sua comunit`a. Di conseguenza, `e interessato

(6)

5.1. La distorsione da variabile omessa

all’effetto del rapporto studenti-insegnanti sui punteggi del test, tenendo costanti gli altri fat- tori, inclusa la percentuale di studenti non di madrelingua inglese. Questo nuovo modo di porre la questione suggerisce che, invece di utilizzare dati per tutti i distretti, dovremmo forse concentrarci sui distretti con una percentuale di studenti non di madrelingua simile a quella del distretto del provveditore. In questo sottogruppo di distretti, quelli con classi pi`u piccole ottengono punteggi migliori nei test?

La tabella 5.1 riporta l’evidenza empirica circa la relazione tra dimensione delle classi e punteggi del test all’interno dei distretti con percentuali simili di studenti non di madrelin- gua. I distretti sono divisi in otto gruppi. In primo luogo, i distretti sono ripartiti in quat- tro categorie che corrispondono ai quartili della distribuzione della percentuale di studenti non di madrelingua nei distretti. In secondo luogo, all’interno di ciascuna di queste quattro categorie, i distretti sono ulteriormente suddivisi in due gruppi, a seconda che il rapporto studenti-insegnanti sia piccolo (ST R < 20) o grande (ST R ≥ 20).

La prima riga della tabella 5.1 riporta la differenza totale nei punteggi medi tra i distretti con basso e alto rapporto studenti-insegnanti, ovvero la differenza nei punteggi del test tra questi due gruppi senza suddividerli ulteriormente secondo i quartili di studenti non di ma- drelingua inglese (si ricordi che questa stessa differenza `e stata precedentemente riportata nella regressione (4.33). Come il coefficiente di Dinella regressione OLS di T estScore su Di, dove Diera un regressore binario, uguale a uno se ST Ri< 20e uguale a 0 altrimenti).

Per l’intero campione di 420 distretti, il punteggio medio del test `e di 7, 4 punti pi`u alto in quei distretti che hanno un rapporto studenti-insegnanti minore rispetto a quelli con uno pi`u alto; la statistica t `e pari a 4, 04, cos`ı l’ipotesi nulla che il punteggio medio del test sia lo stesso nei due gruppi `e rifiutato al livello 1%.

Le quattro righe finali della tabella 5.1 riportano la differenza nei punteggi del test tra distretti con rapporti studenti-insegnanti alti e bassi, suddivisi per quartile della percentuale di studenti non di madrelingua inglese. Questa evidenza empirica mostra un quadro diverso. Tra i distretti con il numero minore di studenti non di madrelingua (< 2, 2%), il punteggio medio per i 78 distretti con il rapporto studenti-insegnanti pi`u basso `e 664, 1 e la media relativa ai 27 distretti con il rapporto studenti-insegnanti pi`u alto `e 665, 4. Perci`o, nei distretti con il numero minore di studenti non di madrelingua, i punteggi del test sono in media 1, 3 punti inferiori rispetto ai distretti con rapporti studenti-insegnanti bassi! Nel secondo quartile, i distretti con rapporti studenti-insegnanti bassi hanno ottenuto in media punteggi di 4, 3 punti pi`u alti di quelli con rapporti maggiori; questa differenza era di 4, 9 punti per il terzo quartile e di soli 1, 9punti per il quartile di distretti con il maggior numero di studenti non di madrelingua inglese. Se si tiene costante la percentuale di studenti non di madrelingua, la differenza di prestazioni tra distretti con alti e bassi rapporti studenti-insegnanti `e di circa la met`a (o meno) del totale stimato, che `e pari a 7, 4 punti.

(7)

5.1. La distorsione da variabile omessa

L’effetto Mozart: distorsione da variabile omessa?

Uno studio pubblicato su Nature nel 1993 (Rauscher, Shaw and Ky, 1993) suggeri- va che ascoltare Mozart per 10-15 minuti potrebbe incrementare temporaneamente il quoziente d’intelligenza di 8 o 9 punti. Lo studio fece scalpore –e politici e genitori in- travidero un modo facile per rendere pi`u in- telligenti i propri figli. Per un certo perio- do, lo stato della Georgia addirittura distri- bu`ı CD di musica classica a tutti i bambini dello stato.

Qual `e l’evidenza per l’“effetto Mozart”?

Una rassegna di dozzine di articoli ha mo- strato che gli studenti che frequentano corsi di musica o arte alla scuola superiore otten- gono punteggi nei test di lingua inglese e matematica pi`u elevati rispetto a quelli che non lo fanno.a Un’occhiata pi`u attenta a questi studi, tuttavia, suggerisce che la vera ragione per la migliore prestazione nei test ha poco a che vedere con tali corsi. Inve- ce, gli autori della rassegna hanno suggeri- to che la correlazione tra buona prestazione nel test e frequentazione di corsi di musica o arte deriva da parecchie cose. Ad esem- pio, gli studenti accademicamente migliori potrebbero avere pi`u tempo per frequenta- re corsi opzionali di musica o maggior inte- resse nel farlo, oppure le scuole con forma- zione musicale pi`u approfondita potrebbero

essere scuole migliori in tutti i sensi.

Nella terminologia della regressione, la re- lazione stimata tra i punteggi del test e la frequenza di corsi opzionali di musica sem- bra essere soggetta a distorsione da variabi- le omessa. Omettendo fattori come l’abilit`a innata degli studenti o la qualit`a complessi- va della scuola, lo studio della musica sem- bra avere un effetto sui punteggi, quando in realt`a non ne ha alcuno.

Perci`o, esiste un “effetto Mozart”? Un mo- do per scoprirlo `e condurre un esperimento controllato casualizzato (come sar`a discus- so pi`u avanti, nel capitolo 11, gli esperi- menti controllati casualizzati eliminano la distorsione da variabile omessa assegnan- do a caso i partecipanti al “gruppo di trat- tamento” e al “gruppo di controllo”). Nel complesso, i molti esperimenti controllati sull’effetto Mozart non riescono a mostrare che ascoltare Mozart aumenti l’IQ o la pre- stazione generale nei test. Per ragioni non del tutto chiare, tuttavia, sembra che ascol- tare la musica classica sia temporaneamen- te d’aiuto in un campo ristretto: nel piegare fogli e visualizzare forme. Perci`o, la pros- sima volta che ci prepariamo duramente per un esame di origami, cerchiamo di ascoltare anche un po’ di Mozart.

aVedi Journal of Aesthetic Education 34: 3-4 (Fall/Winter 2000), in particolare l’articolo di Ellen Winner e Monica Cooper, (pp. 11-76) e quello di Lois Hetland (pp. 105-148).

(8)

5.1. La distorsione da variabile omessa

Tabella 5.1: differenza tra punteggi del test nei distretti scolastici della California con bassi e alti rapporti studenti-insegnanti (ST R), per percentuali diverse di studenti che stanno ancora apprendendo l’inglese nel distretto

Rapporto studenti- Rapporto studenti- Differenza tra punteggi, insegnanti < 20% insegnanti ≥ 20% basso v/s alto STR

Media Media

punteggi n punteggi n Differenza Statistica t

Tutti i distretti 657,4 238 650 182 7,4 4,04

Percentuale di studenti che studiano inglese

< 2, 2% 664,1 78 665,4 27 -1,3 -0,44

2,2-8,8% 666,1 61 661,8 44 4,3 1,44

8,8-23,0% 654,6 55 649,7 50 4,9 1,64

> 23, 0% 636,7 44 634,8 61 1,9 0,68

All’inizio questo risultato pu`o apparire complicato. Come pu`o l’effetto totale dei punteggi essere il doppio dell’effetto dei punteggi all’interno di ciascun quartile? La risposta `e che i distretti con il numero maggiore di studenti non di madrelingua inglese tendono ad avere sia il pi`u alto rapporto studenti-insegnanti sia i pi`u bassi punteggi. La differenza nel punteggio medio tra i distretti appartenenti al quartile pi`u basso della percentuale di studenti non di madrelingua e a quello pi`u alto `e elevata, approssimativamente di 30 punti. I distretti con un minor numero di studenti non di madrelingua inglese sono caratterizzati da rapporti studenti- insegnanti pi`u bassi: il 74% (78 su 105) dei distretti nel primo quartile hanno classi piccole (ST R < 20), mentre solo il 42% (44 su 105) dei distretti nel quartile con il maggior numero di studenti non di madrelingua ha classi piccole. Perci`o, i distretti con pi`u studenti non di madrelingua hanno punteggi inferiori nel test e hanno anche un numero di studenti per insegnante maggiore rispetto agli altri distretti.

Questa analisi rafforza il timore del provveditore che vi sia distorsione da variabile omes- sa nella regressione dei punteggi del test sul rapporto studenti-insegnanti. Distinguendo tra i quartili della percentuale di studenti non di madrelingua e differenze dei punteggi nella se- conda parte della tabella 5.1 migliorano l’analisi rispetto alla semplice differenza tra le medie della prima riga della tabella 5.1. Per`o, questa analisi non fornisce ancora al provveditore una stima utile dell’effetto sui punteggi della variazione nella grandezza delle classi, tenendo co- stante la frazione di studenti non di madrelingua. Tale stima pu`o essere ottenuta utilizzando il metodo della regressione multipla.

(9)

5.2. Il modello di regressione multipla

5.2 Il modello di regressione multipla

Ilmodello di regressione multipla estende il modello di regressione con una singola variabi- le del capitolo 4, includendo variabili addizionali come regressori. Questo modello permette di stimare l’effetto su Yi della variazione in una variabile (X1i), tenendo costanti gli altri regressori (X2i, X3i e cos`ı via). Nel problema della dimensione delle classi, il modello di regressione multipla fornisce un modo per isolare l’effetto sui punteggi del test (Yi)della variazione nel rapporto studenti-insegnanti (X1i), tenendo costante la percentuale di studenti non di madrelingua inglese nel distretto (X2i).

La retta di regressione della popolazione

Supponiamo per il momento che ci siano soltanto due variabili indipendenti, X1ie X2i. Nel modello di regressione lineare multipla, la relazione media tra queste due variabili indipen- denti e la variabile dipendente Y `e data dalla funzione lineare

E(Yi X1i= x1, X2i= x2) = β0+ β1x1+ β2x2, (5.2) dove E(Yi X1i = x1, X2i = x2)`e l’aspettativa condizionata di Yidate X1i = x1e X2i = x2. In altre parole, se il rapporto studenti-insegnanti nell’i-esimo distretto (X1i)`e uguale a un certo valore x1e la percentuale di studenti non di madrelingua nell’i-esimo distretto (X2i)

`e uguale a x2, allora il valore atteso di Yidato il rapporto studenti-insegnanti e la percentuale di studenti non di madrelingua inglese `e fornito dalla (5.2).

La (5.2) `e la retta di regressione della popolazione o funzione di regressione della popolazione nel modello di regressione multipla. Il coefficiente β0 `e l’intercetta, il coeffi- ciente β1`e ilcoefficiente di X1ie il coefficiente di β2 `e ilcoefficiente di X2i. Le variabili dipendenti nel modello di regressione multipla sono talvolta dettevariabili di controllo.

L’interpretazione del coefficiente β1 nella (5.2) `e diversa rispetto al caso in cui X1i `e il solo regressore: nella (5.2), β1 `e l’effetto su Y di una variazione unitaria in X1i,tenendo costante X2ocontrollando per X2.

Tale interpretazione di β1segue dalla definizione per cui l’effetto atteso su Y di una va- riazione ∆X1in X1, lasciando X2costante, `e la differenza tra il valore atteso di Y , quando le variabili indipendenti sono uguali a X1+∆X1e X2, e il valore atteso di Y, quando le variabi- li indipendenti sono uguali a X1e X2. Di conseguenza, scriviamo la funzione di regressione (5.2) come Y = β0+ β1X1+ β2X2e immaginiamo di far variare X1dell’ammontare ∆X1, senza variare X2, ovvero lasciandola costante. Poich´e X1`e cambiata, Y cambia di un certo ammontare, diciamo ∆Y . Dopo questa variazione, il nuovo valore di Y `e

Y + ∆Y = β0+ β1(X1+ ∆X1) + β2X2. (5.3)

(10)

5.2. Il modello di regressione multipla

Si pu`o esprimere ∆Y in termini di ∆X1sottraendo Y = β0+ β1X1+ β2X2dalla (5.3), in modo tale da ottenere ∆Y = β1∆X1. Perci`o,

β1= ∆Y

∆X1, tenendo X2costante. (5.4)

Il coefficiente β1`e l’effetto su Y (la variazione attesa di Y ) di una variazione unitaria in X1, lasciando fisso X2. Un’altra espressione usata per indicare β1`eeffetto parziale di X1su Y , tenendo X2fisso.

L’interpretazione dell’intercetta β0 nel modello di regressione multipla `e simile all’in- terpretazione dell’intercetta nel modello con un singolo regressore: il valore atteso di Yi

quando X1i e X2i sono nulli. Semplicemente, l’intercetta β0 determina il punto dell’asse delle ordinate per cui passa la retta di regressione della popolazione.

Il modello di regressione multipla della popolazione

La retta di regressione della popolazione (5.2) `e la relazione tra Y e X1e X2che vale in media nella popolazione. Proprio come nel caso della regressione con un singolo regressore, tutta- via, questa relazione non vale con esattezza perch´e molti altri fattori influenzano la variabile dipendente: oltre al rapporto studenti-insegnanti e alla frazione di studenti non di madrelin- gua inglese, ad esempio, i punteggi del test sono influenzati anche dalle caratteristiche della scuola, dalle altre caratteristiche dello studente e dal caso. La funzione di regressione della popolazione (5.2) deve perci`o essere modificata per incorporare questi fattori addizionali.

Proprio come nel caso della regressione con un singolo regressore, i fattori che deter- minano Y oltre a X1i e X2isono incorporati nell’“errore” ui della (5.2). Questo errore `e la deviazione di una particolare osservazione (nel nostro esempio, i punteggi dell’i-esimo distretto) dalla relazione che esprime la media della popolazione. Di conseguenza, otteniamo Yi = β0+ β1X1i+ β2X2i+ ui, i = 1, . . . , n, (5.5) dove il pedice indica l’i-esima delle n osservazioni (distretti) nel campione.

La (5.5) `e il modello di regressione multipla della popolazione quando ci sono due regressori, X1ie X2i.

Nei modelli con regressori binari, pu`o essere utile trattare β0come il coefficiente di un regressore che `e sempre uguale a uno; si pensi a β0come al coefficiente di X0i, dove X0i= 1 per i = 1, . . . , n. Di conseguenza, il modello di regressione multipla della popolazione (5.5) pu`o essere scritto alternativamente come

Yi= β0X0i+ β1X1i+ β2X2i+ ui, dove X0i= 1, i = 1, . . . , n. (5.6) I due modi di scrivere il modello di regressione della popolazione, la (5.5) e la (5.6), sono equivalenti.

(11)

5.2. Il modello di regressione multipla Concetto chiave 5.2:il modello di regressione multipla

Il modello di regressione multipla `e

Yi= β0+ β1X1i+ β2X2i+ . . . + βkXki+ ui, i = 1, . . . , n, (5.7) dove:

• Yi `e la i-esima osservazione della variabile dipendente, X1i, X2i, . . . , Xkisono le i-esime osservazioni di ciascuno dei k regressori e ui `e l’errore;

• la retta di regressione della popolazione `e la relazione tra la Y e le X che vale in media nella popolazione:

E(Y X1i= x1, X2i= x2, . . . , Xki= xk)

= β0+ β1x1i+ β2x2i+ . . . + βkxki;

• β1`e il coefficiente angolare di X1, β2 `e il coefficiente angolare di X2ecc. Il coeffi- ciente β1rappresenta la variazione attesa di Yiche deriva da una variazione unitaria in X1i, tenendo costanti X2i, . . . , Xki. I coefficienti delle altre X si interpretano in maniera simile;

• l’intercetta β0`e il valore atteso di Y , quando tutte le X sono pari a zero. L’intercetta pu`o essere pensata come il coefficiente di un regressore, X0i, che `e uguale a uno per ogni i.

La discussione si `e concentrata finora sul caso di una singola variabile addizionale, X2. In pratica, tuttavia, potrebbero essere stati omessi pi`u fattori dal modello con un singolo re- gressore. Per esempio, ignorare la condizione economica degli studenti potrebbe causare distorsione da variabile omessa, proprio come `e accaduto ignorando la frazione di studenti non di madrelingua. Questo ragionamento ci induce a considerare un modello con tre re- gressori o, pi`u in generale, un modello che include k regressori. Il modello di regressione multipla con k regressori, X1i, X2i, . . . , Xki, `e riassunto nel concetto chiave 5.2.

Le definizioni di omoschedasticit`a e eteroschedasticit`a nel modello di regressione mul- tipla sono simili alle definizioni date per il modello con un singolo regressore. L’errore ui nel modello di regressione multipla `eomoschedastico, se la varianza della distribuzio- ne di ui condizionatamente a X1i, X2i, . . . , Xki, var(ui

X1i, . . . , Xki), `e costante per i = 1, . . . , n, e perci`o non dipende dai valori di X1i, X2i, . . . , Xki. Altrimenti, l’errore

`eeteroschedastico.

(12)

5.3. Lo stimatore OLS della regressione multipla

Il modello di regressione multipla soddisfa la promessa di svelare proprio ci`o che il prov- veditore vuole sapere: l’effetto della variazione del rapporto studenti-insegnanti, tenendo costanti altri fattori che sfuggono al suo controllo. Questi fattori includono non soltanto la percentuale di studenti non di madrelingua, ma altri fattori misurabili che potrebbero in- fluenzare la prestazione nel test, incluse le condizioni economiche degli studenti. Per dare al provveditore un aiuto pratico, tuttavia, dobbiamo fornirgli le stime dei coefficienti igno- ti β0, . . . , βk del modello di regressione della popolazione utilizzando un campione di dati.

Fortunatamente, questi coefficienti possono essere stimati tramite i minimi quadrati ordinari.

5.3 Lo stimatore OLS della regressione multipla

Questa sezione descrive come i coefficienti del modello di regressione multipla possano essere stimati tramite gli OLS.

Lo stimatore OLS

La sezione 4.2 mostra come stimare l’intercetta e la pendenza del modello con un singolo regressore, applicando gli OLS a un campione di osservazioni su Y e X. L’idea chiave `e che questi coefficienti possano essere stimati minimizzando la somma dei quadrati degli errori di predizione, ovvero scegliendo gli stimatori b0e b1cos`ı da minimizzarePn

i=1(Yi− b0− b1Xi)2; gli stimatori risultanti sono gli OLS, ˆβ0e ˆβ1.

Il metodo degli OLS pu`o anche essere usato per stimare i coefficienti β0, β1, . . . , βk nel modello di regressione multipla. Siano b0, b1, . . . , bk stimatori di β0, β1, . . . , βk. Il valore predetto di Yi, calcolato usando tali stimatori, `e b0+b1X1i+. . .+bkXkie l’errore commesso nel predire Yi `e Yi− (b0+ b1X1i+ . . . + bkXki) = Yi− b0− b1X1i− . . . − bkXki. La somma dei quadrati di questi errori di previsione al quadrato per n osservazioni `e perci`o

Xn i=1

(Yi− b0− b1X1i− . . . − bkXki)2. (5.8) La somma dei quadrati degli errori nel modello di regressione lineare (5.8) `e l’estensione della somma dei quadrati degli errori (4.6) nel modello di regressione lineare con un singolo regressore.

Gli stimatori dei coefficienti β0, β1, . . . , βkche minimizzano la somma dei quadrati degli errori (5.8) sono dettistimatori dei minimi quadrati ordinari (OLS) di β0, β1, . . . , βk. Gli stimatori OLS sono indicati con ˆβ0, ˆβ1, . . . , ˆβk.

La terminologia degli OLS nel modello di regressione multipla `e la stessa usata per il modello di regressione lineare con un singolo regressore. Laretta di regressione OLS si costruisce utilizzando gli stimatori OLS, ˆβ0+ ˆβ1X1+ . . . + ˆβkXk. Ilvalore predetto di Yi

date X1i, . . . , Xki, basato sulla retta di regressione OLS, `e ˆYi = ˆβ0+ ˆβ1X1i+ . . . + ˆβkXki.

(13)

5.3. Lo stimatore OLS della regressione multipla

Ilresiduo OLS per l’i-esima osservazione `e la differenza tra Yie il suo predittore OLS, cio`e ˆ

ui= Yi− ˆYi.

Gli stimatori OLS potrebbero essere calcolati attraverso un processo di prova ed errori, provando cio`e ripetutamente valori diversi di b0, . . . , bk finch`e siamo convinti di aver mini- mizzato la somma totale dei quadrati (5.8). `E molto pi`u semplice, per`o, usare le formule per gli stimatori OLS derivate utilizzando il calcolo infinitesimale. Le formule per gli stimatori OLS nel modello di regressione multipla sono simili a quelle nel concetto chiave 4.2 per il modello con un singolo regressore. Queste formule sono incorporate nei moderni pacchet- ti statistici ed econometrici. Nel modello di regressione multipla, le formule sono meglio espresse e discusse usando la notazione matriciale, perci`o se ne rinvia la presentazione alla sezione 16.1.

Le definizioni e la terminologia relativa agli OLS per la regressione multipla sono rias- sunte nel concetto chiave 5.3.

Applicazione ai punteggi del test e al rapporto studenti-insegnanti

Nella sezione 4.2, abbiamo usato gli OLS per stimare l’intercetta e la pendenza della re- gressione che mette in relazione il punteggio del test (T estScore) con il rapporto studenti- insegnanti (STR), usando le nostre 420 osservazioni relative ai distretti scolastici della Cali- fornia; la stima OLS della retta di regressione (4.7) `e

T estScore = 698, 9 − 2, 28 × ST R.d (5.9) La nostra preoccupazione era che questa relazione fosse fuorviante per il fatto che il rapporto studenti-insegnanti potrebbe catturare l’effetto della presenza, nei distretti con classi grandi, di molti studenti non di madrelingua. Per questo motivo, `e possibile che lo stimatore OLS sia soggetto a distorsione da variabile omessa.

Siamo ora in grado di affrontare questo problema usando gli OLS per stimare una re- gressione multipla in cui la variabile dipendente `e il punteggio del test (Yi)e ci sono due regressori: il rapporto studenti-insegnanti (X1i)e la percentuale di studenti non di madre- lingua (X2i)per i nostri 420 distretti scolastici (i = 1, . . . , 420). La stima OLS di questa regressione multipla `e

T estScore = 686, 0 − 1, 10 × ST R − 0, 65 × P ctEL,d (5.10) dove P ctEL `e la percentuale di studenti non di madrelingua inglese nel distretto. La sti- ma OLS dell’intercetta ( ˆβ0) `e 686, 0, la stima OLS del coefficiente del rapporto studenti- insegnanti ( ˆβ1)`e −1, 10 e quella del coefficiente della percentuale di studenti non di madre- lingua inglese ( ˆβ2)`e −0, 65.

(14)

5.3. Lo stimatore OLS della regressione multipla

Concetto chiave 5.3:gli stimatori OLS, i valori previsti e i residui del modello di regressione multipla

Gli stimatori OLS ˆβ0, ˆβ1, . . . , ˆβk sono quei valori di b0, b1, . . . , bk che minimizzano la somma dei quadrati degli errori di previsionePn

i=1(Yi− b0− b1X1i− · · · − bkXki)2. I valori predetti ˆYie i residui ˆuidegli OLS sono:

i= ˆβ0+ ˆβ1X1i+ . . . + ˆβkXki, con i = 1, . . . , n, e (5.11) ˆ

ui= Yi− ˆYi, con i = 1, . . . , n. (5.12) Gli stimatori OLS ˆβ0, ˆβ1, . . . , ˆβk e il residuo ˆui sono calcolati per un campione di n os- servazioni (X1i, . . . , Xki, Yi), con i = 1, . . . , n. Essi sono stimatori dei veri coefficienti ignoti della popolazione β0, β1, . . . , βke dell’errore ui.

Nella regressione multipla, l’effetto stimato sui punteggi di una variazione nel rapporto studenti-insegnanti `e circa la met`a rispetto a quando il numero di studenti per insegnante era l’unico regressore: con un singolo regressore (equazione (5.9)) un decremento unitario di ST Rsi stima aumenti i punteggi di 2, 28 punti, mentre, con regressori multipli (equazione (5.10)), si stima che i punteggi del test aumentino di soli 1, 10 punti. Questa differenza sorge perch´e il coefficiente di ST R nella regressione multipla `e l’effetto di una variazione di ST R, tenendo costante (o controllando per) P ctEL, mentre nella regressione con un singolo regressore, P ctEL non `e tenuto costante.

Queste due stime si possono conciliare riconoscendo che c’`e distorsione da variabile omessa nella stima del modello con un singolo regressore (5.9). Nella sezione 5.1, abbiamo visto che distretti con un’alta percentuale di studenti non di madrelingua tendono ad avere non solo bassi punteggi nei test, ma anche un alto rapporto studenti-insegnanti. Se la frazione di studenti non di madrelingua `e omessa dalla regressione, si stima che una riduzione nel rapporto studenti-insegnanti abbia un effetto maggiore sui punteggi del test, ma questa stima riflette sia l’effetto di una variazione nel rapporto studenti-insegnanti sia l’effetto omesso di avere nel distretto un minor numero di studenti non di madrelingua.

Abbiamo raggiunto la stessa conclusione cio`e che esiste distorsione da variabile omessa nella relazione tra punteggi nei test e rapporto studenti-insegnanti seguendo due strade di- verse: l’approccio tabulare del dividere i dati in due gruppi (sezione 5.1) e l’approccio della regressione multipla (equazione (5.10)). Tra i due metodi, la regressione multipla ha due importanti vantaggi. In primo luogo, essa fornisce una stima quantitativa dell’effetto di un decremento unitario nel rapporto studenti-insegnanti, che `e quello di cui ha bisogno il prov- veditore per prendere la sua decisione. In secondo luogo, essa si adatta facilmente al caso di

(15)

5.4. Le assunzioni dei minimi quadrati

pi`u di due regressori, e quindi pu`o essere usata per tener conto di altri fattori misurabili, in aggiunta alla percentuale di studenti non di madrelingua inglese.

Il resto di questo capitolo `e dedicato alla comprensione e all’uso degli OLS nel modello di regressione multipla. La maggior parte di quanto appreso circa lo stimatore OLS con un singolo regressore si estende alla regressione multipla con poche o senza alcuna modifica, e quindi ci concentreremo sulle novit`a presentate dalla regressione multipla. Cominciamo estendendo le assunzioni dei minimi quadrati al modello di regressione multipla.

5.4 Le assunzioni dei minimi quadrati per la regressione multipla

Ci sono quattro assunzioni degli OLS per il modello di regressione multipla. Le prime tre sono quelle della sezione 4.3 per il modello di regressione univariata (concetto chiave 4.3), adattate al fine di consentire una molteplicit`a dei regressori e che saranno discusse solo brevemente. La quarta assunzione `e nuova e sar`a discussa in maggiore dettaglio.

Assunzione 1: la distribuzione condizionata di u

i

date X

1i

, X

2i

, . . . , X

ki

ha media nulla

La prima assunzione `e che la distribuzione condizionata di uidate X1i, X2i, . . . , Xkiabbia media nulla. Questa assunzione estende al caso di pi`u regressori la prima assunzione dei minimi quadrati con un singolo regressore. Questa assunzione implica che Yitalvolta `e al di sopra della retta di regressione della popolazione e talvolta al di sotto, ma che in media giace su tale retta. Quindi, per ogni valore dei regressori, il valore atteso di ui`e pari a zero. Come nel caso della regressione con un singolo regressore, questa `e l’assunzione chiave che rende non distorto lo stimatore OLS. Ritorneremo alla distorsione da variabile omessa nella sezione 5.11.

Assunzione 2: (X

1i

, X

2i

, . . . , X

ki

, Y

i

), con i = 1, . . . , n, sono i.i.d.

La seconda assunzione `e che (X1i, X2i, . . . , Xki, Yi), con i = 1, . . . , n, siano variabili casuali indipendentemente e identicamente distribuite (i.i.d.). Essa vale automaticamente se i dati sono raccolti attraverso un campionamento casuale semplice. I commenti su questa assunzione che appaiono nella sezione 4.3 relativamente a un singolo regressore valgono anche nel caso di pi`u regressori.

(16)

5.4. Le assunzioni dei minimi quadrati

Assunzione 3: X

1i

, X

2i

, . . . , X

ki

e u

i

hanno quattro momenti

La terza assunzione `e che X1i, X2i, . . . , Xkie uiabbiano quattro momenti. Come la terza as- sunzione del modello con un singolo regressore, essa serve a limitare la possibilit`a di osserva- re valori estremamente elevati di X1i, X2i, . . . , Xkio ui. Questa assunzione `e una condizione tecnica usata nelle prove delle propriet`a delle statistiche degli OLS in grandi campioni.

Assunzione 4: collinearit`a non perfetta

La quarta assunzione `e la novit`a del modello di regressione multipla. Essa elimina una si- tuazione poco gradevole, chiamata collinearit`a perfetta, nella quale `e impossibile calcolare lo stimatore OLS. Si dice che i regressori sonoperfettamente collineari (o che mostrano collinearit`a perfetta) se uno dei regressori `e una funzione lineare esatta degli altri. La quarta assunzione dei minimi quadrati `e che i regressori non siano perfettamente collineari.

Per illustrare cosa sia la collinearit`a perfetta e mostrare perch´e costituisca un problema, consideriamo tre esempi di regressioni in cui un terzo regressore `e aggiunto alla regressione dei punteggi sul rapporto studenti-insegnanti e la percentuale di studenti non di madrelingua (5.10).

Esempio 1: frazione di studenti non di madrelingua inglese. Sia F racELila frazione di studenti non di madrelingua nel distretto i-esimo, che varia tra zero e uno. Se la variabile F racELi fosse aggiunta come terzo regressore a ST Ri e P ctELi, i regressori sarebbero perfettamente collineari. La ragione `e che P ctEL `e la percentuale di studenti non di ma- drelingua, cosicch´e P ctELi = 100 × F racELi per ciascun distretto. Uno dei regressori (P ctELi)pu`o essere allora scritto come una funzione lineare esatta di un altro regressore (F racELi).

A causa di questa perfetta collinearit`a, `e impossibile calcolare le stime degli OLS della regressione di T estScoreisu ST Ri, P ctELie F racELi. A seconda di come il pacchetto informatico usato tratta la multicollinearit`a, quando si cerca di stimare questa regressione, il pacchetto informatico far`a una di queste tre cose: eliminer`a una delle variabili (operando la scelta di quale cancellare in maniera arbitraria); si rifiuter`a di calcolare le stime OLS, mostrando un messaggio di errore; oppure si bloccher`a. La ragione matematica `e che la collinearit`a perfetta fa s`ı che le formule degli OLS abbiano divisori nulli.

A livello intuitivo, la ragione matematica per cui la collinearit`a perfetta `e un problema `e che si sta chiedendo alla regressione di rispondere a una domanda illogica. Si ricordi che il coefficiente di P ctELi `e l’effetto sui punteggi del test di una variazione unitaria di P ctEL, lasciando costanti le altre variabili. Se una delle altre variabili `e F racEL, ci si chiede: qual `e l’effetto di una variazione unitaria nella percentuale di studenti non di madrelingua, tenendo costante la frazione di studenti non di madrelingua? Poich´e la percentuale di studenti non

(17)

5.4. Le assunzioni dei minimi quadrati

di madrelingua e la frazione di studenti non di madrelingua variano insieme in una relazione lineare perfetta, questa domanda non ha senso e gli OLS non possono darvi alcuna risposta.

Esempio 2: classi “non troppo piccole”. Sia NV Siuna variabile binaria che `e uguale a uno se il rapporto studenti-insegnanti nell’i-esimo distretto `e “non troppo piccolo”; nello specifi- co, NV Si`e uguale a uno se ST Ri≥ 12 e zero altrimenti. Anche questa regressione mostra collinearit`a perfetta, ma per una ragione pi`u sottile rispetto alla regressione nell’esempio pre- cedente. Non ci sono, infatti, distretti nei nostri dati con ST Ri < 12; come si pu`o vedere nel grafico a nuvola della figura 4.2, il valore pi`u piccolo di ST R `e 14. Allora, NV Si = 1 per tutte le osservazioni. Ora si ricordi che un modello di regressione lineare con intercetta pu`o equivalentemente essere pensato come se si includesse un regressore, X0i, che `e uguale a uno per tutte le i, come mostrato nella (5.6). Cos`ı, possiamo scrivere NV Si = 1 × X0i

per tutte le osservazioni del nostro insieme di dati; perci`o, NV Sipu`o essere scritto come una combinazione lineare perfetta dei regressori; nello specifico, `e uguale a X0i.

Questo illustra due concetti importanti relativi alla perfetta collinearit`a. In primo luogo, quando la regressione include un’intercetta, uno dei regressori che pu`o essere implicato nella collinearit`a perfetta `e il regressore “costante” X0i. In secondo luogo, la collinearit`a perfetta `e una caratteristica dell’insieme di dati che si ha a disposizione. Mentre `e possibile immaginare un distretto scolastico con meno di 12 studenti per insegnante, non sono presenti distretti simili nei dati disponibili, e quindi non possiamo analizzarli nella nostra regressione.

Esempio 3: percentuale di studenti di madrelingua inglese. Sia P ctESila percentuale di “madrelingua inglesi” nell’i-esimo distretto definita come la percentuale di studenti che sono di madrelingua inglese. Nuovamente, i regressori saranno perfettamente multicollinea- ri. Come nell’esempio precedente, la relazione lineare perfetta tra i regressori coinvolge il regressore “costante” X0i: per tutti i distretti, P ctESi= 100 × X0i− P ctELi.

Questo esempio illustra un altro punto: la collinearit`a perfetta `e una caratteristica dell’in- tero insieme dei regressori. Se l’intercetta (i.e., il regressore X0i) o P ctESifossero esclusi dalla regressione, i regressori non sarebbero perfettamente multicollineari.

Soluzioni alla collinearit`a perfetta. La collinearit`a perfetta si verifica tipicamente quando `e stato commesso un errore nella specificazione della regressione. Talvolta l’errore `e facile da individuare (come nel primo esempio), ma talvolta non lo `e (come nel secondo esempio). In un modo o nell’altro il pacchetto statistico indicher`a se si sta commettendo tale errore, perch´e non `e in grado di calcolare lo stimatore OLS.

Quando il pacchetto statistico individua la collinearit`a perfetta, per eliminarla `e impor- tante modificare la regressione. Alcuni pacchetti sono inaffidabili nel caso di collinearit`a perfetta e, come minimo, sarete costretti a cedere il controllo della scelta dei regressori al

(18)

5.5. La distribuzione degli stimatori OLS nella regressione multipla

Concetto chiave 5.4:le assunzioni dei minimi quadrati relative al modello di regressione multipla

Yi= β0+ β1X1i+ β2X2i+ . . . + βkXki+ ui, con i = 1, . . . , n, dove:

1. ui ha media condizionata nulla, date X1i, X2i, . . . , Xki, ovvero E(ui

X1i, X2i, . . . , Xki) = 0;

2. (X1i, . . . , Xki, Yi), con i = 1, . . . , n, sono estratti indipendentemente e indenticamente distribuiti (i.i.d.) dalla propria distribuzione congiunta;

3. (X1i, . . . , Xki, ui)hanno momenti quarti finiti e non nulli;

4. non vi `e collinearit`a perfetta.

vostro computer.

Collinearit`a imperfetta. A dispetto del nome simile, la collinearit`a imperfetta `e concettual- mente molto diversa rispetto alla collinearit`a perfetta.Collinearit`a imperfetta significa che due o pi`u regressori sono altamente correlati, nel senso che esiste una funzione lineare dei regressori che `e altamente correlata con un altro regressore. La collinearit`a imperfetta non pone alcun problema per la teoria degli stimatori degli OLS; infatti, uno degli scopi degli OLS `e quello di separare le influenze indipendenti dei vari regressori quando questi sono potenzialmente correlati.

Le assunzioni dei minimi quadrati per il modello di regressione multipla sono riassunte nel concetto chiave 5.4.

5.5 La distribuzione degli stimatori OLS nella regressione multipla

Poich´e i dati differiscono da un campione a un altro, campioni differenti producono valori diversi degli stimatori OLS. Questa variazione tra i possibili campioni genera l’incertezza as- sociata con gli stimatori OLS dei coefficienti di regressione della popolazione β0, β1, . . . , βk. Come nel caso della regressione con un singolo regressore, questa variazione `e sintetizzata nella distribuzione campionaria degli stimatori OLS.

Ricordiamo dalla sezione 4.4 che, sotto le assunzioni dei minimi quadrati, gli stimatori OLS ( ˆβ0e ˆβ1) sono stimatori non distorti e consistenti dei coefficienti ignoti (β0e β1) del modello di regressione lineare con un singolo coefficiente. In aggiunta, per grandi campioni,

(19)

5.5. La distribuzione degli stimatori OLS nella regressione multipla

la distribuzione campionaria di ˆβ0 e ˆβ1 `e ben approssimata da una distribuzione normale bivariata.

Questi risultati si estendono al caso della regressione multipla. In altre parole, sot- to le assunzioni dei minimi quadrati riportate nel concetto chiave 5.4, gli stimatori OLS βˆ0, ˆβ1, . . . , ˆβk sono stimatori non distorti e consistenti di β0, β1, . . . , βk nel modello di re- gressione lineare multipla. Per grandi campioni, la distribuzione campionaria congiunta di βˆ0, ˆβ1, . . . , ˆβk`e ben approssimata da una distribuzione normale multivariata, che `e l’estensio- ne della distribuzione normale bivariata al caso generale di due o pi`u variabili congiuntamente normali (sezione 2.4).

Sebbene in presenza di regressori multipli l’algebra sia pi`u complicata, il teorema limite centrale si applica agli stimatori OLS nel modello di regressione multipla per la stessa ragio- ne per cui si applica alla media campionaria ¯Y e agli stimatori OLS quando c’`e un singolo regressore: gli stimatori OLS ˆβ0, ˆβ1, . . . , ˆβksono medie di dati campionati casualmente e, se la dimensione campionaria `e sufficientemente grande, la distribuzione campionaria di quel- le medie diviene normale. Poich´e la distribuzione normale multivariata pu`o essere trattata pi`u agevolmente con l’algebra matriciale, le espressioni per la distribuzione congiunta degli stimatori OLS sono rinviate al capitolo 16.

Il concetto chiave 5.5 riassume il risultato che, per grandi campioni, la distribuzione degli stimatori OLS nella regressione multipla `e approssimativamente normale multivariata. In ge- nerale, gli stimatori OLS sono correlati; questa correlazione deriva dalla correlazione tra i re- gressori. La distribuzione campionaria congiunta degli stimatori OLS `e discussa in maggiore dettaglio nell’appendice 5.2 per il caso in cui ci siano due regressori ed errori omoschedastici, il caso generale `e discusso invece nella sezione 16.2.

Gli errori standard degli stimatori OLS

Si ricordi che, nel caso di un singolo regressore, `e stato possibile stimare la varianza degli stimatori OLS sostituendo le medie campionarie alle aspettative, il che ha portato allo sti- matore ˆσβ2ˆ

1 nella (4.19). Sotto le assunzioni dei minimi quadrati, la legge dei grandi numeri implica che queste medie campionarie convergano alle corrispondenti medie della popolazio- ne, e quindi per esempio ˆσβ2ˆ

12ˆ

β1

→ 1. La radice quadrata di ˆσp β2ˆ1 `e l’errore standard di ˆβ1, SE( ˆβ1), uno stimatore della deviazione standard della distribuzione campionaria di ˆβ1.

Tutto ci`o si estende direttamente alla regressione multipla. Lo stimatore OLS del j-esimo coefficiente di regressione ˆβj ha una deviazione standard, che `e stimata tramite il suo errore standard, SE( ˆβj). La formula dell’errore standard `e espressa pi`u facilmente in termini matri- ciali, per questo motivo `e riportata nella sezione 16.2. Il punto importante `e che, per quanto riguarda gli errori standard, non c’`e niente di concettualmente diverso tra il caso di un singolo regressore e quello di regressori multipli. Le idee chiave –la normalit`a in grandi campioni

(20)

5.6. Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente

Concetto chiave 5.5:la distribuzione diβˆ0, ˆβ1, . . . , ˆβkin grandi campioni

Se valgono le assunzioni dei minimi quadrati (concetto chiave 5.4), gli stimatori OLS βˆ0, ˆβ1, . . . , ˆβksono, in grandi campioni, congiuntamente distribuiti secondo una normale e ogni ˆβjsi distribuisce secondo una N(βj, σ2βˆ

j), con j = 0, . . . , k.

degli stimatori e la capacit`a di stimare consistentemente la deviazione standard della loro distribuzione campionaria– sono le stesse sia che si abbiano uno, due o 12 regressori.

5.6 Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente

Questa sezione descrive come verificare le ipotesi e costruire intervalli di confidenza per un singolo coefficiente in una regressione multipla.

La verifica di ipotesi su un singolo coefficiente

Supponiamo di voler verificare l’ipotesi che una variazione nel rapporto studenti-insegnanti non abbia alcun effetto sui punteggi del test, tenendo costante la percentuale di studenti non di madrelingua nel distretto. Questo corrisponde all’ipotesi che il vero coefficiente β1relativo al rapporto studenti-insegnanti sia nullo nella regressione dei punteggi del test su ST R e P ctEL. Pi`u in generale, potremmo voler verificare l’ipotesi che il vero coefficiente βj del j-esimo regressore assuma un qualche valore specifico βj,0. Il valore dell’ipotesi nulla βj,0

deriva dalla teoria economica oppure, come nell’esempio del rapporto studenti-insegnanti, dal contesto decisionale a cui si riferisce l’applicazione. Se l’ipotesi alternativa `e bilaterale, allora le due ipotesi possono essere espresse matematicamente come

H0: βj = βj,0 contro H1: βj 6= βj,0 (alternativa bilaterale). (5.13) Ad esempio, se il primo regressore `e ST R, allora l’ipotesi nulla che una variazione nel rap- porto studenti-insegnati non abbia alcun effetto sulla dimensione delle classi corrisponde all’ipotesi nulla che β1 = 0(perci`o β1,0 = 0). Il nostro compito `e verificare l’ipotesi nulla H0contro l’alternativa H1utilizzando un campione di dati.

Il concetto chiave 4.6 offre una procedura per verificare questa ipotesi nulla quando c’`e un singolo regressore. Il primo passo di questa procedura `e quello di calcolare l’errore stan- dard del coefficiente. Il secondo passo `e quello di calcolare la statistica t usando la formula generale del concetto chiave 4.5. Il terzo passo `e quello di calcolare il valore-p del test usando

(21)

5.6. Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente Concetto chiave 5.6:la verifica dell’ipotesiβj = βj,0contro l’alternativaβj 6= βj,0

1. Si calcoli l’errore standardizzato di ˆβj, SE( ˆβj).

2. Si calcoli la statistica t,

t = βˆj− βj,0

SE( ˆβj) . (5.14)

3. Si calcoli il valore-p,

valore-p = 2Φ(− tact ), (5.15) dove tact`e il valore effettivamente calcolato della statistica t. Si rifiuti l’ipotesi al li- vello di significativit`a 5%, se il valore-p `e minore di 0, 05 oppure, equivalentemente, se |tact| > 1, 96.

L’errore standard e (tipicamente) la statistica t e il valore-p per l’ipotesi nulla che βj= 0sono calcolati automaticaticamente dai software di regressione.

la funzione di ripartizione normale nella tavola 1 dell’appendice finale o, alternativamente, confrontare la statistica t con il valore critico corrispondente al livello di significativit`a desi- derato del test. Il fondamento teorico di questa procedura `e il fatto che, in grandi campioni, lo stimatore OLS ha una distribuzione normale la cui media, sotto l’ipotesi nulla, `e pari al valore ipotizzato e la cui variazione pu`o essere stimata consistentemente.

Questo fondamento teorico `e presente anche nel caso della regressione multipla. Come affermato nel concetto chiave 5.5, la distribuzione campionaria di ˆβj `e approssimativamente normale. Sotto l’ipotesi nulla, la media di questa distribuzione `e βj,0. La varianza di questa distribuzione pu`o essere stimata in modo consistente. Perci`o, per verificare l’ipotesi nulla (5.13), possiamo semplicemente seguire la stessa procedura del caso di un singolo regressore.

La procedura per verificare un’ipotesi su un singolo coefficiente nella regressione multipla

`e riassunta nel concetto chiave 5.6. La statistica t effettivamente calcolata `e indicata nel concetto chiave con tact. Tuttavia, `e uso comune indicarla semplicemente con t e adotteremo questa notazione pi`u snella nel resto della trattazione.

Gli intervalli di confidenza per un singolo coefficiente

Il metodo per costruire un intervallo di confidenza per il modello di regressione multipla `e anch’esso quello per il modello con un singolo regressore. Questo metodo `e riassunto nel concetto chiave 5.7.

Il metodo per condurre un test d’ipotesi nel concetto chiave 5.6 e quello per costruire

(22)

5.6. Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente

un intervallo di confidenza nel concetto chiave 5.7 si fondano sull’approssimazione normale della distribuzione dello stimatore OLS ˆβj valida per grandi campioni. Di conseguenza, occorre sempre ricordare che questi metodi per quantificare l’incertezza campionaria danno garanzia di funzionamento solo in grandi campioni.

Applicazione ai punteggi del test e al rapporto studenti-insegnanti

Possiamo rifiutare l’ipotesi nulla che una variazione nel numero di studenti per insegnante non abbia alcun effetto sui punteggi del test, dopo aver controllato la percentuale di studenti non di madrelingua inglese nel distretto? Qual `e l’intervallo di confidenza di livello 95% per l’effetto sui punteggi del test di una variazione nel rapporto studenti-insegnanti, controllando per la percentuale di studenti non di madrelingua inglese? Siamo ora in grado di scoprirlo. La regressione dei punteggi su ST R e P ctEL, stimata tramite gli OLS e riportata nella (5.10),

`e riproposta qui con gli errori standard in parentesi sotto i coefficienti:

T estScore = 686, 0d

(8, 7)− 1, 10

(0, 43)× ST R − 0, 650

(0, 031)× P ctEL. (5.16) Per verificare l’ipotesi nulla che il vero coefficiente di ST R sia uguale a 0, dobbiamo prima calcolare la statistica t secondo la (5.14). Poich´e l’ipotesi nulla dice che il vero valore di questo coefficiente `e zero, la statistica t `e t = (−1, 10 − 0)/0, 43 = −2, 54. Il valore- p relativo `e 2Φ(−2, 54) = 1, 1%; cio`e, il minor livello di significativit`a al quale possiamo rifiutare l’ipotesi nulla `e 1, 1%. Siccome il valore-p `e minore di 5%, l’ipotesi nulla pu`o essere rifiutata al livello di significativit`a 5% (ma non al livello di significativit`a 1%).

Un intervallo di confidenza di livello 95% per il coefficiente di ST R relativo alla popola- zione `e −1, 10 ± 1, 96 × 0, 43 = (−1, 95, −0, 26); cio`e, possiamo essere confidenti al 95%

che il vero valore del coefficiente si situa tra −1, 95 e −0, 26. Interpretato tenendo conto dell’interesse del provveditore a diminuire di 2 unit`a il numero di studenti per insegnante, l’intervallo di confidenza di livello 95% per l’effetto sul punteggio del test di tale riduzione `e (−1, 95 × 2, −0, 26 × 2) = (−3, 90, −0, 52).

Aggiunta delle spese per studente all’equazione. La nostra analisi della regressione multi- pla (5.16) ha persuaso il provveditore che, in base all’evidenza disponibile, la riduzione nella dimensione delle classi aiuter`a i punteggi del suo distretto. Ora, tuttavia, questi pone una domanda pi`u articolata. Se deve assumere pi`u insegnanti, pu`o pagarli attraverso tagli nel bi- lancio (nessun computer nuovo, manutenzione ridotta ecc.) o `e necessario un aumento dello stanziamento di bilancio, cosa che i contribuenti non gradiscono? Qual `e, domanda, l’effetto sui punteggi di una riduzione del rapporto studenti-insegnanti, tenendo costanti le spese per studente (e la percentuale di studenti non di madrelingua inglese)?

(23)

5.6. Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente

Concetto chiave 5.7:gli intervalli di confidenza per un singolo regressore nel modello di regressione multipla

Un intervallo di confidenza bilaterale di livello 95% per il coefficiente βj `e un intervallo che contiene il valore vero di βjcon probabilit`a 95%; in altre parole, esso contiene il vero valore di βjnel 95% di tutti i campioni che `e possibile estrarre. Equivalentemente, `e anche l’insieme di valori di βjche non possono essere rifiutati da un test d’ipotesi bilaterale al 5%. Quando il campione `e grande, l’intervallo di confidenza di livello 95% `e:

βj=

βˆj− 1, 96 SE( ˆβj), ˆβj+ 1, 96SE( ˆβj)

. (5.17)

Un intervallo di confidenza di livello 90% si ottiene sostituendo 1, 96 con 1, 645 nella 5.17.

Questa domanda pu`o trovare riposta tramite una regressione dei punteggi del test sul rapporto studenti-insegnanti, la spesa totale per studente e la percentuale di studenti non di madrelingua. La retta di regressione degli OLS `e

T estScore = 649, 6d

(15, 5)− 0, 29

(0, 48)× ST R + 3, 87

(1, 59)× Expn − 0, 656

(0, 032)× P ctEL, (5.18) dove Expn `e la spesa annua totale per studente nel distretto in migliaia di dollari.

Il risultato `e sorprendente. Tenendo costante la spesa per studente e la percentuale di studenti non di madrelingua, la variazione nel rapporto studenti-insegnanti ha un effetto ri- dottissimo sui punteggi: il coefficiente stimato di ST R `e −1, 10 nella (5.16), ma, dopo aver raggiunto Expn come regressore nella (5.18), `e solo −0, 29. Inoltre, la statistica t per la si- gnificativit`a del coefficiente `e ora t = (−0, 29 − 0)/0, 48 = −0, 60, cos`ı l’ipotesi che questo coefficiente sia, invece, pari a zero non pu`o essere rifiutata neanche al livello di significati- vit`a 10% (|−0, 60| < 1, 645). La (5.18) non fornisce quindi alcuna evidenza del fatto che assumere pi`u insegnanti faccia aumentare i punteggi del test, se la spesa totale per studente `e tenuta costante.

Si noti che l’errore standard di ST R `e cresciuto dopo aver aggiunto Expn da 0, 43 nella (5.16) a 0, 48 nella (5.18). Ci`o illustra il risultato generale per cui la correlazione tra i regres- sori (la correlazione tra ST R e Expn `e −0, 62) pu`o rendere meno precisi gli stimatori OLS (vedi l’appendice 5.2 per ulteriori discussioni).

E il nostro contribuente alterato? Egli sostiene che sia il coefficiente del rapporto studenti- insegnanti (β1) sia quello delle spese per gli studenti (β2) sono nulli, egli ipotizza cio`e che β1= 0e β2= 0. Sebbene possa sembrare possibile rifiutare tale ipotesi, perch´e la statistica t per la verifica di β2 = 0nella (5.18) `e t = 3, 87/1, 59 = 2, 43, questo ragionamento `e

Riferimenti

Documenti correlati

Come afferma Gianfranco Ghiglione, proprietario insieme alla sorella del Frantoio Ghiglione di Dolcedo (Imperia), in un’intervista rilasciata alla sottoscritta in

attorno al modello possono essere individuate due fasce di ampiezza

Il metodo della Regressione Lineare (o metodo di stima ai Minimi Quadrati) si occupa di individuare, all’interno di un certo ambito di funzioni, una relazione fra le

Il problema della collinearità sta nel fatto che i dati non contengono sufficiente informazione sugli effetti individuali delle variabili esplicative per permetterci di stimare

Il modello di regressione multipla.

SE R² =0 SIGNIFICA CHE IL CONTRIBUTO ESPLICATIVO ALLA DEVIANZA COMPLESSIVA APPORTATO DAL MODELLO È IDENTICAMENTE NULLO; LA DEVIANZA COMPLESSIVA È SOLO SPIEGATA DALLA

Un esempio di funzione matematica in grado di approssimare in modo soddisfacente i valori osservati è riportato nella figura seguente che riporta lo scatter relativo ai

Supponiamo ora di avere una differente incertezza per ciascuna misura sulle y e che non esista incertezza sulla misura dell’osservabile x. La nuova relazione non è altro che