Modello di regressione
Corso di Statistica Universit`a degli Studi di Salerno
Corso di Laurea Triennale in Economia e Management a.a. 2016/2017
Relazioni tra variabili
Uno degli obiettivi della statistica `e quello di studiare le relazioni esistenti tra variabili.
Il primo strumento utile per identificare il tipo di relazione esistente tra due variabili `e quello grafico: il diagramma a dispersione o diagramma scatter
Il diagramma a dispersione, o scatter-plot, fornisce una descrizione dei dati, evidenziando:
1 i possibili valori di ogni variabile;
2 l’eventuale relazione tra le due variabili;
Relazione lineare
Tra i possibili legami esistenti tra due variabili, il pi`u semplice `
e quello lineare, che indica che al variare di una delle due variabili l’altra cresce (o decresce) mediamente seguendo l’andamento di una retta.
Se il legame `e positivo, allora all’aumentare di una variabile anche l’altra aumenta (in media). Se il legame `e negativo, le due variabili si comportano in maniera opposta.
Gli indici di covarianza sXY e correlazione rXY misurano la
presenza e l’intensit`a del legame lineare esistente tra due variabili.
Nota chel’indice di correlazione non `e una misura generale della relazione tra due variabili, ma esprime solo il grado di linearit`a della relazione in un grafico a dispersione.
Relazioni causa-effetto
Un particolare tipo di relazione tra variabili `e quella che stabilisce un nesso di causalit`a diretta tra una variabile e le altre.
E’ da tener presente che il diagramma a dispersione, la
covarianza e il coefficiente di correlazione non possono provare relazioni di causa-effetto tra variabili, ma ne forniscono l’evidenza empirica.
Per giungere a conclusioni fondate, fondamentali per la formulazione di un modello statistico, bisogna quindi combinare teoria, esperienza e analisi statistica.
Modelli statistici
Una parte rilevante della statistica `e fondata sull’analisi dei fenomeni attraverso la costruzione di modelli che
rappresentino una visione “semplificata” della realt`a. problema reale −→ problema statistico
Un modello studia il legame esistente tra due o pi`u aspetti di un fenomeno che si intende spiegare, dei quali uno viene visto come effetto o risultato e gli altri come causa.
effetto ← causa 1, causa 2,. . . Va ribadito che tutti i modelli sono intrinsecamente sbagliati: essi sono solo parzialmente e provvisoriamente utili, e sono destinati ad essere sostituiti con l’avanzare del
Alcuni cenni storici
Il modello statistico pi`u longevo e pi`u utilizzato nella storia della statistica `e ilmodello di regressione
Il termine ”regressione” venne coniato nel diciannovesimo secolo dal biologo e statistico Galton in occasione di una famosa applicazione in cui esaminava le altezze dei figli in funzione della media delle altezze dei due genitori, per un gran numero di famiglie inglesi.
Sebbene si evidenziasse una relazione diretta tra altezze dei genitori e dei figli, Galton osserv`o che a genitori
eccezionalmente alti/bassi non corrispondevano figli alti/bassi in modo cos`ı estremo, e applic`o il termine vagamente
fuorviante di regressione verso la media.
Per Galton, la regressione aveva solo questo significato biologico, ma il suo lavoro venne in seguito esteso da Yule e Pearson in un contesto statistico pi`u generale. Oggi il termine ”regressione” `e spesso sinonimo di ”relazione funzionale tra variabili”.
Esempi di problemi analizzabili mediante un modello
1 Quale livello medio di vendite si potrebbe prevedere se il
prezzo di vendita venisse fissato a 10 dollari per unit`a?
2 Con 250 operai, quante unit`a di prodotto si potrebbero
prevedere?
3 Se un Paese in via di sviluppo aumenta la sua produzione di
fertilizzanti di 1000000 di tonnellate, quanto sar`a l’aumento atteso nella produzione di cereali?
Formulazione del modello
La “semplificazione” del modello di regressione consiste nel: quantificare in qualche modo i fenomeni, rappresentandoli e misurandoli attraverso delle variabili;
ipotizzare una relazione funzionale tra la variabile dipendente (effetto o variabile risposta), indicata con Y , e le variabili indipendenti (cause o variabili esplicative), indicate con le lettere X1, . . . , Xp;
considerare una variabile residuale che racchiuda l’insieme delle concause non note che dovessero agire sul fenomeno analizzato. Questa variabile deve comportarsi come una componente erratica.
Y = f (X1, X2, . . . , Xp) +
La formulazione e costruzione di un modello `e un’operazione delicata che richiede generalmente la collaborazione di esperti di varie discipline, tra cui lo statistico.
Fasi della costruzione di un modello
Mediante l’interazio-ne tra statistici ed esperti del fenomeno analizzato, il proble-ma reale va tradotto in un modello statisti-co (specificazione) il quale, formalizzato in una struttura probabi-listica, viene stimato e sottoposto ad inferen-za mediante un’inda-gine campionaria ( sti-ma e verifica o valida-zione), prima di poter essere utilizzato.
Specificazione del modello di regressione
La fase di specificazione avviene esplicitando la relazione funzionale tra le variabili coinvolte nel modello
Y = f (X1, X2, . . . , Xp; β) + , (4.1)
per una qualche funzione f , dipendente dai regressori e da un vettore di parametri β.
Dato un campione di dimensione n, la relazione (4.1) si ripropone per le n unit`a statistiche campionarie
Yi = f (Xi 1, Xi 2, . . . , Xip; β) + i, i = 1, . . . , n. (4.2)
La notazione in lettere maiuscole (o lettera greca) utilizzata nella (4.1) e nella (4.2) viene generalmente usata in
riferimento al campione casuale (v.c. campionaria), mentre per la particolare realizzazione osservata si ricorre alle corrispondenti lettere minuscole
Ipotesi classiche del modello di regressione semplice
Il modello di regressione, nella sua versione pi`u semplice, si basa sul seguente insieme di ipotesi:
1 La funzione f (·; β) `e di tipo lineare e dipende da un unico
regressore,
Yi = β0+ β1xi+ i, i = 1, . . . , n. 2 La variabile indipendente X `e deterministica, per cui le
relative osservazioni campionarie si considerano fissate a priori (per tale motivo vengono indicate con le lettere minuscole anche quando la relazione si riferisce alla v.c. campionaria).
3 E (i) = 0, ∀i ; 4 Var (i) = σ2, ∀i ; 5 Cov (i, j) = 0, ∀i 6= j .
Il modello di regressione lineare semplice
Osservazioni generate da variabili Y e X legate da una relazione lineare causa-effetto
Commento sull’ipotesi di linearit`
a
L’ipotesi 1 sulla linearit`a rappresenta il caso pi`u semplice di modello. `E da notare, tuttavia, che la linearit`a del modello va intesa rispetto ai parametri βj, e non rispetto alla X .
Esempio: Yi = β0+ β1Xi2+ i.
Talvolta il modello, originariamente non lineare, pu`o essere linearizzato ricorrendo ad alcune trasformazioni delle variabili. Ad esempio, nel caso di relazione moltiplicativa, `e utile ricorrere alla trasformazione logaritmica
Yi = β0Xi 1β1i
log Yi = log β0+ β1log Xi 1+ log i,
e se per tale trasformazione valgono le ipotesi classiche, la procedura di stima del modello lineare classico pu`o essere applicata ai dati trasformati.
Commento sull’ipotesi di variabili deterministiche
L’ipotesi 2 esclude che la variabilit`a del regressore X sia di natura stocastica (caso a).
Tuttavia, se `e pi`u realistico affermare che essa `e una v.c., allora il modello di regressione andrebbe esaminato
condizionatamente ai valori osservati per essa. In tal caso, il modello di regressione rappresenterebbe la media condizionata E (Y |X = x ) (caso b).
Commento sull’ipotesi di omoschedasticit`
a
L’ipotesi 3 sull’errore garantisce il comportamento erratico delle variabili casuali i. Data la loro funzione, `e naturale
assumere che queste non influenzino in media la variabile Y . L’ipotesi 4 sulla varianza degli errori costante
(omoschedasticit`a) ha la funzione di assicurare che gli errori non manifestino un comportamento “strutturato” e quindi “prevedibile”.
Commento sull’ipotesi di incorrelazione
Infine, l’ipotesi 5 sull’incorrelazione tra gli errori relativi a unit`a statistiche diverse, soprattutto quando la variabile regressore `e legata al tempo, assume che gli errori non manifestino un comportamento “strutturato” e quindi “prevedibile” nel tempo.
Violazione delle ipotesi classiche
Una o pi`u delle ipotesi classiche potrebbero non valere in determinati contesti.
Il modello di regressione pu`o essere esteso e generalizzato a tali contesti, in cui una o pi`u ipotesi classiche vengono violate
modelli di regressione nonlineare o nonparametrici modelli di regressione con errori eteroschedastici modelli di regressione con errori autocorrelati modelli di regressione per dati spazialmente correlati ....
Lo studio di tali estensioni del modello di regressione viene generalmente affrontato nei programmi dei corsi di
Modello di regressione: propriet`
a
Dato il modello di regressione lineare semplice Yi = β0+ β1xi + i,
sotto le ipotesi 1-5 formulate, risulta
E (Yi) = E (β0+ β1xi+ i) = β0+ β1xi
Var (Yi) = Var (i) = σ2,
Nota, per`o, che la distribuzione della Yi non `e nota, a meno
che non si facciano ulteriori ipotesi sulla distribuzione degli errori.
In particolare, se assumiamo che gli errori si distribuiscano normalmente, ovvero i ∼ N (0, σ2) per ogni i = 1, . . . , n,
allora
Stima dei coefficienti mediante il metodo LS
Per la stima del vettore β, si ricorre ad un metodo di stima basato sul criterio dei minimi quadrati (LS - Least Squares), che non richiede la conoscenza della distribuzione della Yi.
La logica su cui si fonda `e quella di individuare la migliore stima per β rendendo minimo il “contributo” degli errori. Formalmente i = Yi− β0− β1xi Q (β0, β1) = n X i =1 2i = n X i =1 (Yi− β0− β1xi)2 ˆ βLS = arg min Q (β0, β1). (4.3)
Il vettore ˆβLS = (b0, b1) viene detto stimatore dei minimi
Stimatore ˆ
β
LS= (b
0, b
1)
Lo stimatore dei minimi quadrati per β1, coefficiente angolare
della retta di regressione, `e b1= Pn i =1(xi− ¯xi)(yi− ¯yi) Pn i =1(xi − ¯xi)2 = SXY SX2 .
Lo stimatore dei minimi quadrati per β0, intercetta della retta
di regressione, `e
b0 = ¯y − b1x¯ (4.4)
La retta stimata `e data da: ˆyi = b0+ b1xi
Al variare del campione, lo stimatore ˆβLS = (b0, b1) descrive
una coppia di variabili casuali, le cui propriet`a devono essere derivate per poter fare inferenza sul modello di regressione.
Il modello di regressione lineare stimato
N.B.: la differenza tra il valore osservato yi e quello previsto ˆyi genera il residuo ei.
Propriet`
a del modello di regressione lineare stimato
Dalla (4.4) si nota che la retta di regressione passa sempre per il punto medio di coordinate (¯y, ¯x ).
La somma dei residui stimati `e sempre nulla
n X i =1 ˆ ei = n X i =1 (yi− ˆyi) = 0.
Dalla propriet`a precedente deriva la seguente:
n X i =1 yi = n X i =1 ˆ yi,
e dividendo ambo i membri per n risulta che la media
campionaria dei dati yi coincide con la media campionaria dei
Propriet`
a dello stimatore ˆ
β
LSRiguardo alle propriet`a statistiche dello stimatore ˆβLS per
campioni finiti, esse sono sancite in un teorema dimostrato da Gauss e Markov, che afferma che, sotto le ipotesi classiche 1-5, lo stimatore ˆβLS `e lineare, non distorto ed il pi`u efficiente
nella classe degli stimatori lineari e non distorti (BLUE - Best Linear Unbiased Estimator).
I momenti caratteristici dello stimatore ˆβLS sono
E ( ˆβLS) = (β0, β1) (4.5) Var ( ˆβLS) = σ2m 2X nSX2 , σ2 nSX2 . (4.6)
La (4.5) conferma che lo stimatore `e non distorto, mentre dalla (4.6) si nota che la varianza dello stimatore converge a zero per n → ∞. Quindi, lo stimatore LS `e consistente in media quadratica.
Altra propriet`a asintotica generalmente valida per tale stimatore riguarda la normalit`a asintotica, per cui `e possibile ricorrere a soluzioni inferenziali di tipo asintotico (grandi 25/45
Propriet`
a dello stimatore ˆ
β
LSSe alle ipotesi classiche 1-5 se ne aggiunge una sesta relativa alla distribuzione degli errori, ovvero
6. i ∼ N (0; σ2), ∀i
che include, ovviamente, le ipotesi 3 e 4, allora `e nota la distribuzione campionaria dello stimatore di ˆβLS anche per
campioni finiti b0 ∼ N β0; σ2m2X Pn i =1(xi − ¯x )2 (4.7) b1 ∼ N β1; σ2 Pn i =1(xi − ¯x )2 (4.8) In tal caso `e possibile costruire test delle ipotesi e intervalli di confidenza esatti, quindi validi anche per piccoli campioni, per i parametri del modello.
Validazione del modello di regressione
Prima di essere utilizzato per i fini preposti, il modello va testato e validato, al fine di controllare se le ipotesi su cui esso si basa sono da considerarsi verificate oppure no.
La violazione di una o pi`u ipotesi pu`o infatti invalidare l’intera procedura di stima del modello, in quanto gli stimatori
utilizzati di fatto non garantiscono pi`u le propriet`a desiderate. La fase di verifica del modello `e nota col nome di diagnostica o validazione del modello di regressione, e viene attuata attraverso una serie di strumenti grafici ed inferenziali,
l’analisi grafica della retta e dei residui stimati, iltest delle ipotesi sui parametrie sulla normalit`a dei residui, la
costruzione di intervalli di confidenza e il calcolo dell’indice sulla bont`a di accostamento del modello ai dati, noto come indice R2.
Analisi dei residui
Poich`e il modello di regressione `e basato su un insieme di ipotesi, se queste non sono verificate l’analisi della regressione potrebbe portare a conclusioni errate.
Nel modello di regressione semplice, `e sempre buona norma esaminare il grafico dei residui rispetto alla variabile
esplicativa, per individuare anomalie di comportamento di qualche dato, una errata specificazione della forma funzionale del modello, ecc..
Poich`e, date le ipotesi 1-5, i residui dovrebbero essere realizzazioni di v.c. omoschedastiche e incorrelate per unit`a distinte, bisogna accertarsi che il grafico dei residui stimati non evidenzi una situazione incompatibile con tali ipotesi, quali una struttura di eteroschedasticit`a.
Infine, per piccoli campioni, l’ipotesi di normalit`a degli errori andrebbe testata mediante strumenti inferenziali appositi (test di normalit`a).
Ricerca di outliers
Si noti che la retta di regressione `e, in pratica, una media, ed in quanto tale risente della presenza di dati anomali.
Ricerca di outliers
Talvolta una relazione lineare pu`o risultare ingigantita a causa della presenza di dati anomali.
Ricerca di outliers
Altre volte possono evidenziarsi degli effetti di leverage causati da una o pi`u osservazioni anomale.
Ricerca di outliers
Nelle applicazioni a dati reali, bisogna sempre analizzare attentamente i dati ”inusuali” e decidere se inserirli o meno nella regressione.
I grafici precedenti, ed altri indicatori proposti e qui non analizzati, possono aiutare l’analista in questa ricerca.
Tuttavia, `e bene precisare che l’individuazione di dati anomali deve essere basata su una conoscenza approfondita del
fenomeno analizzato, per decidere sulla natura e la causa della diversit`a del dato.
Test delle ipotesi sul coefficiente β
1Al fine di verificare se la relazione lineare tra Y e X esiste, `e utile sottoporre a test il seguente sistema di ipotesi
H0 : β1 = 0 H1 : β1 6= 0
Dalla (4.7) si ricava la seguente statistica test T = b1− β1 es(b1) = q b1 s2 e Pn i=1(xi−¯x )2 H∼ t0 (n−2) dove se2 = Pn i=1ˆei2
n−2 `e la stima della varianza degli errori σ2.
La regione critica di rifiuto `e data da |Tc| > t(1−α/2;n−2)
dove t(1−α/2;n−2)`e il percentile di una t -Student con n − 2 gdl.
Test delle ipotesi sul coefficiente β
1Nota che:
1 Il test pu`o essere fatto anche considerando in H0 un valore
β16= 0.
2 Tuttavia, il caso H0: β1= 0 `e utile perch`e permette di
verificare la significativit`a del modello stesso. In questo caso particolare, una formula alternativa della statistica test `e
T = q b1 s2 e Pn i=1(xi−¯x )2 = (n − 2) r 2 XY 1 − r2 XY
3 Ovviamente, il test pu`o anche essere ad alternativa unilaterale
(a una coda, destra o sinistra) invece che bilaterale (a due code).
4 In caso l’ipotesi 6 non valga, la statistica test `e
asintoticamente normale in virt`u del TLC, e il test pu`o essere usato per grandi campioni usando i percentili della normale standard.
Test delle ipotesi sul coefficiente β
0Allo stesso modo, possiamo costruire un test sull’intercetta del modello di regressione
H0 : β0 = 0 H1 : β0 6= 0
Dalla (4.4) si ricava la seguente statistica test
T = b0 se q m 2X Pn i=1(xi−¯x )2 H0 ∼ t(n−2)
La regione critica di rifiuto `e data da |Tc| > t(1−α/2;n−2)
Intervalli di confidenza per i parametri
Dalle (4.4) e (4.7) `e anche immediato derivare intervalli di confidenza per i parametri del modello di regressione
b0− t(1−α/2;n−2)es(b0) ≤ β0≤ b0+ t(1−α/2;n−2)es(b0) b1− t(1−α/2;n−2)es(b1) ≤ β1≤ b1+ t(1−α/2;n−2)es(b1) dove es(b0) = se r m 2X Pn i =1(xi− ¯x )2 es(b1) = se s 1 Pn i =1(xi− ¯x )2
Bont`
a di accostamento del modello ai dati
Vogliamo ora sviluppare delle misure che indichino quanto efficacemente la variabile X spieghi il comportamento di Y . A tal fine, `e possibile utilizzare l’analisi della varianza, detta ANOVA (ANalysis Of VAriance), basata sulla scomposizione della varianza totale nella somma di due componenti
n X i =1 (yi− ¯y)2 = n X i =1 (ˆyi − ¯y)2+ n X i =1 (yi− ˆyi)2 SST = SSR + SSE dove
SST =Pni=1(yi− ¯y)2`e la devianza totale
SSR =Pni=1(ˆyi− ¯y)2`e la devianza della regressione SSE =Pni=1(yi− ˆyi)2 `e la devianza dei residui
Bont`
a di accostamento del modello ai dati
Scomposizione della devianza: si noti come l’adattamento del modello di regressione lineare ai dati `e migliore quando aumenta SSR e diminuisce SSE
Coefficiente di determinazione R
2Dalla scomposizione della devianza possiamo ricavare un indice che misura la bont`a di accostamento del modello lineare ai dati
1 = SSR SST +
SSE SST Definiamo il coefficiente di determinazione R2
R2 = SSR SST = 1 −
SSE SST
L’indice R2 varia tra 0 e 1 e valori pi`u elevati indicano una migliore bont`a del modello.
Il coefficiente di determinazione R2 `e spesso interpretato come la percentuale di variabilit`a di Y spiegata dal modello di regressione.
Si dimostra che, per il modello di regressione lineare semplice, si ha che R2= rXY2
Esempio 4.1 (Esercizio pag. 491 n. )
Su un campione casuale di 306 studenti di un corso di statistica di base `e stata ottenuta la seguente retta di regressione stimata:
ˆ
y = 58.813 + 0.2875x in cui:
y = Punteggio nell’esame finale; x = Punteggio nel test di ingresso.
Il coefficiente di determinazione `e stato 0.1158 e sb1 vale 0.04566. 1 Interpretate b1.
2 interpretate il coefficiente di determinazione.
3 Con le informazioni disponibili, l’ipotesi nulla che β1 sia nullo
contro l’alternativa che sia positivo pu`o essere verificata in due modi diversi. Effettuate queste verifiche e dimostrate che giungono alle stesse conclusioni.
Utilizzo del modello di regressione
Superata la fase di verifica, il modello pu`o essere utilizzato. Il modello di regressione pu`o essere utilizzato per molteplici obiettivi, tra cui:
Descrizione e interpretazione Previsione
Analisi di stabilit`a, controllo, simulazione....
Descrizione e interpretazione
I parametri stimati di un modello di regressione possono fornire interessanti informazioni:
l’intercetta β0 rappresenta il livello base della relazione tra X e
Y , poich`e `e il valore assunto da Y in corrispondenza di x = 0 Y = β0+ β1∗ 0 = β0;
il coefficiente angolare β1 esprime il tasso di variazione di Y al
variare di una unit`a di X . Infatti:
[β0+ β − 1(x + 1)] − [β0+ β1x ]
(x + 1) − (x ) = β1
Nota: nelle scienze economiche, se le variabili sono espresse in logaritmi, il coefficiente angolare assume il significato di di elasticit`a.
Esempio 4.2 (Esercizio pag. 457 n. 12.21)
Una grande societ`a sottopone tutti i nuovi agenti di commercio a test attitudinali. I dirigenti sono interessati a sapere fino a che punto il test possa prevedere l’eventuale successo degli agenti. La tabella seguente contiene le vendite medie settimanali (in migliaia di dollari) e i punteggi nei test attitudinali per un campione casuale di otto agenti di commercio.
Vendite settimanali 10 12 28 24 18 16 15 12 Punteggio del test 55 60 85 75 80 85 65 60
a. Stimate la retta di regressione delle vendite settimanali sul punteggio dei test attitudinali.
Previsione
Si tratta di attribuire un valore numerico alla v.c. Yi
conoscendo il valore X = xi, tramite la stima ˆyi = ˆβ0+ ˆβ1xi.
Tale utilizzazione include tre situazioni ricorrenti:
la valutazione di un valore futuro (previsionein senso stretto); la determinazione di un valore intermedio (interpolazione); la stima di una valore mancante (imputazione).
Nota, per`o, che vanno distinti i due casi di previsione del livello medioE (Y |X = xi) e diprevisione del valore singolo
yi in corrispondenza di X = xi. I due casi corrispondono alle
due diverse assunzioni che si possono considerare nell’ipotesi 2 (ovvero, variabile X stocastica oppure deterministica)
Mentre la previsione puntuale non cambia nei due casi, gli intervalli di confidenza per le previsioni sono leggermente diversi.
Previsione
Se l’ipotesi 2 stabilisce che la variabile X `e stocastica (quindi, che il modello di regressione `e una media condizionale), allora l’intervallo di confidenza per la previsione
E (Yn+1|Xn+1= xn+1) `e dato da ˆ yn+1± t(α/2;n−2)se s 1 n + (xn+1− ¯x )2 P(xi− ¯x )2
Se l’ipotesi 2 stabilisce che la variabile X `e deterministica (quindi, che il modello regressione contiene la variabile errore i), allora l’intervallo di confidenza per la previsione yn+1 `e
dato da ˆ yn+1± t(α/2;n−2)se s 1 + 1 n + (xn+1− ¯x )2 P(xi − ¯x )2
Nota chegli intervalli hanno ampiezza minima quando xi ≡ ¯x , mentre l’ampiezza cresce man mano che xi si
Esempio 4.3 (Esercizio pag. 483 n. 12.63)
Un nuovo agente di commercio della societ`a considerata
nell’Esercizio 12.21 ottiene un punteggio di 70 nel test attitudinale. Costruite l’intervallo di confidenza, a livello 80% e 90%, per la previsione delle vendite settimanali che riuscir`a ad effettuare.