Modello classico di regressione lineare
• Il modello classico di regressione lineare semplice
• Il modello classico di regressione lineare multiplo
Docente: Prof.ssa Rosanna Verde
Costruzione di un modello
• Nasce dall’esigenza di rappresentare la realtà in forma semplificata
Il problema reale viene tradotto in un modello statistico che, formalizzato in una struttura
probabilistica, viene sottoposto a inferenza mediante un’indagine campionaria
Fasi:
specificazione – stima – verifica
Uso del modello
• Descrizione
• Interpretazione
• Previsone
• Controllo
• Simulazione
• …
Il diagramma di dispersione
• Per studiare la relazione tra due variabili è utile il diagramma di dispersione in cui si riportano i valori della variabile esplicativa X sull'asse delle ascisse e i valori della variabile dipendente Y sull'asse delle ordinate.
• La relazione tra due variabili può essere espressa mediante funzioni matematiche più o meno complesse tramite un modello di regressione.
Superficie Prezzo 174 26,000 220 31,000 231 37,400 248 34,800 262 39,200 275 38,000 294 39,600 307 31,200 322 37,200 337 38,400 349 43,600 353 44,800 360 40,600 388 41,800 433 45,200
Proprietà immobiliari
20 25 30 35 40 45 50
150 200 250 300 350 400 450
Superficie abitabile (metrii quadrati)
Prezzo di vendita (migliaia di euro)
Interpolazione matematica
• In matematica, e in particolare in analisi numerica, per interpolazione si intende un metodo per individuare nuovi punti del piano cartesiano a partire da un insieme finito di punti osservati, nella ipotesi che tutti i punti si
possano riferire ad una funzione f(x) di una data famiglia di funzioni di una variabile reale.
• Nelle attività scientifiche e tecnologiche e in genere negli studi quantitativi di qualsiasi fenomeno, accade molto spesso di disporre di un certo numero di punti del piano ottenuti con un campionamento o con apparecchiature di misura e di ritenere opportuno individuare una funzione che passi per tutti i punti dati o almeno nelle loro vicinanze
Modello statistico
-2 0 2 4 6 8 10 12 14
-60 -40 -20 0 20 40 60 80
Causa
Conseguenza
-0,3 -0,25 -0,2 -0,15 -0,1 -0,05 0 0,05 0,1 0,15
-60 -40 -20 0 20 40 60 80
Causa
Conseguenza
-150 -100 -50 0 50 100 150
-60 -40 -20 0 20 40 60 80
Causa
Conseguenza
In statistica si ammette la presenza di una componente erratica che
sintetizza tutte quelle cause del fenomeno che non possono essere tenute sotto controllo.
Il prezzo di una casa dipende dai metri quadri, ma anche dall’esposizione, dalle rifiniture, dalla volontà del padrone, etc.
Tipologie di Modelli
• Semplici
• Multipli
• Lineari
• Non lineari Linearizzabili
Intrinsecamente non lineari Temporali
Spaziali (o territoriali)
Regressione
• Termine, per la prima volta usato da Galton, per indicare certe
relazioni nella teoria dell’ereditarietà [altezze dei figli regredivano in media rispetto alle altezze dei padri].
• Attualmente, il termine indica il metodo di determinazione della relazione tra una variabile Y, detta dipendente e una o più variabili X, dette indipendenti o predittive o regressori.
• La forma funzionale più frequente è quella polinomiale, e più particolarmente, quella lineare: l’equazione di regressione che esprime la relazione di Y su X è
Y= a + bX + e
o, per più di una variabile predittiva:
Y = b
0+ b
1X
1+ b
2X
2+… + b
pX
p+ e
Regressione lineare semplice
FASI per la determinazione del modello:
Stima dei parametri
Interpretazione dei parametri
Potere esplicativo del modello
Coefficiente di correlazione
Utilizzo del modello per scopi previsivi
Regressione multipla
Stima dei parametri
Interpretazione
Significatività statistica del
modello di regressione
• Metodi di selezione delle variabili esplicative
• Diagnostica degli errori:
- analisi dell'influenza - plot dei residui
• Variabili dummy
Rimozione delle ipotesi del modello classico
• Multicollinearità
• Autocorrelazione
• Non linearità
REGRESSIONE LINEARE SEMPLICE
Obiettivo: ricerca di un modello lineare per mezzo del quale sia possibile descrivere la relazione tra due variabili quantitative
di cui una e' supposta logicamente antecedente rispetto all'altra Sia X la variabile indipendente o esplicativa
e Y la variabile dipendente
Considerando n osservazioni sulle variabili X e Y il modello di regressione lineare è:
yi = a + bxi + ei (i=1,...,n)
a e b sono i coefficienti o parametri del modello di regressione
la variabile Y dipende dalla variabile X secondo una relazione sistematica e secondo un insieme di altri fattori che rappresentano lo scostamento dal modello teorico e vengono sintetizzati dalla variabile casuale errore e
• Specificazione del modello (livello teorico)
y = a + bx + e
• Modello riferito alla Popolazione
y
i= a + bx
i+ e
i(i=1,2,…..)
• Modello campionario
y
i= a + bx
i+ e
i(i=1,2,...,n)
• Modello riferito al campione osservato
y
i= a + bx
i+ e
i(i=1,2,...,n)
Scatter plot
X
Y
(xi,yi)INTERPRETAZIONE DEI PARAMETRI DI REGRESSIONE
• La costante di regressione a rappresenta la componente indipendente della variabile Y.
• Il parametro B é il coefficiente angolare della retta e fornisce una misura della variazione subita dalla variabile Y per effetto di una variazione unitaria della variabile X.
a
X Y
0 x
x i+1 i
Y variazione della Y
X variazione della X b<0 discordanza di regressione
b>0 concordanza di regressione b=0 indipendenza interpolativa della variabile Y dalla variabile X
IPOTESI DEL MODELLO CLASSICO DI REGRESSIONE LINEARE SEMPLICE
1) La variabile X è deterministica
2) Le ei sono variabili casuali con valore atteso 0:
E(ei) = 0
3) Le variabili casuali ei hanno tutte stessa varianza s2:
omoschedasticita'' E(ei2)=s2
4) Le variabili casuali ei sono incorrelate tra loro:
E(ei, ej) = 0 per ogni i diverso da j
Ipotesi di normalità delle e
i5) Se le variabili casuali ei sono distribuite come una variabile casuale normale con media 0 e varianza uguale a s2, allora una loro trasformazione lineare segue ancora una distribuzione normale, da cui:
- essendo le yi variabili casuali, combinazione lineare delle ei : yi = a + bxi + ei (i=1,...,n)
la loro distribuzione é normale:
- con media:
E(yi) = E(a + bxi)+ E(
e
i) = a + bxi - e varianza:Var(yi) = Var(a + bxi) + Var(
e
i) = s2Per ogni valore xi (i=1,...,n) la retta di regressione interpola i punti corrispondenti ai valori medi delle variabili casuali:
y
1y
2... y
n i.i.d.Un'analisi di regressione permette di studiare come varia in media la variabile dipendente Y per effetto di variazioni unitarie della variabile esplicativa X:
E(yi|X=xi) = a + bxi
y = a + b x
y
x
STIMA DEI PARAMETRI DEL MODELLO DI REGRESSIONE
METODO DEI MINIMI QUADRATI
• Sia (y1,x1), (y2,x2),...,(yn,xn) un insieme di n osservazioni campionarie sulle variabili X e Y.
• Una stima dei parametri a e b si ottiene calcolando i parametri a e b del modello lineare di miglior adattamento dei valori osservati:
yi = a + bxi + ei
criterio: minimizzazione della somma dei quadrati degli scarti dei valori osservati dai valori teorici sulla retta:
ei = yi - (a + bxi)
min S
ie
i2= min S
i(y
i- a - bx
i)
2a,b a,b
X Y
y
y e i
i i
^
xi
=a+bxi
X Y
y
y e
i
i i
^
xi
=a+bx
i Calcolando le derivate parziali:
2 (yi abxi) 0
i1
n
2 (yi a bxi)xi 0
i1
n
segue il sistema di equazioni normali:
yi na+ b xi ny na+nbx
i1
n i1
n
xiyi a xi +b xi2
I1
n i1
n i1
n
dalla soluzione del sistema si ottengono le stime dei parametri di regressione:
n
i i n
i
i i n
i i n
i
i i
x n x
y x n y x x
x
y y x x
x b y
1
2 2
1
1
2 1
) (
) )(
( b
a
n
i
i i i
n
i
i n i
i
i n
i
i i
n
i
i i
n
i
i n
i
i i
n
i
i i
x x
x x
y x
x
y x x
y x x
x x
y y
x x
y y
x x
1
2
1 1
2 1
1 1
1 1
) (
) (
) (
) (
b
) (
) (
) (
) )(
(
PROPRIETA' DELLA RETTA DEI MINIMI QUADRATI
1) La retta passa per il punto di coordinate ( , )
2) La retta dei minimi quadrati offre tra tutte le rette possibili lo scostamento più piccolo dai dati (minima somma dei residui al quadrato).
3) La somma dei residui é uguale a 0:
4) I residui sono incorrelati con la variabile esplicativa:
5) Il parametro b non varia se i dati sono centrati: e
x x i
i 1
n
n y
yi
i1
n
n
n 1
i ei 0
n
1
i i
n 1
i yi yˆ y yˆ
x
x
i y
i y
Scatter plot
X Y
(xi,yi)Y-m(Y)=b(X-m(X)) Y=m(Y) -b*m(X)+bX
i i i
i i
x y x b
a = 0
Teorema di Gauss Markov
• Se sono verificate le ipotesi del modello classico di regressione lineare -
tra tutti gli stimatori lineari non distorti dei parametri del modello -
quelli dei minimi quadrati sono i più efficienti,
ovvero sono quelli che presentano varianza minima.
In virtù di questo teorema gli stimatori dei minimi quadrati sono detti BLUE
best linear unbiased estimators
• Y è una v.c.
• E(y
i)=b
0+b
1x
i• Var(y
i)= Var(e
i)=s
2• Covar(y
i,y
j)= Covar(e
i,e
j)=0
• E(b
1)=S
iE(y
i)=S
i(b
0+b
1x
i)=b
0S
i+ b
1S
ix
i=b
1• Var(b
1)=Var(S
iy
i)=S
i2Var(y
i)=s
2/S(x
i-x)
2• E(b
0)=E(y-b
1x)=E(y)-E(b
1)x= b
0+b
1x-b
1x=b
0• Var(b
0) = Var(y-b
1x) = Var(y) + x
2Var(b
1) - 2xCov(y,b
1) = Cov(y,b
1)=Cov(y, S
iy
i)=S
iCov(y,y
i)0
• Var(b
0) =Var(y-b
1x)=Var(y)+ x
2Var(b
1)=s
2/n+x
2s
2/S(x
i-x)
2= s
2/n [1+nx
2/S(x
i-x)
2]
Var(y)=Var(1/n Syi)=1/n2 Var(Syi)= s2/n
i
i
i
y
x y
Cov b
b
b , ) ( ) ,
Cov(
0 1 1( )
, ( , )
( )
i
i i i i i i i i
i i i
Var y
i i
i i i
i
Cov x y y x Cov y y
n n
x x
n x x
s s s
2 2 2 2
2 0
1 1
1
Cov(b
0,b
1)=0 quando le x
isono centrate
Stima della varianza s 2
( )
i i
i i
s e y y
n n
2
22
1 1
2 2
RSE Standard error of regression s
y^i= a + bxi
^
yi-yi=ei residuo ei realizzazione di ei s2= Var(ei) Sei2/n-2
^
POTERE ESPLICATIVO DEL MODELLO DI REGRESSIONE LINEARE
Una valutazione della bontà dell'adattamento con una retta di regressione alle n osservazioni campionarie può essere ottenuta da un'analisi della dispersione dei punti intorno alla retta.
La dispersione é misurata dai residui:
Un'elevata dispersione significa una limitazione alla possibilità di previsioni attendibili sulla base del modello lineare.
sottraendo a primo e secondo membro la quantità :
elevando queste quantità al quadrato e sommando rispetto all'indice i, si ha:
i i
i y yˆ
e
y
i y ˆ
i+ e
iy
y
i y y ˆ
i y + e
ii1(
n yi y )2 (
i1
n y ˆ i y )2 + ei2
i1
n + 2 ei(
i1
n yi y )
0
Indice di determinazione lineare
i1(
n yi y )2 (
i1
n y ˆ i y )2 + ei2
i1
n + 2 ei(
i1
n yi y )
0
y
y y
i
i
_
^ y - y
y - y i i
^
i
^ _
y - y
i _
X Y
Dev(Tot) Dev(Reg) Dev(Residua)
2 i
n 1 i
n 1 i
2 i 2
i n
1 i
2 i
n 1 2 i
) y y (
e 1
) y y (
) y yˆ ( R
Misura dell’adattamento del modello ai dati
0 ≤ R
2≤ 1
TEST D’IPOTESI SUL COEFFICIENTE DI REGRESSIONE
Se le variabili casuali e
i~ N(0,s
2) e sono verificate le ipotesi del modello classico si può sottoporre a test l'ipotesi che il coefficiente b sia conforme a un valore bo (spesso b
0=0):
ipotesi nulla: H
o: b=b
oipotesi alternativa: H
1: b≠b
oScelta la statistica test:
s
bb t b
Indipendenza di Y da X
Regola di decisione
fissato il livello di significatività pari a, sulla base di n osservazioni campionarie si rifiuta l'ipotesi nulla se:
2 /
; 2 n b
s t b b
a
0
Ri f i u t ar e H
0
Ri f i u t ar e H
0
Ac cet t ar e H
0
t
Area di
accettazione Area di rifiuto Area di rifiuto
IL MODELLO DI REGRESSIONE PER SCOPI PREVISIVI
Il modello di regressione trova una sua importante applicazione nel campo della previsione
- Supposto che la variabile indipendente X assuma un valore pari a xi (i può essere un valore anche esterno a 1...n, es: xn+1)
se l'ipotesi di una relazione lineare é verificata, la variabile dipendente assumerà valore:
in media il valore di yi sarà pari a:
E[y
i|X=x
i]= a + bx
iyi = a + bxi + ei
Il problema della previsione si riassume in tre punti:
1) Stima puntuale di yi
2) Stima dell'intervallo di confidenza per la previsione di un unico valore yi della variabile dipendente secondo un modello lineare.
3) Stima e calcolo dell'intervallo di confidenza per il valor medio del valore di previsione .
Considerando valide le ipotesi del modello classico, per cui gli stimatori a e b dei minimi quadrati sono i mgliori stimatori lineari non distorti dei paramtri del modello.
Una stima puntuale di yi é:
= a + bxi yˆi
Calcolo dell'intervallo di confidenza, ad un livello di signficatività a, per il valore previsto:
- sotto l'ipotesi che ei ~ N(0,s2), si ha:
dove s2 = é la stima di s2 e
L'intervallo di previsione é tanto più piccolo quanto più il valore xi é prossimo alla x medio e quanto più grande é il campione.
3) L'intervallo di previsione per il valor medio é:
y ˆ
iii 2
/
; 2 n
i
t s 1 h
yˆ
a+
ei2
i1
n
n 2
+
+
n
i
i n ii
x x
x x
h n
1
2 2
1 1
) (
) (
ii 2
/
; 2 n
i
t s h
yˆ
aIntervallo di previsione per y
iY
X
x –
y = b + b x
^
^
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Il modello di regressione lineare multipla é un'estensione del modello di regressione lineare al caso di più variabili esplicative:
y
i= b
o+ b
1x
1i+ b
2x
2i+ ... + b
kx
ki+ e
i• E[y
i|X
1=x
1i,X
2=x
2i,...,X
k=x
ki]= b
o+ b
1x
1i+ b
2x
2i+ ... + b
kx
kiSi suppongono verificate le ipotesi del modello classico,
le k variabili X1,X2,...,Xk sono assunte deterministiche e linearmente indipendenti tra loro:
c1X1+ c2X2+...+ckXk 0
con {c1, c2,...,ck} un insieme di k coefficienti diversi da 0.
Rappresentazione grafica del piano di regressione
Y
X
X1
2
yi
ei
INTERPRETAZIONE DI COEFFICIENTI DI REGRESSIONE MULTIPLA
bo é l'intercetta del piano di regressione con l'asse Y
b1 esprime la pendenza della retta di regressione parziale:
yi = bo + b1x1i + b2x2i, dove x2i é supposta costante
b2 esprime la pendenza della retta di regressione parziale:
yi = bo + b1x1i + b2x2i, dove x1i é supposta costante
Bontà d’adattamento dell’iperpiano di regressione
• L'indice di determinazione multiplo
• L'indice di determinazione corretto permette di tener conto del numero di variabili esplicative e della dimensione campionaria:
n
1 i
2 i
n 1 i
2 2 i
x x , y
) y y (
) y yˆ ( )
Tot ( Dev
) g (Re R Dev
2 1
1 k n
1 ) n
R 1 ( 1
R2 2
Test su tutti i parametri del modello di regressione
L'ipotesi che si sottopone a test é che nessuna variabile Xj (j=1,...,k) ha influenza sulla variabile di risposta Y.
ipotesi nulla: Ho: b1=b2=...=bk=0
ipotesi alternativa: H1: almeno un bj 0
Sulla base di n osservazioni campionarie, ad un livello di significatività, a si considera la seguente regola di decisione:
Si rifiuta Ho se
:
2 /
; 1 k n , n k
1 i
2 i i
n 1 i
2 i
F ) 1 k n /(
) yˆ y (
k / ) y yˆ (
a