1
INFERENZA NEL MODELLO DI
REGRESSIONE LINEARE SEMPLICE
• E’ necessaria l’ipotesi di
normalità dei termini stocastici
• Interpretazione dell’intervallo di confidenza, fissato il livello di significatività (ad esempio per ).
Se estraessi più campioni;
ognuno fornirebbe valori diversi della stima OLS di e quindi diversi intervalli di confidenza;
l’(1-)% di questi intervalli includerebbe , mentre solo nell’
% dei casi devierebbe da per
più di un certo .
2
• Verifica d’ipotesi, fissato il livello di significatività (ad esempio per ).
Sia data una congettura
(ipotesi nulla), che si assume vera, attraverso la verifica
d’ipotesi si valuta l’entità della discrepanza tra quanto
osservato nei dati campionari e quanto previsto sotto ipotesi
nulla. Se, fissato il livello di significatività , la
“discrepanza” è significativa
l’ipotesi nulla viene rifiutata,
altrimenti l’ipotesi nulla non
3
INTERVALLI DI CONFIDENZA SICCOME
0,1
: N
2 2
n:
OVVERO:
2
ˆ
ˆ
t
ns
:
/g.l.
T-Student con (n-2) g.l.
standardizza ndo
22
, ˆ :
i u
N x
0,1
ˆ :
2
N xi
u
2
2 ˆ
2
2 2
n s n
x
u u
i
1
Prob t
/2t
n 2t
/2Quindi l’intervallo di confidenza per
all’(1 -)% si determina nel seguente modo:
ˆ
ˆ
1 Prob t
/2s
ˆt
/2s
ˆLimite inferiore
Limite superior
e
In sostanza l’intervallo di confidenza fornisce
il range di valori in cui verosimilmente cade il
vero valore del parametro
5
VERIFICA DI IPOTESI
• Fissato il livello di significatività
• Ipotesi nulla
• Ipotesi alternativa
• Statistica test
Regione di
Accettazione o di
Rifiuto del test
VERIFICA DI IPOTESI:
SIGNIFICATIVITA’ di
0
: 0
H
: 0
H
A
NON ESISTE RELAZIONE
LINEARE TRA X ED Y
STATISTICA TEST
SI RESPINGE L’IPOTESI NULLA SE:
REGOLA D’ORO
QUANDO n è grande, t-student ad una Normale, quindi se fissiamo il 5% come
livello di significatività, possiamo adottare la
“regola d’oro”: se
0
: 0
H
ALLORA SI RIFIUTA L’IPOTESI NULLA:
ˆ
ˆ 2 s
2 ˆ
ˆ
0 ˆ ˆ
t
ns s
2 , 2 / ˆ
ˆ
t
ns
REGIONE CRITICA
7
VERIFICA DI IPOTESI H0: = 0
• Se
0è una costante si può verificare:
H0: =
00 1
: H
2 ˆ
ˆ
0
t
ns
STATISTICA
TEST
SI RESPINGE L’IPOTESI NULLA SE:
2 , 2 / ˆ
ˆ
0
t
ns
N.B. ancora una volta se n è
grande la distribuzione t-Student
si approssima alla distribuzione
normale standardizzata
Significato del coefficiente
esprime di quanto varia
mediamente Y in conseguenza di una variazione unitaria di X.
• Se >0, al crescere di X cresce anche Y (relazione lineare diretta)
• Se <0, al crescere di X, Y
decresce (relazione lineare inversa)
9
REGRESSIONE E CORRELAZIONE
0 A X X
Y
Y
B
x
iy
iT R Q P
S V
N COPPIE DI PUNTI
,
S X Y
i,
i
P x y
i=1, …, N
PV Xi
PT Y
iI QUADRANTE: IL PRODOTTO
II QUADRANTE: IL PRODOTTO
III QUADRANTE: IL PRODOTTO
IV QUADRANTE: IL PRODOTTO
i i i i
x y X X Y Y X
iY
ii i
0 x y
i i
0 x y
i i
0 x y
i i
0
x y
LA FUNZIONE MISURA l’intensità del LEGAME LINEARE TRA X ED Y.
i i
x yCOEFFICIENTE DI CORRELAZIONE DI BRAVAIS-PEARSON
n s
X x
i2n s
Y y
i2i i
i i
y n x
Y Y
X n X
Y X Cov
1
) )(
1 ( )
, (
COVARIANZA
Y X
i i
s s
y r x
R è un indice relativo, ossia non
dipende dall’unità di misura delle
variabili X, Y
11
SE SULLE N COPPIE DI OSSERVAZIONI STIMIAMO UN MODELLO LINEARE
SICCOME
ALLORA ABBIAMO:
ˆ i 2i i
x y
x
MISURA DEL LEGAME LINEARE TRA X ED Y
MISURA DELLA
DIPENDENZA LINEARE DI Y DA X
Osservazione: SE SI È ACCERTATA L’ESISTENZA DI UN LEGAME LINEARE SONO POSSIBILI DUE TIPI DI DIPENDENZA LINEARE: QUELLO DI Y DA X E QUELLO DI X DA Y;
CONSIDERAZIONE: NELL’ANALISI DI REGRESSIONE È NECESSARIO DECIDERE “EX ANTE” QUALE TIPO DI DIPENDENZA SI VUOLE CONSIDERARE;
ˆ
xy
r s
s
X
Y
CONSIDERAZIONE: L’ANALISI DI CORRELAZIONE PRESCINDE DA LEGAMI CAUSALI; QUELLA DI REGRESSIONE È BASATA SUI LEGAMI CAUSALI;
CONSIDERAZIONE: CORRELAZIONE E CAUSALITÀ. ESEMPIO: NUMERO DI MALATI DI UNA DATA PATOLOGIA PER ZONA (X), NUMERO DI MEDICI PRESENTI PER ZONA (Y).
SE r INDICA ALTA CORRELAZIONE QUESTO NON SIGNIFICA CHE UN ELEVATO NUMERO DI MEDICI CAUSA UN ELEVATO NUMERO DI MALATI MA SIGNIFICA SOLO CHE TRA LE DUE VARIABILI ESISTE UN ALTO LEGAME LINEARE;
13
PROPRIETÀ DEI RESIDUI
• •
•
• •
•
•
• •
•
• •
• •
•
• •
Y
X S
R Q
P(xi,yi)
ˆ
iˆ
iQR Y Y y
i i
PR Y Y y Y
X
RESIDUO
X Y ˆ ˆ ˆ
x y ˆ ˆ
Sono somme degli scarti dalla media, quindi sono zero
i i
i
Y u
Y
PQ ˆ ˆ
ˆ 0
u
iˆ 0
u
iy
i x
ii i
i i
i
y y y x
u ˆ ˆ ˆ
14
SCOMPOSIZIONE DELLA DEVIANZA
• Dal precedente grafico:
ˆ ) ( ˆ )
( Y Y Y Y
Y
Y
i
i
i
i
ˆ ) ˆ )(
( 2
ˆ ) ( ˆ )
(
) (
2 2
2
Y Y
Y Y
Y Y
Y Y
Y Y
i i
i i
i i
i
0 ˆ )
( ˆ
) ˆ ( ˆ
i i
i i
i i
i
X u
u Y
Y u Y
Y u
( Y
i Y )
2 ( Y
i Y ˆ
i)
2 ( Y ˆ
i Y )
2DEVIANZA DEVIANZA DEVIANZA
TOTALE RESIDUA
SPIEGATA
TSS = RSS + ESS
Total Sum = Residual Sum + Explained Sum
15
1 RSS ESS
TSS TSS
Si definisce COEFFICIENTE DI DETERMINAZIONE
TSS RSS TSS
R
2 ESS 1
Dividendo tutto per TSS si ottiene:
Tale coefficiente rappresenta la proporzione di devianza totale
spiegata dal modello di regressione lineare di Y su X.
Dato che
MAX ESS TSS 0 R
2 1
Quando il modello non spiega niente della variabilità di Y
Tutta la
variabilità di Y
è spiegata dal
modello
SE
R²
=0 SIGNIFICA CHE IL CONTRIBUTO ESPLICATIVO ALLA DEVIANZA COMPLESSIVA APPORTATO DAL MODELLO È IDENTICAMENTE NULLO; LA DEVIANZA COMPLESSIVA È SOLO SPIEGATA DALLA COMPONENTE CASUALE (RESIDUO).SE
R²
=1 TUTTI GLI N VALORI EMPIRICIOSSERVATI GIACCIONO ESATTAMENTE SULLA RETTA DI REGRESSIONE; IL CONTRIBUTO
ALLA DEVIANZA COMPLESSIVA È SOLO FORNITO DAL MODELLO.
NEI CASI INTERMEDI, QUANTO PIÙ
R²
ÈPROSSIMO AD UNO O A ZERO, TANTO
PIÙ/MENO LA VARIABILITÀ COMPLESSIVA È SPIEGATA DAL MODELLO PRESCELTO. AD
ESEMPIO, UN VALORE
r²
=0.80 SIGNIFICA CHE IL MODELLO PRESCELTO RIESCE A SPIEGARE L’80 PER CENTO DELLA VARIABILITÀCOMPLESSIVA.
17
Il coefficiente di determinazione rappresenta un indice di fitting (da prendere con cautela!), in quanto misura l’adattabilità del modello specificato ai dati.
Vediamo che relazione c’è tra ed i parametri della retta di
regressione. Per fare questo
consideriamo il modello in forma di scarti
R2
i
i
x
y ˆ ˆ
Ogni osservazione della variabile dipendente può essere scomposta in
i i
i
y u
y ˆ
y
i 2( y ˆ
iu
i)
2y ˆ
i2u
i2ˆ 0
ˆ
u
iy
i u
ix
i
ˆ
2 2 2i
i
u
x
Ne consegue che
2 2
2 2 2
2 2
2
ˆ ˆ ( ˆ ) ( )
s r s y
x y
y TSS
R ESS
Y X i
i i
i
UNA SEMPLICE ED EFFICIENTE RELAZIONE PER IL COEFFICIENTE DI DETERMINAZIONE SI PUÒ RICAVARE ANCHE DA:
22
2
1 1
i i
y u TSS
R RSS
QUINDI IL COEFFICIENTE DI DETERMINAZIONE È UGUALE AL QUADRATO DEL COEFFICIENTE DI CORRELAZIONE.
19
ANALISI DELLA VARIANZA (ANOVA)
La scomposizione
O equivalentemente
MOSTRA LA SCOMPOSIZIONE DELLA VARIABILITÀ TOTALE (in forma di DEVIANZA) NEI CONTRIBUTI della COMPONENTE DI ERRORE e del MODELLO specificato. INOLTRE:
SAPPIAMO CHE:
TSS RSS ESS
2
ˆ
2 2ˆ
i iESS y x
) 1 , 0 ( :
ˆ
2x N
u
i
y
i 2 u
i2 y ˆ
i2ALLORA:
SI PUÒ DIMOSTRARE CHE:
ALLORA:
Pertanto per verificare l’ipotesi
Si può utilizzare la suddetta statistica test che sotto ipotesi nulla è
0
: 0
H
Quadrato di una N(0,1)
Rapporto tra Chi- Quadrato divise per i propri g.l.
0 1
: H
) 2 , 1 2 (
2 2
) : 2 /(
1 / )
2 /(
ˆ
n i
i
F
n RSS
ESS n
u
x
2) 1 2 (
2 2
ˆ :
u
x
i
2 ) 2 2 (
2
:
n uu
i
) 2 , 1 2 (
2 2
) : 2 /(
ˆ
n i
i
F
n u
x
21
Intuitivamente un forte legame lineare tra X e Y determinerà valori elevati per la statistica test bontà del modello.
Pertanto valori grandi della statistica test portano al rifiuto dell’ipotesi nulla.
Formalmente, se
viene rifiutata,
1,n 2
F
F
H
0: 0
Valore empiric o
Valore teorico
Osservazione: nel caso del modello di regressione lineare semplice,
applicare il test t o F è
equivalente, in entrambi i casi si verifica la significatività dell’unico parametro di regressione, ma nel caso del modello di regressione lineare multipla il test F servirà per verificare la ‘bontà’ del
modello nel suo complesso e
quindi la significatività congiunta
di tutti i parametri di regressione.
TAVOLA ANOVA
CAUSA DEVIANZE GRADI DI STIME CORRETTE
VARIAZIONE LIBERTÀ DELLA VARIANZA
MODELLO 1
RESIDUO (n-2)
TOTALE (n-1)
ˆ x y
i i1
ˆ
2 y
i
y
i2 y ˆ
i2 u
i2 u
i2 u
i2/( n 2 )
23
PREVISIONE
• Il modello di regressione stimato spesso viene
utilizzato a fini previsivi,
ovvero per stimare il valore della variabile dipendente che corrisponde ad un
determinato valore della variabile indipendente Y ˆ
0 ˆ ˆ X
0Lo standard error di tale valore previsto è
0 2 20
( )
) (
1 1 ˆ )
.(
. X X
X X
s n Y
e s
i
Pertanto i limiti dell’intervallo di confidenza per il valore
previsto, fissato un livello di
confidenza pari a 1-
ˆ ) .(
ˆ .
0 )
2 / , 2 (
0
t s e Y
Y
n Si osservi che il valore dello s.e.
aumenta al crescere della
distanza tra X
0e il valor medio di X, pertanto la qualità della
previsione diverrà sempre peggiore.
Inoltre può accadere che la
linearità della relazione tra Y e X sia limitata alla nuvola di punti osservati e che fuori tale
relazione non sia valida, pertanto può essere totalmente fuorviante prevedere un valore di Y
partendo da un valore di X che è
25
ESEMPIO NUMERICO
ANNI Yi Xi yi xi
xiyi xi²
1947 166 352 -51.8 -167.2 8660.96 27955.84
1948 153 373 -64.8 -146.2 9473.76 21374.44
1949 177 411 -40.8 -108.2 4414.56 11707.24
1950 201 441 -16.8 -78.2 1313.76 6115.24
1951 216 462 -1.8 -57.2 102.96 3271.84
1952 208 490 -9.8 -29.2 286.16 852.64
1953 227 529 9.2 9.8 90.16 96.04
1954 238 577 20.2 57.8 1167.56 3340.84
1955 268 641 50.2 121.8 6114.36 14835.24
1956 268 692 50.2 172.8 8674.56 29859.84
1957 274 743 56.2 223.8 12577.56 50086.44
n=11 Σ=2396 Σ=5711 Σ=52876.36 Σ=169495.64
MEDIAy=217.8 MEDIAx=519.2
ˆ y ˆx 217.8 0.312 519.2 55.81
2
52876.36
ˆ 0.312
169495.64
i i
i
x y
x
ˆi 55.81 0.312 i
y x
}
0 X
Y y
x
Y→ INCIDENTI STRADALI (X1000)
X →VEICOLI CIRCOLANTI (X1000)
2
2
2
2
11, 5711, 2396
3134543, 1296836 169495.64, 52876.36
ˆ ˆ
17619.64, 55.81, 0.312
ˆ ˆ 2 11.18
i i
i i i
i i i
i
i
n X Y
X X Y
x x y
y
s e n
FONTE SS DF MS
MODELLO 16497.42 1 16497.42
RESIDUO 1124.33 9 124.93
TOTALE 17621.75 10
2
2
ˆ 2.262 11.18
ˆ 0.312
411.7 t s
x
INTERVALLO DI CONFIDENZA 2 0.025
t t ; 95%
ˆ ˆ 0.03 s
0.2506 0.3734
0.01;1.9
0
132, 10.56
: 0; ;
F F
H F F RESPINTA
27
122 2
52876.36
169495.64 17619.64 0.97
i i
i i
r x y
x y
LEGAME LINEARE POSITIVO E MOLTO ELEVATO, PARI AL 97% DEL MASSIMO VALORE POSSIBILE
VERIFICA D’IPOTESI DISGIUNTA PER β
ˆ
ˆ 0.312 0.03 10.4 t s
0
: 0
H
È RESPINTAQuindi la variabile veicoli circolanti risulta significativa
0.025;9