Inferenza statistica nel modello lineare : regressione semplice
Volendo costruire un modello che spieghi il Peso (espresso in kg) in funzione dell’Altezza (espressa in cm) si è osservato un campione di n
= 10 studenti della facoltà di Economia; i dati ottenuti sono riportati nella tabella seguente:
Altezza Peso
165 71
172 75
159 81
168 76
166 88
158 72
157 98
177 89
164 83
172 81
Sia la variabile Altezza la variabile esplicativa X e la variabile Peso la variabile dipendente Y.
a. Stimare, con il metodo dei minimi quadrati, i coefficienti di regressione 0 e 1 del modello;
b. costruire un intervallo di confidenza, ad un livello di significatività = 0,05, per l’intercetta 0;
c. costruire un intervallo di confidenza, ad un livello di significatività = 0,05, per il coefficiente angolare 1;
d. sulla base delle osservazioni campionarie verificare l’ipotesi nulla di assenza di un legame lineare tra Altezza e Peso, ad un livello di significatività = 0,01.
___________________________________________________________________________________________________
a. Le stime dei minimi quadrati dei parametri di un modello di regressione si ottengono applicando le formule:
0 1 1
cov( , ) var( ) b y b x b X Y
X
L’equazione della retta è quindi :
cov( , )
( - ) var( )
y X Y x x y
X
Il calcolo dei due valori si può effettuare anche utilizzando la Proc Corr il cui output è riportato sotto
The CORR Procedure
2 Variables: Peso Altezza Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum Peso 10 81.40000 8.47480 814.00000 71.00000 98.00000 Altezza 10 165.80000 6.62990 1658 157.00000 177.00000
Pearson Correlation Coefficients, N = 10
Peso Altezza Peso 1.00000 -0.06368 Altezza -0.06368 1.00000
Un modo per effettaure i calcoli necessari senza utilizzare SAS
sono contenuti nel seguente schema:
xi yi xi2 yi2 x yi i
165 71 27.225 5.041 11.715
172 75 29.584 5.625 12.900
159 81 25.281 6.561 12.879
168 76 28.224 5.776 12.768
166 88 27.556 7.744 14.608
158 72 24.964 5.184 11.376
157 98 24.649 9.604 15.386
177 89 31.329 7.921 15.753
164 83 26.896 6.889 13.612
172 81 29.584 6.561 13.932
Totale
1.658 814 275.292 66.906 134.929 Le formule da utilizzare sono le seguenti :
1 2 2 1
cov( , ) 1
var( ) 1
n i i i n
i i
X Y x y x y
n
X x x
n
L’equazione della retta di regressione è quindi:
94.9 – 0.081
Y
XPer la determinazione degli intervalli di confidenza i calcoli sono contenuti nello schema seguente:
xi yi
yi 94.9 – 0.081
xi yi y
i
2
165 71 81,46512 109,5187
172 75 80,89535 34,75516
159 81 81,95349 0,909136
168 76 81,22093 27,25812
166 88 81,38372 43,77515
158 72 82,03488 100,6988
157 98 82,11628 252,2927
177 89 80,48838 72,44774
164 83 81,54651 2,11263
172 81 80,89535 0,010951
Totale 1.658 814 814 643,779
L’errore standard della regressione, dato dalla radice quadrata della varianza residua, è:
21
1 1
643,779 8,97064
2 8
n
i i
i
S y y
n
b.
L’intervallo di confidenza per 0 è:
0
0
0
0, 2 , 2
2 2
* ( ); * ( )
n n
t
SE t
SE
==
94.9 2.36*74.83,94.9 2.36*74.83 77.67, 267.46
c.
L’intervallo di confidenza per 1 è:
1
1
1
1, 2 , 2
2 2
* ( ); * ( )
n n
t
SE t
SE
==
0.081395 2,36*0.451, 0.081395 2,36*0.451 1.12144, 0.9587
Si osservi che per = 0,05 e n – 2 = 8 gradi di libertà è: , 2 0.025,8
2 n
2.36 t
t
d. Dove si trovano questi valori nell’output SAS?
The REG Procedure
Dependent Variable: Peso Number of Observations Read 10
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F Model 1 2.62093 2.62093 0.03 0.8613 Error 8 643.77907 80.47238
Corrected Total 9 646.40000
Root MSE 8.97064 R-Square 0.0041 Dependent Mean 81.40000 Adj R-Sq -0.1204 Coeff Var 11.02044
Parameter Estimates Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 94.89535 74.83282 1.27 0.2404 Altezza 1 -0.08140 0.45102 -0.18 0.8613
0
SE(
0)
1 SE( )
1e.
L’ipotesi da verificare è: 0 11 1
: 0
: 0
H H
A tal fine si può utilizzare la statistica test:
1
( )
1T SE B
Se l’ipotesi nulla è vera, T si distribuisce, al variare del campione come una variabile casuale t di Student con n – 2 gradi di libertà.
Il valore empirico della statistica – test è:
1( )
SE
0.81395
0.1805 0.451
T
Per n – 2 = 8 gradi di libertà e per /2 = 0,005 è:
0.005,8
3.355
t
Essendo , 2
2n