Inferenza statistica nel modello lineare : regressione semplice Volendo costruire un modello che spieghi il Peso (espresso in kg) in funzione dell’Altezza (espressa in cm) si è osservato un campione di n

(1)

Inferenza statistica nel modello lineare : regressione semplice

Volendo costruire un modello che spieghi il Peso (espresso in kg) in funzione dell’Altezza (espressa in cm) si è osservato un campione di n

= 10 studenti della facoltà di Economia; i dati ottenuti sono riportati nella tabella seguente:

Altezza Peso

165 71

172 75

159 81

168 76

166 88

158 72

157 98

177 89

164 83

172 81

Sia la variabile Altezza la variabile esplicativa X e la variabile Peso la variabile dipendente Y.

a. Stimare, con il metodo dei minimi quadrati, i coefficienti di regressione 0 e 1 del modello;

b. costruire un intervallo di confidenza, ad un livello di significatività  = 0,05, per l’intercetta 0;

c. costruire un intervallo di confidenza, ad un livello di significatività  = 0,05, per il coefficiente angolare 1;

d. sulla base delle osservazioni campionarie verificare l’ipotesi nulla di assenza di un legame lineare tra Altezza e Peso, ad un livello di significatività  = 0,01.

___________________________________________________________________________________________________

a. Le stime dei minimi quadrati dei parametri di un modello di regressione si ottengono applicando le formule:

0 1 1

cov( , ) var( ) b y b x b X Y

   X

L’equazione della retta è quindi :

cov( , )

( - ) var( )

y X Y x x y

 X 

Il calcolo dei due valori si può effettuare anche utilizzando la Proc Corr il cui output è riportato sotto

The CORR Procedure

(2)

2 Variables: Peso Altezza Simple Statistics

Variable N Mean Std Dev Sum Minimum Maximum Peso 10 81.40000 8.47480 814.00000 71.00000 98.00000 Altezza 10 165.80000 6.62990 1658 157.00000 177.00000

Pearson Correlation Coefficients, N = 10

Peso Altezza Peso 1.00000 -0.06368 Altezza -0.06368 1.00000

Un modo per effettaure i calcoli necessari senza utilizzare SAS

sono contenuti nel seguente schema:

xi y_i x_i² y_i² x y_{i i}

165 71 27.225 5.041 11.715

172 75 29.584 5.625 12.900

159 81 25.281 6.561 12.879

168 76 28.224 5.776 12.768

166 88 27.556 7.744 14.608

158 72 24.964 5.184 11.376

157 98 24.649 9.604 15.386

177 89 31.329 7.921 15.753

164 83 26.896 6.889 13.612

172 81 29.584 6.561 13.932

Totale

1.658 814 275.292 66.906 134.929 Le formule da utilizzare sono le seguenti :

 

1 2 2 1

cov( , ) 1

var( ) 1

n i i i n

i i

X Y x y x y

n

X x x

n



 

   

 

 

   

 



L’equazione della retta di regressione è quindi:

 94.9 – 0.081

Y



X

(3)

Per la determinazione degli intervalli di confidenza i calcoli sono contenuti nello schema seguente:

xi y_i



y_i

 94.9 – 0.081

x_i

 ^y

ⁱ

^  ^y

ⁱ



²

165 71 81,46512 109,5187

172 75 80,89535 34,75516

159 81 81,95349 0,909136

168 76 81,22093 27,25812

166 88 81,38372 43,77515

158 72 82,03488 100,6988

157 98 82,11628 252,2927

177 89 80,48838 72,44774

164 83 81,54651 2,11263

172 81 80,89535 0,010951

Totale 1.658 814 814 643,779

L’errore standard della regressione, dato dalla radice quadrata della varianza residua, è:

 

²

1

1 1

643,779 8,97064

2 8

n

i i

i

S y y

n



    

 

b.

L’intervallo di confidenza per 0 è:



₀



₀



₀



₀

, 2 , 2

2 2

* ( ); * ( )

n n

t

_

SE t

_

SE

   

 

 

 

 

 

⁼

=

 94.9 2.3674.83,94.9 2.3674.83       77.67, 267.46 

c.

L’intervallo di confidenza per 1 è:

(4)



₁



₁



₁



₁

, 2 , 2

2 2

* ( ); * ( )

n n

t

_

SE t

_

SE

   

 

 

 

 

 

⁼

=

  0.081395 2,360.451, 0.081395 2,360.451        1.12144, 0.9587 

Si osservi che per  = 0,05 e n – 2 = 8 gradi di libertà è: _, ₂ ^0.025,8

2 n

2.36 t

_

t



 

d. Dove si trovano questi valori nell’output SAS?

The REG Procedure

Dependent Variable: Peso Number of Observations Read 10

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Pr > F Model 1 2.62093 2.62093 0.03 0.8613 Error 8 643.77907 80.47238

Corrected Total 9 646.40000

Root MSE 8.97064 R-Square 0.0041 Dependent Mean 81.40000 Adj R-Sq -0.1204 Coeff Var 11.02044

Parameter Estimates Parameter Standard

Variable DF Estimate Error t Value Pr > |t|

Intercept 1 94.89535 74.83282 1.27 0.2404 Altezza 1 -0.08140 0.45102 -0.18 0.8613



₀



SE

(  

₀

)  

₁ SE

( )  

₁

e.

L’ipotesi da verificare è: ⁰ ¹

1 1

: 0

H H



 

 



A tal fine si può utilizzare la statistica test:

1

( )

1

T SE B

 

Se l’ipotesi nulla è vera, T si distribuisce, al variare del campione come una variabile casuale t di Student con n – 2 gradi di libertà.

Il valore empirico della statistica – test è:



₁

( )

SE



(5)

0.81395

0.1805 0.451

T    

Per n – 2 = 8 gradi di libertà e per /2 = 0,005 è:

0.005,8

3.355

t



Essendo _, ₂

2n

t t

_



 si rifiuta l’ipotesi di assenza di dipendenza lineare della variabile Peso (Y) dalla variabile Altezza (X), ad un livello di significatività  = 0,01.

Inferenza statistica nel modello lineare : regressione semplice Volendo costruire un modello che spieghi il Peso (espresso in kg) in funzione dell’Altezza (espressa in cm) si è osservato un campione di n