MODÈLE LINÉAIRE - TD 1

(1)

MODÈLE LINÉAIRE - TD 1

Nom

Esercizio 1)

Su una popolazione di 12 unità, vengono effettuate due rilevazioni quantitative, indicate con X e Y, i cui risultati sono riportati a fianco.

1.1 Costruire un grafico della distribuzione congiunta delle variabili X e Y.

INDICARE CHIARAMENTE LA SCALA

num. X Y 1 45.85 158.26 2 42.90 155.97 3 42.85 153.31 4 42.24 153.99 5 40.16 155.99 6 49.03 162.80 7 40.94 154.09 8 42.25 154.82 9 41.61 158.93 10 41.92 156.61 11 45.47 164.55

12 49.83 163.62

(2)

Per le rilevazioni precedenti si ha:

Σ x

i

= 525.05 Σ x

i2

= 23080.1

y

= 157.75 var(y) = 15.57 Σ x

i

y

i

= 82930.9

1.2 Calcolare la media di X.

1.3 Calcolare la varianza di X.

1.4. Calcolare la covarianza fra X e Y.

1.5 Scrivere l'equazione della retta di regressione di Y rispetto a X.

1.6 Disegnare, sullo stesso sistema di assi usato in precedenza, la retta di regressione di Y rispetto a X.

1.7 Calcolare il valore del residuo per la quinta unità sperimentale e indicarlo sul grafico.

1.8 Calcolare l’indice R-sq per la regressione di Y rispetto a X (ricordando che nella regressione con una sola variabile esplicativa esso è il quadrato del coefficiente di correlazione fra X e Y).

2

(3)

Esercizio 2)

1. Dimostrare che, in un modello di regressione

^y

^ ^

0

^ ^

1^x

^ ^ con i coefficienti determinati con il metodo dei minimi quadrati, la somma dei residui è nulla:

 ^ˆ  ⁰

1



 

 i i

n i

y y

2. Calcolare il coefficiente

^b

che minimizza la somma dei quadrati dei residui in un modello con

sola costante:

^y^^ ^^

(4)

MODÈLE LINÉAIRE - TD 1 (a casa)

Nom

Esercizio 3)

Su una popolazione di 10 unità, vengono effettuate due

rilevazioni quantitative, indicate con X e Y, i cui risultati sono riportati a fianco.

Costruire un grafico della distribuzione congiunta delle variabili X e Y.

INDICARE CHIARAMENTE LA SCALA

num. X Y 1 -1.8 -2.2 2 -1.8 -20.0 3 -1.2 -4.5 4 2.0 10.9 5 -1.7 -6.1 6 0.2 11.2 7 0.5 8.0 8 3.5 23.0 9 1.4 10.3

10 1.2 8.6

4

(5)

Per le rilevazioni precedenti si ha:

x

= 0.23 var(x) = 3.358 Σ y

i

=39.20 Σ y

i2

= 1479.6 Σ x

i

y

i

= 189.01

2.1 Calcolare la media di Y.

2.3. Calcolare la varianza di Y.

2.4 Calcolare la covarianza fra X e Y.

2.5 Scrivere l'equazione della retta di regressione di Y rispetto a X.

2.6 Disegnare, sullo stesso sistema di assi usato in precedenza, la retta di regressione di Y rispetto a X.

2.7 Calcolare il valore del residuo per la seconda unità sperimentale e indicarlo sul grafico.

2.8 Calcolare l’indice R-sq per la regressione di Y rispetto a X (ricordando che nella regressione con

una sola variabile esplicativa esso è il quadrato del coefficiente di correlazione fra X e Y).

(6)

MODÈLE LINÉAIRE - TD 2

Nom

ESERCIZIO 1

Considerare i dati dell’esercizio 1 della lezione precedente (TD1), che riportiamo a fianco:

num. X Y 1 45.85 158.26 2 42.90 155.97 3 42.85 153.31 4 42.24 153.99 5 40.16 155.99 6 49.03 162.80 7 40.94 154.09 8 42.25 154.82 9 41.61 158.93 10 41.92 156.61 11 45.47 164.55 12 49.83 163.62

Qui a fianco sono forniti i valori di Y approssimati linearmente tramite X con la tecnica dei minimi quadrati per i primi 10 dati.

1.1 Calcolare

y

ˆ

11

e ˆy

12_.

1.2 Calcolare tutti i residui.

1.3 Costruire il grafico dei residui rispetto ai valori approssimati.

ˆ

1

y

= 159,84 e

1

= ...

ˆy

2

= 156,89 e

2

= ...

ˆy

3

= 156,84 e

3

= ...

ˆ

4

y = 156,23 e4

= ...

ˆy = 154,15 e

5 5

= ...

ˆy = 163,01 e

6 6

= ...

ˆy = 154,93 e

7 7

= ...

ˆy = 156,25 e

8 8

= ...

ˆy = 155,60 e

9 9

= ...

ˆy

10

= 155,91 e

10

= ...

ˆ

11

y

= ... e

11

= ...

ˆy

12

= ... e

12

= ...

6

(7)

ESERCIZIO 2

I seguenti grafici rappresentano i residui rispetto ai valori stimati di 4 modelli di regressione lineare.

Per ciascuno di essi dire se il modello è adeguato o se sono necessarie eventuali trasformazioni dei dati ed indicare quali si ritengono opportune.

MODELLO 1

COMMENTO

MODELLO 2

COMMENTO

MODELLO 3

COMMENTO

MODELLO 4

COMMENTO

ESERCIZIO 3

Si consideri un modello di regressione lineare privo di intercetta in cui la variabile risposta Y dipenda da un’unica variabile esplicativa X. Il modello avrà quindi equazione:

y

i

= ß x

i

+ 

i

 i=1, …, n

Si calcoli la stima ai minimi quadrati di ß .

(8)

MODÈLE LINÉAIRE - TD 2 (a casa)

Nom

ESERCIZIO 4

Considerare i dati dell’esercizio 2 della lezione precedente (TD1), che riportiamo qui a fianco:

num. X Y 1 -1.8 -2.2 2 -1.8 -20.0 3 -1.2 -4.5 4 2.0 10.9 5 -1.7 -6.1 6 0.2 11.2 7 0.5 8.0 8 3.5 23.0 9 1.4 10.3 10 1.2 8.6

Qui a fianco sono forniti i valori di Y approssimati linearmente tramite X con la tecnica dei minimi quadrati per i primi 8 dati.

4.1 Calcolare ^ˆy

₉

e ˆy .

₁₀

4.2 Calcolare tutti i residui.

4.3 Costruire il grafico dei residui rispetto ai valori approssimati.

ˆ

1

y

= -8.17 e

1

= ...

ˆy

2

= -8.17 e

2

= ...

ˆy

3

= -4.60 e

3

= ...

ˆ

4

y = 14.46 e4

= ...

ˆy = -7.57 e

5 5

= ...

ˆy = 3.74 e

6 6

= ...

ˆy = 5.53 e

7 7

= ...

ˆy = 23.40 e

8 8

= ...

ˆy = ... e

9 9

= ...

ˆy

10

= ... e

10

= ...

8

(9)

MODÈLE LINÉAIRE - TD 3

Nom

ESERCIZIO 1

Considerare i dati riportiati qui a fianco:

Si ottiene la seguente retta di regressione:

Y = 135 + 0.476 x

num. x Y e 1 45.85 158.26 . 2 42.90 155.97 . 3 42.85 153.31 . 4 42.24 153.99 . 5 40.16 155.90 .

a) Calcolare i residui e la stima della varianza delle variabili aleatorie Y

1

, , K Y

_n

b) Calcolare la stima s della varianza di B

B²0 0

e la stima s della varianza di B

B²0 1

.

c) Calcolare un intervallo di confidenza per ciascuno del coefficienti del modello  e 

0 1

.

(10)

d) Effettuare un test a livello di significatività del 95% per verificare se il coefficiente  è nullo

0

e) Calcolare:

a. le stime ¶ ¶

1

, ,

5

y K y dei valori attesi delle variabili risposta Y

1

, , K Y

5

b. le stime delle varianze degli stimatori µ µ

1

, ,

5

Y K Y

c. un intevallo di confidenza per ciascuno dei valori attesi delle variabili risposta Y

1

, , K Y

5

j ¶

y

j

 ^x

^j

^ ^x 

²

^h

^j intervallo di confidenza per

IE Y  

j

1 2

3 4

5

10

(11)

ESERCIZIO 2 - LETTURA DI UN OUTPUT SAS Si considerino i dati ...

Dependent Variable: PERCORRE

Analysis of Variance Sum of Mean

Source DF Squares Square F Value Prob>F Model 5 224.69314 44.93863 23.111 0.0001 Error 32 62.22384 1.94449

C Total 37 286.91697

Root MSE 1.39445 R-square 0.7831 Dep Mean 10.53111 Adj R-sq 0.7492 C.V. 13.24126

Parameter Estimates

Parameter Standard T for H0:

Variable DF Estimate Error Parameter=0 Prob > |T|

INTERCEP 1 27.390415 3.95086954 6.933 0.0001 DRIVE_R 1 -2.407964 0.79443447 -3.031 0.0048 CILINDRA 1 -0.001776 0.00057888 -3.068 0.0044 NUM_C 1 -0.462520 0.44158181 -1.047 0.3028 RIPRESA 1 -0.406254 0.18537862 -2.191 0.0358 PES_POT 1 332.025153 209.18758707 1.587 0.1223

Nella tabella Parameter Estimates sono riportate:

Parameter Estimate: stime puntuali dei coefficienti

^0 e 1.

, cioè i valori di

b0eb1

: Standard Error: stime puntuali delle standard deviation degi stimatori

B0eB1

, cioè i

valori di

s_B0 e s_B1

:

T for H0: Parameter=0 valore della statistica test per il test di nullità di ciascun coefficiente

₀ e 1: ₀ ⁰

B0

t b

s e 1 ¹ B1

t b s

Prob > |T|

:

p-value delle realizzaizoni campionarie

t0et1

:

a) Calcolare un intervallo di confidenza per ciascuno del coefficienti d el modello ^

0 e



₁_.

(12)

MODÈLE LINÉAIRE - TD 4 Nom

Alcune osservazioni sulla distribuzione degli stimatori dei coefficienti

Consideriamo un modello di regressione lineare con

^p^¹

variabili esplicative:





    

 ₀ ₁x₁ _p_₁x_p_₁

y 

Supponiamo che i dati osservati siano riferiti a un campione di una popolazione.

Si può dimostrare che, se i residui hanno distribuzione normale e sono non correlati tra loro --cioè



i

~ N ⁽ ⁰ ^, ^ ⁾ -- allora la variabile casuale

Bk

, stimatore del coefficiente 

k

, ha una distribuzione tale che la variabile casuale

k k k

S B  

ha distribuzione t di Student a n  gradi di libertà, dove con p

Sk

si è indicato lo stimatore della varianza di

Bk

.

--- Si considerino i dati relativi a 38 auto riguardanti:

 nazione di fabbricazione

 tipo di auto

 percorrenza (chilometri percorsi con un litro di carburante)

 peso (in kg)

 rapporto di trasmissione al ponte (drive ratio)

 potenza (in HP)

 cilindrata (in cm

³

)

 numero cilindri

 ripresa (secondi impiegati per percorrere da fermo un quarto di miglio cioè 402 m)

I dati sono tratti dall'articolo: H.V. Henderson & P.F. Velleman, Building Multiple Regression Models Interactively, Biometrics, 1981, p. 400.

Di seguito è riportato un output SAS relativo alla regressione della variabile percorrenza rispetto alle variabili esplicative: drive ratio, cilindrata, numero cilindri, ripresa, peso/potenza.

Dependent Variable: PERCORRE

Analysis of Variance Sum of Mean

C Total 37 286.91697

Parameter Estimates

INTERCEP 1 27.390415 3.95086954 6.933 0.0001 DRIVE_R 1 -2.407964 0.79443447 -3.031 0.0048 CILINDRA 1 -0.001776 0.00057888 -3.068 0.0044 NUM_C 1 -0.462520 0.44158181 -1.047 0.3028 RIPRESA 1 -0.406254 0.18537862 -2.191 0.0358 PES_POT 1 332.025153 209.18758707 1.587 0.1223

Nella tabella Parameter Estimates sono riportate le stime puntuali:

 dei singoli coefficienti, cioè i valori di

b0,b1,,b5

, nella colonna Parameter Estimate

 delle standard deviation dei singoli coefficienti, cioè i valori di

s0,s1,,s5

nella colonna

Standard Error

12

(13)

ESERCIZIO 1

Calcolare un intervallo di confidenza a livello del 95% per ciascun coefficiente 

0,



1,_,



5

.

 Coefficiente 

0

:

 Coefficiente 

1

:

 Coefficiente 

2

:

 Coefficiente 

3

:

 Coefficiente 

4

:

 Coefficiente 

5

:

ESERCIZIO 2

Effettuare un test a livello di significatività del 5% per verificare la nullità di ciascun coefficiente

5 1

0,



, ,



_

.

H0^:



_k ⁰

contro

H1^:



_k ⁰

 Coefficiente 

0

:

 Coefficiente 

1

:

 Coefficiente 

2

:

 Coefficiente 

3

:

 Coefficiente 

4

:

 Coefficiente 

5

:

ESERCIZIO 2

Effettuare un test a livello di significatività del 5% per verificare l’ugualianza dei coefficienti 

3

e 

4

:

4 3 0

:   

H

contro

H₁

^:  

₃



₄

.

Come statistica test si utilizzi la variable casuale

B3



B4

standardizzata, cioè    



3 4



4 3 4 3

ˆ d B B t

s B B



  

,

(14)

MODÈLE LINÉAIRE - TD 5

Nom

ESERCIZIO 1

Si consideri nuovamente il modello lineare che esprime il consumo di ossigeno da parte di atleti che praticano sport di fondo in dipendenza da variabili esplicative facilmente rilevabili anche sul campo.

Inizialmente si costruisce un modello con variabili esplicative: ETA, PESO, TEMPO, PULS_FER, PULS_MED, PULS_MAX . I risultati della regressione sono i seguenti.

Model: MODEL1

Dependent Variable: OSS Analysis of Variance Sum of Mean

C Total 30 851.38154

Parameter Estimates

INTERCEP 1 102.934479 12.40325810 8.299 0.0001 ETA 1 -0.226974 0.09983747 -2.273 0.0322 PESO 1 -0.074177 0.05459316 -1.359 0.1869 TEMPO 1 -2.628653 0.38456220 -6.835 0.0001 PUL_FER 1 -0.021534 0.06605428 -0.326 0.7473 PUL_MED 1 -0.369628 0.11985294 -3.084 0.0051 PUL_MAX 1 0.303217 0.13649519 2.221 0.0360

Dai test di nullità dei singoli coefficienti risulta che singolarmente possono essere considerate ininfluenti, a livello del 5% le variabili variabili PESO e PUL_FER e a livello dell’1% anche le variabili ETA e PUL_MAX.

Si ipotizza quindi che i coefficienti relativi a queste 4 variabili siano contemporaneamente nulli e si effettua una regressione senza le 4 variabili.

I risultati della regressione lineare eseguita sul modello ridotto sono i seguenti.

14

(15)

Model: MODEL1

Dependent Variable: OSSIGENO Analysis of Variance Sum of Mean

C Total 30 851.38154

Parameter Estimates

INTERCEP 1 93.088766 8.24882295 11.285 0.0001 TEMPO 1 -3.140188 0.37326470 -8.413 0.0001 PULS_MED 1 -0.073509 0.05051438 -1.455 0.1567

Si commenti l’output.

1.1 Si effettui un test di Fisher sulla nullità dei parametri relativi alle variabili ETA, PESO, PUL_FER e PUL_MAX. A tal fine, si determinino i gradi di libertà del denominatore utilizzando la tabella ANOVA.

Quale è il valore campionario assunto dalla statistica test? Osservando le tavole della Fisher, si accetta o si rifiuta l’ipotesi principale? Il modello ridotto è quindi accettabile, cioè non fa perdere informazioni significative rispetto al modello completo?

1.2 Si calcoli il valore predetto per l’ossigeno nel modello ridotto per la quarta unità sperimentale e il residuo corrispondente.

OBS SESSO ETA PESO OSS TEMPO PUL_FER PUL_MED PUL_MAX 4 f 42 68.15 59.571 8.17 40 166 172

(16)

MODÈLE LINÉAIRE – TD 5

Nom

ESERCIZIO 2

Si vuole studiare se una variabile casuale Y possa avere una dipendenza lineare da 4 variabili esplicative, indicate con X1, X2, X3 e X4.

MODELLO 1. Si effettua una regressione lineare considerando un modello con costante e con variabili esplicative X1, X2, X3 e X4. I risultati sono i seguenti:

Analysis of Variance Sum of Mean

Source DF Squares Square F Value Prob>F Model 4 887.27763 221.81941 7506.041 0.0001 Error 105 3.10297 0.02955

C Total 109 890.38060

Root MSE 0.17191 R-square 0.9965 Dep Mean 40.20930 Adj R-sq 0.9964 C.V. 0.4275

Parameter Estimates Parameter Standard T for H0:

Variable DF Estimate Error Parameter=0 Prob > |T|

INTERCEP 1 20.779155 0.13504999 153.863 0.0001 X1 1 0.012495 0.00010338 120.873 0.0001 X2 1 -0.143898 0.38621580 -0.373 0.7102 X3 1 0.012429 0.00010066 123.473 0.0001 X4 1 0.006459 0.00765082 0.844 0.4005

Nella tabella Analysis of Variance:

- nella colonna DF si trovano i gradi di libertà dei vettori Xby (in corrispondenza di Model), yXb (in corrispondenza di Error) e

y

y (in corrispondenza di C Total)

- nella colonna Sum of Squares, in corrispondenza della riga Error, si trova la somma dei quadrati dei residui - nella colonna F Value si trova la quantità ^SS^R_SS^SS^C

C

n pp1,avendo indicato rispettivamente con ^SSC e ^SSR la somma dei quadrati dei residui nel modello completo e quella nel modello costituito dalla sola costante, avendo indicato con n il n. delle osservazioni e con p il n. dei coefficienti da stimare.

Nella tabella Parameter Estimates:

- Nella colonna Variable si trovano i nomi delle variabili esplicative (compresa la costante).

Per ogni riga (cioè in corrispondenza di ogni variabile indicata nella colonna Variable):

- nella colonna Parameter Estimate si trova la stima del coefficienti bk ;

- nella colonna Standard Error si trova la stimask delle deviazione standard degli stimatori Bk _;

- nella colonna T for H0 si trova il valoretk bk /sk ;

- nella colonna Prob > |T| si trova la probabilità che una variabile casuale T con distribuzione t di Student, con gradi di libertàn



p, assuma valori inferiori a -tk o superiori a tk , cioè IP ( T  tk), avendo indicato con

n

il numero delle osservazioni e con p_il

numero dei coefficienti da stimare.

16

(17)

Qui sotto è riportato il grafico dei residui studentizzati rispetto ai valori della regressione.

2.1. In base ai dati precedenti stabilire se il modello è buono. Indicare eventuali possibili trasformazioni delle variabili. Spiegare nei dettagli quali dati si sono considerati

MODELLO 2.

E’ stata effettua una opportuna trasformazione di una o più variabili, ottenendo i seguenti risultati.

Sono ora indicate con Y, X1, X2, X3 e X4 le variabili precedenti o loro trasformazioni.

Analysis of Variance Sum of Mean

C Total 109 5715072.7736

Y2 = 20.779 +0.0125 X1 -0.1439 X2 +0.0124 X3 +0.0065 X4

N110 Rsq0.9965 AdjRsq 0.9964 Rt MSE 0.1719

-4 -3 -2 -1 0 1 2 3

Predicted Value of Y

32 34 36 38 40 42 44 46 48

(18)

INTERCEP 1 73.699471 7.62811335 9.662 0.0001 X1 1 1.001831 0.00583908 171.573 0.0001 X2 1 -9.342434 21.81487039 -0.428 0.6693 X3 1 0.996904 0.00568556 175.340 0.0001 X4 1 1.241956 0.43214615 2.874 0.0049

2.2. In base ai dati precedenti stabilire se il modello 2 è buono. Spiegare nei dettagli quali dati si sono considerati

18

Y = 7 3 . 6 9 9 +1 . 0 0 1 8 X 1 - 9 . 3 4 2 4 X 2 + 0 . 9 9 6 9 X 3 + 1 . 2 4 2 X 4

N 1 1 0 R s q 0 . 9 9 8 3 A d j R s q 0 . 9 9 8 2 R t MS E 9 . 7 0 9 9

- 3 - 2 - 1 0 1 2 3

P r e d i c t e d V a l u e o f Y

1 0 0 0 1 2 0 0 1 4 0 0 1 6 0 0 1 8 0 0 2 0 0 0 2 2 0 0 2 4 0 0

(19)

MODELLO 3.

Si effettua quindi una regressione considerando un modello con variabili esplicative X1 e X3.

I risultati di questa regressione lineare sono i seguenti:

Analysis of Variance

Sum of Mean

C Total 109 5715072.7736

Root MSE 9.99013 R-square 0.9981 Dep Mean 1624.88231 Adj R-sq 0.9981 C.V. 0.61482

Parameter Estimates

Parameter Standard T for H0:

INTERCEP 1 62.110609 6.65562361 9.332 0.0001 X1 1 1.003832 0.00592485 169.427 0.0001 X3 1 0.994821 0.00579988 171.524 0.0001

2.3. Utilizzando questi dati e i precedenti effettuare il test di Fisher, a livello del 5%, per verificare se il modello ridotto senza le variabili X2 e X4 è buono (esplicitare il procedimento)

2.4. Si consideri il modello ridotto. Una osservazione ha i seguenti valori:

Y=1417.25 X1=520.31 X3=839.75

a) Calcolare il valore di Y della regressione (arrotondare i dati alla prima cifra decimale)

b) Calcolare il valore del residuo (arrotondare i dati alla prima cifra decimale)

c) Sapendo che lo standard error di tale residuo è 9.90, calcolare il residuo studentizzato.

2.5. Calcolare un intervallo di confidenza a livello del 5% per il parametro della variabile X1 del

modello ridotto.

(20)

MODÈLE LINÉAIRE - TD 6

Nom

ESERCIZIO 1

Si consideri il modello lineare che esprime il tempo di vita (in ore) di un batterio in funzione dell’ossigeno disciolto nell’acqua di coltura (in milligrammi). L’output SAS della proc reg è il seguente.

E’ indicata anche la matrice di varianza-covarianza dei coefficienti.

The REG Procedure Dependent Variable: ore_vita Analysis of Variance Sum of Mean

Source DF Squares Square F Value Pr > F Model 1 30.60514 30.60514 63.28 <.0001 Error 16 7.73891 0.48368

Corrected Total 17 38.34404

Root MSE 0.69547 R-Square 0.7982 Dependent Mean 9.93444 Adj R-Sq 0.7856 Coeff Var 7.00062

Parameter Estimates Parameter Standard

Variable DF Estimate Error t Value Pr > |t|

Intercept 1 -12.81867 2.86507 -4.47 0.0004 mg_ossig 1 1.52404 0.19159 7.95 <.0001 Covariance of Estimates

Variable Intercept mg_ossig Intercept 8.208636928 -0.548028813 mg_ossig -0.548028813 0.0367079174

1. Commentare i risultati e dire se la dipendenza lineare è significativa.

Si vuole prevedere il tempo di vita per due nuove osservazioni delle quali si hanno solo i valori di ossigeno disciolto. Tali valori sono

x19

 ¹⁴ ^. ³⁸ e

x20

 ¹⁶ ^. ⁹² .

2. Calcolare le stime di

y19

e

y20

.

3. Calcolare l’intervallo di confidenza a livello 90% per la media di

y19

e per la media di

y20

.

4. Calcolare l’intervallo di confidenza a livello 90% per il valore predetto di

y19

e per il valore predetto di

y20

.

20

(21)

MODÈLE LINÉAIRE - TD 8 Nom

Si consideri una variabile quantativa Y e un fattore A a 3 livelli (indicati con 1, 2 e 3 ) La variabile Y in un campione assume i valori

riportati a finco, suddivisi a seconda dei livelli del fattore A.

Si consideri un modello di analisi della varianza a una via:

ik i

yik

      con

ⁱ^¹^,^^,³ ^k ^¹^,²

1 2

7 2 5

9 3 3

4 1.1 Si scriva in modo esteso il modello in forma matriciale per i dati campionari (scrivere la matrice del disegno di rango pieno):



 

X^* ^*

y

1.2 Si stimino i parametri ricordando che la stima di ^ è la media generale della variabile risposta e la stima di 

i

è la differenza fra la media del livello i e la media generale.

1.3 Si calcolino i valori stimati per la variabile risposta e i corrispondenti residui.

1.4 Si effettui il test di non influenza del fattore sulla variabile risposta a livello di significatività del 5%.

Ricordare che il numeratore della statistica test - esclusi i gradi di libertà - è:

 

²

2 3

..

y

_i

. y 



(22)

MODÈLE LINÉAIRE - TD 9 Nom

Si consideri una variabile quantativa Y e due fattori: A a 3 livelli e B a due livelli La variabile Y in un campione assume i valori

riportati a finco, suddivisi a seconda dei livelli del fattore A.

Si consideri un modello di analisi della varianza a due vie con interazione.:

ijk ij j i

yijk    

con

2 , 1 2 , 1 3 , ,

1  

 j k

i 

Qui sotto è riportato l’output SAS dell’analisi della varianza

a b y

1 1 3

1 1 6

1 2 3

1 2 4

1 3 7

1 3 8

2 1 1

2 1 2

2 2 2

2 2 3

2 3 5

2 3 6

Output SAS:

Analysis of Variance Procedure Class Level Information Class Levels Values A 2 1 2 B 3 1 2 3

Number of observations in data set = 12 Dependent Variable: Y

Source DF Sum of Squares Mean Square F Value Pr > F Model 5 46.66666667 9.33333333 8.00 0.0125 Error 6 7.00000000 1.16666667

Corrected Total 11 53.66666667

R-Square C.V. Root MSE Y Mean 0.869565 25.92296 1.08012345 4.16666667 Source DF Anova SS Mean Square F Value Pr > F A 1 12.00000000 12.00000000 10.29 0.0184 B 2 32.66666667 16.33333333 14.00 0.0055 A*B 2 2.00000000 1.00000000 0.86 0.4705

2.1 Commentare i risultati.

2.2 Scrivere la tabella dell’analisi della varianza per il modello con il solo fattore B:

jk j

yjk  

con

^j^¹^,² ^k^¹^,³

22

MODÈLE LINÉAIRE - TD 1

MODÈLE LINÉAIRE - TD 1

Nom

Esercizio 1)

Su una popolazione di 12 unità, vengono effettuate due rilevazioni quantitative, indicate con X e Y, i cui risultati sono riportati a fianco.

1.1 Costruire un grafico della distribuzione congiunta delle variabili X e Y.

INDICARE CHIARAMENTE LA SCALA

12 49.83 163.62

Per le rilevazioni precedenti si ha:

Σ x

= 525.05 Σ x

= 23080.1

= 157.75 var(y) = 15.57 Σ x

y

= 82930.9

1.2 Calcolare la media di X.

1.3 Calcolare la varianza di X.

1.4. Calcolare la covarianza fra X e Y.

1.5 Scrivere l'equazione della retta di regressione di Y rispetto a X.

1.6 Disegnare, sullo stesso sistema di assi usato in precedenza, la retta di regressione di Y rispetto a X.

1.7 Calcolare il valore del residuo per la quinta unità sperimentale e indicarlo sul grafico.

1.8 Calcolare l’indice R-sq per la regressione di Y rispetto a X (ricordando che nella regressione con una sola variabile esplicativa esso è il quadrato del coefficiente di correlazione fra X e Y).

Esercizio 2)

1. Dimostrare che, in un modello di regressione

 

 

  con i coefficienti determinati con il metodo dei minimi quadrati, la somma dei residui è nulla:

 ˆ  0



 

y y

2. Calcolare il coefficiente

che minimizza la somma dei quadrati dei residui in un modello con

sola costante:

MODÈLE LINÉAIRE - TD 1 (a casa)

Nom

Esercizio 3)

Su una popolazione di 10 unità, vengono effettuate due

rilevazioni quantitative, indicate con X e Y, i cui risultati sono riportati a fianco.

Costruire un grafico della distribuzione congiunta delle variabili X e Y.

INDICARE CHIARAMENTE LA SCALA

10 1.2 8.6

Per le rilevazioni precedenti si ha:

= 0.23 var(x) = 3.358 Σ y

=39.20 Σ y

= 1479.6 Σ x

y

= 189.01

2.1 Calcolare la media di Y.

2.3. Calcolare la varianza di Y.

2.4 Calcolare la covarianza fra X e Y.

2.5 Scrivere l'equazione della retta di regressione di Y rispetto a X.

2.6 Disegnare, sullo stesso sistema di assi usato in precedenza, la retta di regressione di Y rispetto a X.

2.7 Calcolare il valore del residuo per la seconda unità sperimentale e indicarlo sul grafico.

2.8 Calcolare l’indice R-sq per la regressione di Y rispetto a X (ricordando che nella regressione con

una sola variabile esplicativa esso è il quadrato del coefficiente di correlazione fra X e Y).

MODÈLE LINÉAIRE - TD 2

Nom

ESERCIZIO 1

Considerare i dati dell’esercizio 1 della lezione precedente (TD1), che riportiamo a fianco:

Qui a fianco sono forniti i valori di Y approssimati linearmente tramite X con la tecnica dei minimi quadrati per i primi 10 dati.

1.1 Calcolare

ˆ

e ˆy

1.2 Calcolare tutti i residui.

1.3 Costruire il grafico dei residui rispetto ai valori approssimati.

ˆ

= 159,84 e

= ...

ˆy

= 156,89 e

= ...

ˆy

= 156,84 e

= ...

ˆ

= ...

ˆy = 154,15 e

= ...

ˆy = 163,01 e

^ ^

^ ^

^ ^ con i coefficienti determinati con il metodo dei minimi quadrati, la somma dei residui è nulla:

 ^ˆ  ⁰

4.1 Calcolare ^ˆy