MODÈLE LINÉAIRE - TD 1
Nom
Esercizio 1)
Su una popolazione di 12 unità, vengono effettuate due rilevazioni quantitative, indicate con X e Y, i cui risultati sono riportati a fianco.
1.1 Costruire un grafico della distribuzione congiunta delle variabili X e Y.
INDICARE CHIARAMENTE LA SCALA
num. X Y 1 45.85 158.26 2 42.90 155.97 3 42.85 153.31 4 42.24 153.99 5 40.16 155.99 6 49.03 162.80 7 40.94 154.09 8 42.25 154.82 9 41.61 158.93 10 41.92 156.61 11 45.47 164.55
12 49.83 163.62
Per le rilevazioni precedenti si ha:
Σ x
i= 525.05 Σ x
i2= 23080.1
y= 157.75 var(y) = 15.57 Σ x
iy
i= 82930.9
1.2 Calcolare la media di X.
1.3 Calcolare la varianza di X.
1.4. Calcolare la covarianza fra X e Y.
1.5 Scrivere l'equazione della retta di regressione di Y rispetto a X.
1.6 Disegnare, sullo stesso sistema di assi usato in precedenza, la retta di regressione di Y rispetto a X.
1.7 Calcolare il valore del residuo per la quinta unità sperimentale e indicarlo sul grafico.
1.8 Calcolare l’indice R-sq per la regressione di Y rispetto a X (ricordando che nella regressione con una sola variabile esplicativa esso è il quadrato del coefficiente di correlazione fra X e Y).
2
Esercizio 2)
1. Dimostrare che, in un modello di regressione
y
0
1x con i coefficienti determinati con il metodo dei minimi quadrati, la somma dei residui è nulla:
ˆ 0
1
i i
n i
y y
2. Calcolare il coefficiente
bche minimizza la somma dei quadrati dei residui in un modello con
sola costante:
y MODÈLE LINÉAIRE - TD 1 (a casa)
Nom
Esercizio 3)
Su una popolazione di 10 unità, vengono effettuate due
rilevazioni quantitative, indicate con X e Y, i cui risultati sono riportati a fianco.
Costruire un grafico della distribuzione congiunta delle variabili X e Y.
INDICARE CHIARAMENTE LA SCALA
num. X Y 1 -1.8 -2.2 2 -1.8 -20.0 3 -1.2 -4.5 4 2.0 10.9 5 -1.7 -6.1 6 0.2 11.2 7 0.5 8.0 8 3.5 23.0 9 1.4 10.3
10 1.2 8.6
4
Per le rilevazioni precedenti si ha:
x
= 0.23 var(x) = 3.358 Σ y
i=39.20 Σ y
i2= 1479.6 Σ x
iy
i= 189.01
2.1 Calcolare la media di Y.
2.3. Calcolare la varianza di Y.
2.4 Calcolare la covarianza fra X e Y.
2.5 Scrivere l'equazione della retta di regressione di Y rispetto a X.
2.6 Disegnare, sullo stesso sistema di assi usato in precedenza, la retta di regressione di Y rispetto a X.
2.7 Calcolare il valore del residuo per la seconda unità sperimentale e indicarlo sul grafico.
2.8 Calcolare l’indice R-sq per la regressione di Y rispetto a X (ricordando che nella regressione con
una sola variabile esplicativa esso è il quadrato del coefficiente di correlazione fra X e Y).
MODÈLE LINÉAIRE - TD 2
Nom
ESERCIZIO 1
Considerare i dati dell’esercizio 1 della lezione precedente (TD1), che riportiamo a fianco:
num. X Y 1 45.85 158.26 2 42.90 155.97 3 42.85 153.31 4 42.24 153.99 5 40.16 155.99 6 49.03 162.80 7 40.94 154.09 8 42.25 154.82 9 41.61 158.93 10 41.92 156.61 11 45.47 164.55 12 49.83 163.62
Qui a fianco sono forniti i valori di Y approssimati linearmente tramite X con la tecnica dei minimi quadrati per i primi 10 dati.
1.1 Calcolare
yˆ
11e ˆy
12.1.2 Calcolare tutti i residui.
1.3 Costruire il grafico dei residui rispetto ai valori approssimati.
ˆ
1y
= 159,84 e
1= ...
ˆy
2= 156,89 e
2= ...
ˆy
3= 156,84 e
3= ...
ˆ
4y = 156,23 e4
= ...
ˆy = 154,15 e
5 5= ...
ˆy = 163,01 e
6 6= ...
ˆy = 154,93 e
7 7= ...
ˆy = 156,25 e
8 8= ...
ˆy = 155,60 e
9 9= ...
ˆy
10= 155,91 e
10= ...
ˆ
11y
= ... e
11= ...
ˆy
12= ... e
12= ...
6
ESERCIZIO 2
I seguenti grafici rappresentano i residui rispetto ai valori stimati di 4 modelli di regressione lineare.
Per ciascuno di essi dire se il modello è adeguato o se sono necessarie eventuali trasformazioni dei dati ed indicare quali si ritengono opportune.
MODELLO 1
COMMENTO
MODELLO 2
COMMENTO
MODELLO 3
COMMENTO
MODELLO 4
COMMENTO
ESERCIZIO 3
Si consideri un modello di regressione lineare privo di intercetta in cui la variabile risposta Y dipenda da un’unica variabile esplicativa X. Il modello avrà quindi equazione:
y
i= ß x
i+
i i=1, …, n
Si calcoli la stima ai minimi quadrati di ß .
MODÈLE LINÉAIRE - TD 2 (a casa)
Nom
ESERCIZIO 4
Considerare i dati dell’esercizio 2 della lezione precedente (TD1), che riportiamo qui a fianco:
num. X Y 1 -1.8 -2.2 2 -1.8 -20.0 3 -1.2 -4.5 4 2.0 10.9 5 -1.7 -6.1 6 0.2 11.2 7 0.5 8.0 8 3.5 23.0 9 1.4 10.3 10 1.2 8.6
Qui a fianco sono forniti i valori di Y approssimati linearmente tramite X con la tecnica dei minimi quadrati per i primi 8 dati.
4.1 Calcolare ˆy
9e ˆy .
104.2 Calcolare tutti i residui.
4.3 Costruire il grafico dei residui rispetto ai valori approssimati.
ˆ
1y
= -8.17 e
1= ...
ˆy
2= -8.17 e
2= ...
ˆy
3= -4.60 e
3= ...
ˆ
4y = 14.46 e4
= ...
ˆy = -7.57 e
5 5= ...
ˆy = 3.74 e
6 6= ...
ˆy = 5.53 e
7 7= ...
ˆy = 23.40 e
8 8= ...
ˆy = ... e
9 9= ...
ˆy
10= ... e
10= ...
8
MODÈLE LINÉAIRE - TD 3
Nom
ESERCIZIO 1
Considerare i dati riportiati qui a fianco:
Si ottiene la seguente retta di regressione:
Y = 135 + 0.476 x
num. x Y e 1 45.85 158.26 . 2 42.90 155.97 . 3 42.85 153.31 . 4 42.24 153.99 . 5 40.16 155.90 .
a) Calcolare i residui e la stima della varianza delle variabili aleatorie Y
1, , K Y
nb) Calcolare la stima s della varianza di B
B20 0e la stima s della varianza di B
B20 1.
c) Calcolare un intervallo di confidenza per ciascuno del coefficienti del modello e
0 1.
d) Effettuare un test a livello di significatività del 95% per verificare se il coefficiente è nullo
0e) Calcolare:
a. le stime ¶ ¶
1
, ,
5y K y dei valori attesi delle variabili risposta Y
1, , K Y
5b. le stime delle varianze degli stimatori µ µ
1
, ,
5Y K Y
c. un intevallo di confidenza per ciascuno dei valori attesi delle variabili risposta Y
1, , K Y
5j ¶
y
j xj x
2 h
j intervallo di confidenza perIE Y
j1 2
3 4
5
10
ESERCIZIO 2 - LETTURA DI UN OUTPUT SAS Si considerino i dati ...
Dependent Variable: PERCORRE
Analysis of Variance Sum of Mean
Source DF Squares Square F Value Prob>F Model 5 224.69314 44.93863 23.111 0.0001 Error 32 62.22384 1.94449
C Total 37 286.91697
Root MSE 1.39445 R-square 0.7831 Dep Mean 10.53111 Adj R-sq 0.7492 C.V. 13.24126
Parameter Estimates
Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1 27.390415 3.95086954 6.933 0.0001 DRIVE_R 1 -2.407964 0.79443447 -3.031 0.0048 CILINDRA 1 -0.001776 0.00057888 -3.068 0.0044 NUM_C 1 -0.462520 0.44158181 -1.047 0.3028 RIPRESA 1 -0.406254 0.18537862 -2.191 0.0358 PES_POT 1 332.025153 209.18758707 1.587 0.1223
Nella tabella Parameter Estimates sono riportate:
Parameter Estimate: stime puntuali dei coefficienti
0 e 1., cioè i valori di
b0eb1: Standard Error: stime puntuali delle standard deviation degi stimatori
B0eB1, cioè i
valori di
sB0 e sB1:
T for H0: Parameter=0 valore della statistica test per il test di nullità di ciascun coefficiente
0 e 1: 0 0
B0
t b
s e 1 1 B1
t b s
Prob > |T|
:p-value delle realizzaizoni campionarie
t0et1:
a) Calcolare un intervallo di confidenza per ciascuno del coefficienti d el modello
0 e
1.MODÈLE LINÉAIRE - TD 4 Nom
Alcune osservazioni sulla distribuzione degli stimatori dei coefficienti
Consideriamo un modello di regressione lineare con
p1variabili esplicative:
0 1x1 p1xp1
y
Supponiamo che i dati osservati siano riferiti a un campione di una popolazione.
Si può dimostrare che, se i residui hanno distribuzione normale e sono non correlati tra loro --cioè
i~ N ( 0 , ) -- allora la variabile casuale
Bk, stimatore del coefficiente
k, ha una distribuzione tale che la variabile casuale
k k k
S B
ha distribuzione t di Student a n gradi di libertà, dove con p
Sksi è indicato lo stimatore della varianza di
Bk.
--- Si considerino i dati relativi a 38 auto riguardanti:
nazione di fabbricazione
tipo di auto
percorrenza (chilometri percorsi con un litro di carburante)
peso (in kg)
rapporto di trasmissione al ponte (drive ratio)
potenza (in HP)
cilindrata (in cm
3)
numero cilindri
ripresa (secondi impiegati per percorrere da fermo un quarto di miglio cioè 402 m)
I dati sono tratti dall'articolo: H.V. Henderson & P.F. Velleman, Building Multiple Regression Models Interactively, Biometrics, 1981, p. 400.
Di seguito è riportato un output SAS relativo alla regressione della variabile percorrenza rispetto alle variabili esplicative: drive ratio, cilindrata, numero cilindri, ripresa, peso/potenza.
Dependent Variable: PERCORRE
Analysis of Variance Sum of Mean
Source DF Squares Square F Value Prob>F Model 5 224.69314 44.93863 23.111 0.0001 Error 32 62.22384 1.94449
C Total 37 286.91697
Root MSE 1.39445 R-square 0.7831 Dep Mean 10.53111 Adj R-sq 0.7492 C.V. 13.24126
Parameter Estimates
Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1 27.390415 3.95086954 6.933 0.0001 DRIVE_R 1 -2.407964 0.79443447 -3.031 0.0048 CILINDRA 1 -0.001776 0.00057888 -3.068 0.0044 NUM_C 1 -0.462520 0.44158181 -1.047 0.3028 RIPRESA 1 -0.406254 0.18537862 -2.191 0.0358 PES_POT 1 332.025153 209.18758707 1.587 0.1223
Nella tabella Parameter Estimates sono riportate le stime puntuali:
dei singoli coefficienti, cioè i valori di
b0,b1,,b5, nella colonna Parameter Estimate
delle standard deviation dei singoli coefficienti, cioè i valori di
s0,s1,,s5nella colonna
Standard Error12
ESERCIZIO 1
Calcolare un intervallo di confidenza a livello del 95% per ciascun coefficiente
0,
1,,
5.
Coefficiente
0:
Coefficiente
1:
Coefficiente
2:
Coefficiente
3:
Coefficiente
4:
Coefficiente
5:
ESERCIZIO 2
Effettuare un test a livello di significatività del 5% per verificare la nullità di ciascun coefficiente
5 1
0,
, ,
.
H0:
k 0contro
H1:
k 0 Coefficiente
0:
Coefficiente
1:
Coefficiente
2:
Coefficiente
3:
Coefficiente
4:
Coefficiente
5:
ESERCIZIO 2
Effettuare un test a livello di significatività del 5% per verificare l’ugualianza dei coefficienti
3e
4:
4 3 0
:
H
contro
H1:
3
4.
Come statistica test si utilizzi la variable casuale
B3
B4standardizzata, cioè
3 4
4 3 4 3
ˆ d B B t
s B B
,
MODÈLE LINÉAIRE - TD 5
Nom
ESERCIZIO 1
Si consideri nuovamente il modello lineare che esprime il consumo di ossigeno da parte di atleti che praticano sport di fondo in dipendenza da variabili esplicative facilmente rilevabili anche sul campo.
Inizialmente si costruisce un modello con variabili esplicative: ETA, PESO, TEMPO, PULS_FER, PULS_MED, PULS_MAX . I risultati della regressione sono i seguenti.
Model: MODEL1
Dependent Variable: OSS Analysis of Variance Sum of Mean
Source DF Squares Square F Value Prob>F Model 6 722.54361 120.42393 22.433 0.0001 Error 24 128.83794 5.36825
C Total 30 851.38154
Root MSE 2.31695 R-square 0.8487 Dep Mean 47.37581 Adj R-sq 0.8108 C.V. 4.89057
Parameter Estimates
Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1 102.934479 12.40325810 8.299 0.0001 ETA 1 -0.226974 0.09983747 -2.273 0.0322 PESO 1 -0.074177 0.05459316 -1.359 0.1869 TEMPO 1 -2.628653 0.38456220 -6.835 0.0001 PUL_FER 1 -0.021534 0.06605428 -0.326 0.7473 PUL_MED 1 -0.369628 0.11985294 -3.084 0.0051 PUL_MAX 1 0.303217 0.13649519 2.221 0.0360
Dai test di nullità dei singoli coefficienti risulta che singolarmente possono essere considerate ininfluenti, a livello del 5% le variabili variabili PESO e PUL_FER e a livello dell’1% anche le variabili ETA e PUL_MAX.
Si ipotizza quindi che i coefficienti relativi a queste 4 variabili siano contemporaneamente nulli e si effettua una regressione senza le 4 variabili.
I risultati della regressione lineare eseguita sul modello ridotto sono i seguenti.
14
Model: MODEL1
Dependent Variable: OSSIGENO Analysis of Variance Sum of Mean
Source DF Squares Square F Value Prob>F Model 2 648.26218 324.13109 44.681 0.0001 Error 28 203.11936 7.25426
C Total 30 851.38154
Root MSE 2.69337 R-square 0.7614 Dep Mean 47.37581 Adj R-sq 0.7444 C.V. 5.68513
Parameter Estimates
Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1 93.088766 8.24882295 11.285 0.0001 TEMPO 1 -3.140188 0.37326470 -8.413 0.0001 PULS_MED 1 -0.073509 0.05051438 -1.455 0.1567
Si commenti l’output.
1.1 Si effettui un test di Fisher sulla nullità dei parametri relativi alle variabili ETA, PESO, PUL_FER e PUL_MAX. A tal fine, si determinino i gradi di libertà del denominatore utilizzando la tabella ANOVA.
Quale è il valore campionario assunto dalla statistica test? Osservando le tavole della Fisher, si accetta o si rifiuta l’ipotesi principale? Il modello ridotto è quindi accettabile, cioè non fa perdere informazioni significative rispetto al modello completo?
1.2 Si calcoli il valore predetto per l’ossigeno nel modello ridotto per la quarta unità sperimentale e il residuo corrispondente.
OBS SESSO ETA PESO OSS TEMPO PUL_FER PUL_MED PUL_MAX 4 f 42 68.15 59.571 8.17 40 166 172
MODÈLE LINÉAIRE – TD 5
Nom
ESERCIZIO 2
Si vuole studiare se una variabile casuale Y possa avere una dipendenza lineare da 4 variabili esplicative, indicate con X1, X2, X3 e X4.
MODELLO 1. Si effettua una regressione lineare considerando un modello con costante e con variabili esplicative X1, X2, X3 e X4. I risultati sono i seguenti:
Analysis of Variance Sum of Mean
Source DF Squares Square F Value Prob>F Model 4 887.27763 221.81941 7506.041 0.0001 Error 105 3.10297 0.02955
C Total 109 890.38060
Root MSE 0.17191 R-square 0.9965 Dep Mean 40.20930 Adj R-sq 0.9964 C.V. 0.4275
Parameter Estimates Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1 20.779155 0.13504999 153.863 0.0001 X1 1 0.012495 0.00010338 120.873 0.0001 X2 1 -0.143898 0.38621580 -0.373 0.7102 X3 1 0.012429 0.00010066 123.473 0.0001 X4 1 0.006459 0.00765082 0.844 0.4005
Nella tabella Analysis of Variance:
- nella colonna DF si trovano i gradi di libertà dei vettori Xby (in corrispondenza di Model), yXb (in corrispondenza di Error) e
y
y (in corrispondenza di C Total)
- nella colonna Sum of Squares, in corrispondenza della riga Error, si trova la somma dei quadrati dei residui - nella colonna F Value si trova la quantità SSRSSSSC
C
n pp1,avendo indicato rispettivamente con SSC e SSR la somma dei quadrati dei residui nel modello completo e quella nel modello costituito dalla sola costante, avendo indicato con n il n. delle osservazioni e con p il n. dei coefficienti da stimare.
Nella tabella Parameter Estimates:
- Nella colonna Variable si trovano i nomi delle variabili esplicative (compresa la costante).
Per ogni riga (cioè in corrispondenza di ogni variabile indicata nella colonna Variable):
- nella colonna Parameter Estimate si trova la stima del coefficienti bk ;
- nella colonna Standard Error si trova la stimask delle deviazione standard degli stimatori Bk ;
- nella colonna T for H0 si trova il valoretk bk /sk ;
- nella colonna Prob > |T| si trova la probabilità che una variabile casuale T con distribuzione t di Student, con gradi di libertàn
p, assuma valori inferiori a -tk o superiori a tk , cioè IP ( T tk), avendo indicato conn
il numero delle osservazioni e con p ilnumero dei coefficienti da stimare.
16
Qui sotto è riportato il grafico dei residui studentizzati rispetto ai valori della regressione.
2.1. In base ai dati precedenti stabilire se il modello è buono. Indicare eventuali possibili trasformazioni delle variabili. Spiegare nei dettagli quali dati si sono considerati
MODELLO 2.
E’ stata effettua una opportuna trasformazione di una o più variabili, ottenendo i seguenti risultati.
Sono ora indicate con Y, X1, X2, X3 e X4 le variabili precedenti o loro trasformazioni.
Analysis of Variance Sum of Mean
Source DF Squares Square F Value Prob>F Model 4 5705173.0499 1426293.2625 15127.775 0.0001 Error 105 9899.72372 94.28308
C Total 109 5715072.7736
Y2 = 20.779 +0.0125 X1 -0.1439 X2 +0.0124 X3 +0.0065 X4
N110 Rsq0.9965 AdjRsq 0.9964 Rt MSE 0.1719
-4 -3 -2 -1 0 1 2 3
Predicted Value of Y
32 34 36 38 40 42 44 46 48
Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1 73.699471 7.62811335 9.662 0.0001 X1 1 1.001831 0.00583908 171.573 0.0001 X2 1 -9.342434 21.81487039 -0.428 0.6693 X3 1 0.996904 0.00568556 175.340 0.0001 X4 1 1.241956 0.43214615 2.874 0.0049
2.2. In base ai dati precedenti stabilire se il modello 2 è buono. Spiegare nei dettagli quali dati si sono considerati
18
Y = 7 3 . 6 9 9 +1 . 0 0 1 8 X 1 - 9 . 3 4 2 4 X 2 + 0 . 9 9 6 9 X 3 + 1 . 2 4 2 X 4
N 1 1 0 R s q 0 . 9 9 8 3 A d j R s q 0 . 9 9 8 2 R t MS E 9 . 7 0 9 9
- 3 - 2 - 1 0 1 2 3
P r e d i c t e d V a l u e o f Y
1 0 0 0 1 2 0 0 1 4 0 0 1 6 0 0 1 8 0 0 2 0 0 0 2 2 0 0 2 4 0 0
MODELLO 3.
Si effettua quindi una regressione considerando un modello con variabili esplicative X1 e X3.
I risultati di questa regressione lineare sono i seguenti:
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Prob>F Model 2 5704393.8801 2852196.9401 28578.342 0.0001 Error 107 10678.89351 99.80274
C Total 109 5715072.7736
Root MSE 9.99013 R-square 0.9981 Dep Mean 1624.88231 Adj R-sq 0.9981 C.V. 0.61482
Parameter Estimates
Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1 62.110609 6.65562361 9.332 0.0001 X1 1 1.003832 0.00592485 169.427 0.0001 X3 1 0.994821 0.00579988 171.524 0.0001
2.3. Utilizzando questi dati e i precedenti effettuare il test di Fisher, a livello del 5%, per verificare se il modello ridotto senza le variabili X2 e X4 è buono (esplicitare il procedimento)
2.4. Si consideri il modello ridotto. Una osservazione ha i seguenti valori:
Y=1417.25 X1=520.31 X3=839.75
a) Calcolare il valore di Y della regressione (arrotondare i dati alla prima cifra decimale)
b) Calcolare il valore del residuo (arrotondare i dati alla prima cifra decimale)
c) Sapendo che lo standard error di tale residuo è 9.90, calcolare il residuo studentizzato.
2.5. Calcolare un intervallo di confidenza a livello del 5% per il parametro della variabile X1 del
modello ridotto.
MODÈLE LINÉAIRE - TD 6
Nom
ESERCIZIO 1
Si consideri il modello lineare che esprime il tempo di vita (in ore) di un batterio in funzione dell’ossigeno disciolto nell’acqua di coltura (in milligrammi). L’output SAS della proc reg è il seguente.
E’ indicata anche la matrice di varianza-covarianza dei coefficienti.
The REG Procedure Dependent Variable: ore_vita Analysis of Variance Sum of Mean
Source DF Squares Square F Value Pr > F Model 1 30.60514 30.60514 63.28 <.0001 Error 16 7.73891 0.48368
Corrected Total 17 38.34404
Root MSE 0.69547 R-Square 0.7982 Dependent Mean 9.93444 Adj R-Sq 0.7856 Coeff Var 7.00062
Parameter Estimates Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 -12.81867 2.86507 -4.47 0.0004 mg_ossig 1 1.52404 0.19159 7.95 <.0001 Covariance of Estimates
Variable Intercept mg_ossig Intercept 8.208636928 -0.548028813 mg_ossig -0.548028813 0.0367079174
1. Commentare i risultati e dire se la dipendenza lineare è significativa.
Si vuole prevedere il tempo di vita per due nuove osservazioni delle quali si hanno solo i valori di ossigeno disciolto. Tali valori sono
x19 14 . 38 e
x20 16 . 92 .
2. Calcolare le stime di
y19e
y20.
3. Calcolare l’intervallo di confidenza a livello 90% per la media di
y19e per la media di
y20.
4. Calcolare l’intervallo di confidenza a livello 90% per il valore predetto di
y19e per il valore predetto di
y20.
20
MODÈLE LINÉAIRE - TD 8 Nom
Si consideri una variabile quantativa Y e un fattore A a 3 livelli (indicati con 1, 2 e 3 ) La variabile Y in un campione assume i valori
riportati a finco, suddivisi a seconda dei livelli del fattore A.
Si consideri un modello di analisi della varianza a una via:
ik i
yik
con
i1,,3 k 1,21 2
7
2 5
9
3 3
4
1.1 Si scriva in modo esteso il modello in forma matriciale per i dati campionari (scrivere la matrice del disegno di rango pieno):
X* *
y
1.2 Si stimino i parametri ricordando che la stima di è la media generale della variabile risposta e la stima di
iè la differenza fra la media del livello i e la media generale.
1.3 Si calcolino i valori stimati per la variabile risposta e i corrispondenti residui.
1.4 Si effettui il test di non influenza del fattore sulla variabile risposta a livello di significatività del 5%.
Ricordare che il numeratore della statistica test - esclusi i gradi di libertà - è:
22 3
..
y
i. y
MODÈLE LINÉAIRE - TD 9 Nom
Si consideri una variabile quantativa Y e due fattori: A a 3 livelli e B a due livelli La variabile Y in un campione assume i valori
riportati a finco, suddivisi a seconda dei livelli del fattore A.
Si consideri un modello di analisi della varianza a due vie con interazione.:
ijk ij j i
yijk
con
2 , 1 2 , 1 3 , ,
1
j k
i
Qui sotto è riportato l’output SAS dell’analisi della varianza
a b y
1 1 3
1 1 6
1 2 3
1 2 4
1 3 7
1 3 8
2 1 1
2 1 2
2 2 2
2 2 3
2 3 5
2 3 6
Output SAS:
Analysis of Variance Procedure Class Level Information Class Levels Values A 2 1 2 B 3 1 2 3
Number of observations in data set = 12 Dependent Variable: Y
Source DF Sum of Squares Mean Square F Value Pr > F Model 5 46.66666667 9.33333333 8.00 0.0125 Error 6 7.00000000 1.16666667
Corrected Total 11 53.66666667
R-Square C.V. Root MSE Y Mean 0.869565 25.92296 1.08012345 4.16666667 Source DF Anova SS Mean Square F Value Pr > F A 1 12.00000000 12.00000000 10.29 0.0184 B 2 32.66666667 16.33333333 14.00 0.0055 A*B 2 2.00000000 1.00000000 0.86 0.4705
2.1 Commentare i risultati.
2.2 Scrivere la tabella dell’analisi della varianza per il modello con il solo fattore B:
jk j
yjk
con
j1,2 k1,322