Regressione Lineare
parte 2
Corso di
Misure Meccaniche e Termiche
David Vetturi
La quantità e2 indica quanto il modello non è in grado di spiegare la variabilità delle Y complessivamente.
Tale “errore” può essere mediato fra tutti gli m punti osservati e dunque
Varianza residua:
Il modello generato attraverso il metodo dei minimi quadrati descrive la variabilità della grandezza Y che può essere pensata essere funzione diretta di X.
m
k
k k
m
k
k y y x
1
2 1
2
2 e
e
n m
x y y
n m
m
k
k k
m
k
k
1
2 1
2 2
0
e
Il metodo della stima ai
Minimi Quadratipresentato permette di valutare la ennupla di parametri (a
1, a
2… a
n) che identifica il modello funzionale di relazione fra Y e X all’interno delle funzioni di uno spazio vettoriale generato da una base di funzioni (j
1, j
2… j
n)
Regressione lineare
Si può pensare cha la serie di m punti (x
k,y
k) sia estratta dalla distribuzione congiunta f
xy(x,y) e che ne rappresenti un campione.
Per ogni campione estratto dalla popolazione X-Y il metodo associa una ennupla (a
1, a
2… a
n) che può essere vista come una variabile casuale a n- dimensioni funzione (attraverso il metodo) della VC doppia X-Y
La quantità
02indica la variabilità non spiegata
dal modello e permette di valutare la variabilità
dei parametri a (
variabile casuale a n-dimensioni).
Nel caso in cui le funzioni di base risultano fra loro ortogonali le quantità ai risultano tra loro indipendenti e la loro varianza vale:
m
k
k i x
i
1
2 2
2 0
j
a
2 1 0
A
Caa
Mentre nel caso generale in cui le funzioni di base non sono fra loro ortogonali si ha che la matrice di covarianza della variabile casuale a a n dimensioni è data da:
dove Caa è la matrice di covarianza e A la matrice del sistema lineare che permette di valutare i parametri a
Varianza dei parametri a :
Analogamente al caso dei parametri a, anche il modello che questi definiscono è funzione del
“campione” estratto da X-Y.
La varianza dei parametri può essere dunque propagata sul modello y(x).
Per ogni valore di x si ha:
21
2 2
)
( i
n
i
i x
y j x a
Varianza del modello:
Tx
y j C j
( )2 aa
j j1(x) j2(x) .. jn(x)
Mentre nel caso generale in cui le funzioni di base non sono fra loro ortogonali si ha:
dove
Varianza del modello:
Se il modello viene utilizzato per fare previsioni, ovvero se viene utilizzato per valutare il valore di y in corrispondenza di una certa ascissa x si ha che le cause di variabilità sono due:
- la variabilità del modello 2y(x)
- la variabilità delle Y non spiegata dal modello 20 e dunque:
2 0 2
) (
2
y y x
prev
Varianza della previsione:
Come mostrato precedentemente è possibile calcolare i parametri della retta ai minimi quadrati a partire dai punti (xk,yk) dati. Lo scarto indica quanto il modello non è in grado di spiegare la variabilità delle ordinate.
x y y(x) scarto
0.8 21 31.30 -10.30 2.5 36 38.95 -2.95
3.8 53 44.80 8.20
5.3 48 51.56 -3.56
6.8 61 58.31 2.69
8.2 78 64.61 13.39
10.3 77 74.07 2.93
12.6 75 84.42 -9.42
14.7 99 93.88 5.12
18.3 104 110.09 -6.09
Retta ai minimi quadrati:
esempio numerico - continuazione
Come abbiamo visto la quantità e2 indica quanto il modello non è in grado di spiegare la variabilità delle Y complessivamente e in questo caso:
541.71
2 1
2
2
m
k
k k
m
k
k y y x
e e
7 . 8 67
7 .
1 541
2 1
2 2
0
n m
x y y
n m
m
k
k k
m
k
ek
e dunque la varianza non spiegata dal modello è:
Come abbiamo visto la quantità e2 indica quanto il modello non è in grado di spiegare la variabilità delle Y complessivamente e in questo caso:
541.71
2 1
2
2
m
k
k k
m
k
k y y x
e e
7 . 8 67
7 .
1 541
2 1
2 2
0
n m
x y y
n m
m
k
k k
m
k
ek
e dunque la varianza non spiegata dal modello è:
I parametri stimati a1 e a2 che sono stati valutati sono:
e la varianza dei due parametri sono:
50 . 841 4
. 284
44 . 1282 )
( ) (
1
2 1
2
m
k
k m
k
k k
x x
x x
x y
a
2 . 10 65
) 652 (
1
1
m x y
m
k
a k
10 6.777 . 67
1
2 1
2 2 0
1
m
k
xk
j
a
284.841 0.23777 . 67
1
2 2
2 2 0
2
m
k
xk
j
a
.
Come è stato indicato precedentemente la varianza dei parametri può essere dunque propagata sul modello y(x). Analogamente per la varianza della previsione effettuata a partire dal modello.
Per ogni valore di x si ha:
21
2 2
)
( i
n
i
i x
y j x a
Retta ai minimi quadrati:
esempio numerico – varianza del modello
2 0 2
) (
2
y y x
. prev
attorno al modello possono essere individuate due fasce di ampiezza k.
che individuano rispettivamente:• inviluppo dei modelli probabili per la relazione y=y(x)
• luogo dei punti ipotizzabili come previsioni di y a partire dal modello y(x)