Regressione Lineare
parte 2
Corso di
Misure Meccaniche e Termiche
David Vetturi
La quantità 2 indica quanto il modello non è in grado di spiegare la variabilità delle Y complessivamente.
Tale “errore” può essere mediato fra tutti gli m punti osservati e dunque
Varianza residua:
Il modello generato attraverso il metodo dei minimi quadrati descrive la variabilità della grandezza Y che può essere pensata essere funzione diretta di X.
m
k
k k
m k
k y y x
1
2 1
2
2
n m
x y y
n m
m k
k k
m k
k
1
2 1
2 2
0
Il metodo della stima ai Minimi Quadrati presentato permette di valutare la ennupla di parametri (
1,
2…
n) che identifica il modello funzionale di relazione fra Y e X all’interno delle funzioni di uno spazio vettoriale generato da una base di funzioni (
1,
2…
n)
Regressione lineare
Si può pensare cha la serie di m punti (x
k,y
k) sia estratta dalla distribuzione congiunta f
xy(x,y) e che ne rappresenti un campione.
Per ogni campione estratto dalla popolazione X-Y il metodo associa una ennupla (
1,
2…
n) che può essere vista come una variabile casuale a n- dimensioni funzione (attraverso il metodo) della VC doppia X-Y
La quantità
02indica la variabilità non spiegata
dal modella e permette di valutare la variabilità
dei parametri (
variabile casuale a n-dimensioni).
Nel caso in cui le funzioni di base risultano fra loro ortogonali le quantità i risultano tra loro indipendenti e la loro varianza vale:
m
k
k i x
i
1
2 2
2 0
2 1 0
A
C
Mentre nel caso generale in cui le funzioni di base non sono fra loro ortogonali si ha che la matrice di covarianza della variabile casuale a n dimensioni è data da:
dove C è la matrice di covarianza e A la matrice del sistema lineare che permette di valutare i parametri
Varianza dei parametri :
Analogamente al caso dei parametri , anche il modello che questi definiscono è funzione del
“campione” estratto da X-Y.
La varianza dei parametri può essere dunque propagata sul modello y(x).
Per ogni valore di x si ha:
21
2 2
)
( i
n i
i x
y x
Varianza del modello:
Tx
y C
( )2
1(x) 2(x) .. n(x)
Mentre nel caso generale in cui le funzioni di base non sono fra loro ortogonali si ha:
dove
Varianza del modello:
Se il modello viene utilizzato per fare previsioni, ovvero se viene utilizzato per valutare il valore di y in corrispondenza di una certa ascissa x si ha che le cause di variabilità sono due:
- la variabilità del modello 2y(x)
- la variabilità delle Y non spiegata dal modello 20 e dunque:
2 0 2
) (
2
y y x
prev
Varianza della previsione:
Come mostrato precedentemente è possibile calcolare i parametri della retta ai minimi quadrati a partire dai punti (xk,yk) dati. Lo scarto indica quanto il modello non è in grado di spiegare la variabilità delle ordinate.
x y y(x) scarto
0.8 21 31.30 -10.30 2.5 36 38.95 -2.95
3.8 53 44.80 8.20
5.3 48 51.56 -3.56
6.8 61 58.31 2.69
8.2 78 64.61 13.39 10.3 77 74.07 2.93 12.6 75 84.42 -9.42 14.7 99 93.88 5.12 18.3 104 110.09 -6.09
Retta ai minimi quadrati:
esempio numerico - continuazione
Come abbiamo visto la quantità 2 indica quanto il modello non è in grado di spiegare la variabilità delle Y complessivamente e in questo caso:
541.71
2 1
2
2
m k
k k
m k
k y y x
7 . 8 67
7 .
1 541
2 1
2 2
0
n m
x y y
n m
m k
k k
m k
k
e dunque la varianza non spiegata dal modello è:
Come abbiamo visto la quantità 2 indica quanto il modello non è in grado di spiegare la variabilità delle Y complessivamente e in questo caso:
541.71
2 1
2
2
m k
k k
m k
k y y x
7 . 8 67
7 .
1 541
2 1
2 2
0
n m
x y y
n m
m k
k k
m k
k
e dunque la varianza non spiegata dal modello è:
I parametri stimati 1 e 2 che sono stati valutati sono:
e la varianza dei due parametri sono:
50 . 841 4
. 284
44 . 1282 )
( ) (
1
2 1
2
m k
k m
k
k k
x x
x x
x y
2 . 10 65
) 652 (
1
1
m x y
m k
k
10 6.777 . 67
1
2 1
2 2 0
1
m
k
xk
284.841 0.23777 . 67
1
2 2
2 2 0
2
m
k
xk
.
Come è stato indicato precedentemente la varianza dei parametri può essere dunque propagata sul modello y(x). Analogamente per la varianza della previsione effettuata a partire dal modello.
Per ogni valore di x si ha:
21
2 2
)
( i
n i
i x
y x
Retta ai minimi quadrati:
esempio numerico – varianza del modello
2 0 2
) (
2
y y x
. prev
attorno al modello possono essere individuate due fasce di ampiezza k. che individuano rispettivamente:
•inviluppo dei modelli probabili per la relazione y=y(x)
•luogo dei punti ipotizzabili come previsioni di y a partire dal modello y(x)