1 Regressione multipla
Supponiamo di avere una tabella di numeri del tipo X
1::: X
pY 1 x
1;1::: x
1;py
12 x
2;1x
2;py
2::: :::
n x
n;1x
n;py
ndove le colonne rappresentano diverse variabili (ad esempio X
1= reddito, ... , X
p= numero anni istruzione, Y = spese per mostre e musei), le righe rappresentano diversi “individui” (ad esempio singole persone, oppure città o regioni di una nazione) ed i valori numerici sono noti, sono stati misurati.
Ci chiediamo se le variabili X
1; :::; X
pin‡uiscono su Y . Ci chiediamo se Y dipende da X
1; :::; X
p. Un maggior reddito induce a maggiori spese per mostre e musei? Ed un maggior gradi di istruzione (lì misurato semplicemente come numero di anni si studio)?
Immaginiamo che le variabili siano legate da una relazione funzionale, a meno di errore:
Y = f (X
1; :::; X
p) + ":
Più speci…camente, per semplicità, supponiamo che la relazione sia lineare:
Y = a
1X
1+ ::: + a
pX
p+ b + "
(b è detta intercetta, e nel caso p = 1 il coe¢ ciente a := a
1è detto coe¢ ciente angolare).
A partire dalla matrice dei dati, relativamente ad una scelta dei coe¢ cienti a
1; :::; a
p; b, possiamo calcolare i residui
"
i= y
i(a
1x
i;1+ ::: + a
px
i;p+ b)
al variare dell’individuo i = 1; :::; n. Possiamo poi calcolare lo scarto quadratico medio dei residui, ancora funzione dei parametri a
1; :::; a
p; b,
SQM (a
1; :::; a
p; b) = 1 n
X
n i=1"
2i= 1 n
X
n i=1(y
i(a
1x
i;1+ ::: + a
px
i;p+ b))
2:
La grandezza SQM (a
1; :::; a
p; b) misura la bontà del modello lineare Y = a
1X
1+ ::: + a
pX
p+ b + ": se piccola, il modello è buono. Allora, innanzi tutto cerchiamo i parametri a
1; :::; a
p; b che la rendono minima. Essi forniscono il migliore tra i modelli lineari. Indichiamo con ba
1; :::; ba
p; b b i parametri ottimali. Chiamiamo
Y = ba
1X
1+ ::: + ba
pX
p+ b b + "
il modello di regressione lineare multipla (regressione lineare semplice nel caso n = 1) associato alla tabella precedente. La varianza dell’errore, o dei residui, è
2
"
= SQM ba
1; :::; ba
p; b b = 1 n
X
n i=1b"
2i1
dove
b"
i= y
iba
1x
1;i+ ::: + ba
px
p;i+ b b : La varianza spiegata, o indice R
2, è
R
2= 1
2"
2Y
dove
2Yè la varianza dei dati y
1; :::; y
n. L’idea è che i dati y
1; :::; y
nhanno una loro variabilità, descritta da
2Y, in situazione di completa ignoranza; ma quando abbiamo a disposizione un modello, esso spiega i dati y
1; :::; y
nin una certa misura, cioè a meno degli errori b"
1; :::; b"
n. Quindi la variabilità di questi errori è la variabilità inspiegata, residua. Da qui il nome di (percentuale di) varianza spiegata per il numero 1
22"Y
.
1.1 Calcolo dei coe¢ cienti
Il metodo con cui abbiamo de…nito ba
1; :::; ba
p; b b si dice metodo dei minimi quadrati.
Si possono scrivere delle formule esplicite per il calcolo di questi coe¢ cienti.
Infatti, siccome vogliamo minimizzare la funzione SQM (a
1; :::; a
p; b), che per brevità indichiamo con f (a
1; :::; a
p; b), deve valere
@f
@a
jba
1; :::; ba
p; b b = 0; j = 1; :::; p
@f
@b ba
1; :::; ba
p; b b = 0:
Vale
@f
@a
j= 2
n X
n i=1(y
i(a
1x
i;1+ ::: + a
px
i;p+ b)) x
i;j= 2
n hy; x
ji + 2
n a
1hx
;1; x
;ji + ::: + 2
n a
phx
;p; x
;ji + 2bx
j@f
@b = 2
n X
n i=1(y
i(a
1x
1;i+ ::: + a
px
p;i+ b))
= 2y + 2a
1x
1+ ::: + 2a
px
p+ 2b
dove y è la media degli y
1; :::; y
ne, per ciascun j = 1; :::; p, x
jè la media degli x
1;j; :::; x
n;j; ed inoltre abbiamo posto
hy; x
;ji = X
n i=1y
ix
i;j; hx
;k; x
;ji = X
ni=1