• Non ci sono risultati.

1 Regressione multipla

N/A
N/A
Protected

Academic year: 2021

Condividi "1 Regressione multipla"

Copied!
4
0
0

Testo completo

(1)

1 Regressione multipla

Supponiamo di avere una tabella di numeri del tipo X

1

::: X

p

Y 1 x

1;1

::: x

1;p

y

1

2 x

2;1

x

2;p

y

2

::: :::

n x

n;1

x

n;p

y

n

dove le colonne rappresentano diverse variabili (ad esempio X

1

= reddito, ... , X

p

= numero anni istruzione, Y = spese per mostre e musei), le righe rappresentano diversi “individui” (ad esempio singole persone, oppure città o regioni di una nazione) ed i valori numerici sono noti, sono stati misurati.

Ci chiediamo se le variabili X

1

; :::; X

p

in‡uiscono su Y . Ci chiediamo se Y dipende da X

1

; :::; X

p

. Un maggior reddito induce a maggiori spese per mostre e musei? Ed un maggior gradi di istruzione (lì misurato semplicemente come numero di anni si studio)?

Immaginiamo che le variabili siano legate da una relazione funzionale, a meno di errore:

Y = f (X

1

; :::; X

p

) + ":

Più speci…camente, per semplicità, supponiamo che la relazione sia lineare:

Y = a

1

X

1

+ ::: + a

p

X

p

+ b + "

(b è detta intercetta, e nel caso p = 1 il coe¢ ciente a := a

1

è detto coe¢ ciente angolare).

A partire dalla matrice dei dati, relativamente ad una scelta dei coe¢ cienti a

1

; :::; a

p

; b, possiamo calcolare i residui

"

i

= y

i

(a

1

x

i;1

+ ::: + a

p

x

i;p

+ b)

al variare dell’individuo i = 1; :::; n. Possiamo poi calcolare lo scarto quadratico medio dei residui, ancora funzione dei parametri a

1

; :::; a

p

; b,

SQM (a

1

; :::; a

p

; b) = 1 n

X

n i=1

"

2i

= 1 n

X

n i=1

(y

i

(a

1

x

i;1

+ ::: + a

p

x

i;p

+ b))

2

:

La grandezza SQM (a

1

; :::; a

p

; b) misura la bontà del modello lineare Y = a

1

X

1

+ ::: + a

p

X

p

+ b + ": se piccola, il modello è buono. Allora, innanzi tutto cerchiamo i parametri a

1

; :::; a

p

; b che la rendono minima. Essi forniscono il migliore tra i modelli lineari. Indichiamo con ba

1

; :::; ba

p

; b b i parametri ottimali. Chiamiamo

Y = ba

1

X

1

+ ::: + ba

p

X

p

+ b b + "

il modello di regressione lineare multipla (regressione lineare semplice nel caso n = 1) associato alla tabella precedente. La varianza dell’errore, o dei residui, è

2

"

= SQM ba

1

; :::; ba

p

; b b = 1 n

X

n i=1

b"

2i

1

(2)

dove

b"

i

= y

i

ba

1

x

1;i

+ ::: + ba

p

x

p;i

+ b b : La varianza spiegata, o indice R

2

, è

R

2

= 1

2"

2Y

dove

2Y

è la varianza dei dati y

1

; :::; y

n

. L’idea è che i dati y

1

; :::; y

n

hanno una loro variabilità, descritta da

2Y

, in situazione di completa ignoranza; ma quando abbiamo a disposizione un modello, esso spiega i dati y

1

; :::; y

n

in una certa misura, cioè a meno degli errori b"

1

; :::; b"

n

. Quindi la variabilità di questi errori è la variabilità inspiegata, residua. Da qui il nome di (percentuale di) varianza spiegata per il numero 1

22"

Y

.

1.1 Calcolo dei coe¢ cienti

Il metodo con cui abbiamo de…nito ba

1

; :::; ba

p

; b b si dice metodo dei minimi quadrati.

Si possono scrivere delle formule esplicite per il calcolo di questi coe¢ cienti.

Infatti, siccome vogliamo minimizzare la funzione SQM (a

1

; :::; a

p

; b), che per brevità indichiamo con f (a

1

; :::; a

p

; b), deve valere

@f

@a

j

ba

1

; :::; ba

p

; b b = 0; j = 1; :::; p

@f

@b ba

1

; :::; ba

p

; b b = 0:

Vale

@f

@a

j

= 2

n X

n i=1

(y

i

(a

1

x

i;1

+ ::: + a

p

x

i;p

+ b)) x

i;j

= 2

n hy; x

j

i + 2

n a

1

hx

;1

; x

;j

i + ::: + 2

n a

p

hx

;p

; x

;j

i + 2bx

j

@f

@b = 2

n X

n i=1

(y

i

(a

1

x

1;i

+ ::: + a

p

x

p;i

+ b))

= 2y + 2a

1

x

1

+ ::: + 2a

p

x

p

+ 2b

dove y è la media degli y

1

; :::; y

n

e, per ciascun j = 1; :::; p, x

j

è la media degli x

1;j

; :::; x

n;j

; ed inoltre abbiamo posto

hy; x

;j

i = X

n i=1

y

i

x

i;j

; hx

;k

; x

;j

i = X

n

i=1

x

i;k

x

i;j

:

Quindi deve valere

a

1

hx

;1

; x

;j

i + ::: + a

p

hx

;p

; x

;j

i + nbx

j

= hy; x

;j

i ; i = 1; :::; p a

1

x

1

+ ::: + a

p

x

p

+ b = y

2

(3)

Questo è un sistema di p + 1 equazioni lineari in p + 1 incognite, che il software risolve con facilità.

Si può anche introdurre la matrice A quadrata a p + 1 righe e colonne ed il vettore w

A = 0 B B

@

hx

;1

; x

;1

i ::: hx

;p

; x

;1

i hx

;1

; 1i

::: ::: ::: :::

hx

;1

; x

;p

i ::: hx

;p

; x

;p

i hx

;p

; 1i hx

;1

; 1i ::: hx

;p

; 1i 1

1 C C

A ; w =

0 B B

@

hy; x

;1

i :::

hy; x

;p

i hy; 1i

1 C C A

dove 1 indica il vettore con tutti “1”, ed y è il vettore delle y

i

. Allora il calcolo del vettore

v = 0 B B

@ ba

1

:::

ba

p

bb

1 C C A

si può vedere come la risoluzione di

Av = w:

In…ne, la matrice A si ottiene col prodotto A = X

T

X dove

X = 0 B B

@

x

1;1

::: x

1;p

1 x

2;1

x

2;p

1

:::

x

n;1

x

n;p

1 1 C C A :

Si noti che questa è la matrice iniziale dei dati dove al posto delle y

i

abbiamo messo 1. Inoltre,

w = X

T

y:

Quindi il problema ha la forma

X

T

Xv = X

T

y:

1.2 Il caso in cui le X

i

sono aleatorie

Quando scriviamo il modello

Y = a

1

X

1

+ ::: + a

p

X

p

+ b + "

abbiamo due opzioni di ragionamento, entrambe perseguibili ed utili.

La prima è che i valori assunti dalle variabili X

i

siano deterministici, ad esempio …ssati dallo sperimentatore che vuole esaminare l’e¤etto di queste vari- abili sulla Y . In questo caso, solo la Y è, in un certo senso, aleatoria, se pensiamo aleatorio l’errore ".

3

(4)

Oppure, possiamo immaginare che le X

i

siano aleatorie quanto " (e quindi Y ) e noi eseguiamo misurazioni di tutte queste grandezze aleatorie. In questa seconda ottica, ha senso eseguire il seguente calcolo.

Calcoliamo la covarianza tra Y ed X

j

:

Cov (Y; X

j

) = Cov (a

1

X

1

+ ::: + a

p

X

p

+ b + "; X

j

)

= a

1

Cov (X

1

; X

j

) + ::: + a

p

Cov (X

p

; X

j

) + Cov ("; X

j

) : Ricordiamo che la matrice Q = (Cov (X

i

; X

j

)) è detta matrice di covarianza del vettore aleatorio X. Supponiamo che " sia indipendente (o almeno scorrelato) da ciascuna X

j

. Troviamo

Cov (Y; X

j

) = X

p i=1

Q

ij

a

i

= X

p i=1

Q

ji

a

i

(ricordiamo che Q è simmetrica). Detto c il vettore di coordinate Cov (Y; X

j

) ed a il vettore di coordinate a

i

abbiamo trovato

Qa = c:

Quindi

a = Q

1

c:

Questo risultato fornisce un modo per calcolare i coe¢ cienti a

i

a partire da una matrice di dati. Si calcola la matrice di covarianza empirica b Q della matrice di dati riguardante le variabili X

i

, si calcola il vettore bc delle covarianze empriche tra le variabili X

j

ed Y , e si calcolano i valori

ba = b Q

1

bc:

Poi, per calcolare b, serve una nuova equazione. Essa si trova semplice- mente calcolando il valor medio a destra e sinistra dell’equazione che de…nisce il modello:

E [Y ] = a

1

E [X

1

] + ::: + a

p

E [X

p

] + b:

Allora vale

b = E [Y ] (a

1

E [X

1

] + ::: + a

p

E [X

p

]) da cui si può calcolare un valore empirico b b a partire dai dati.

Con un po’di sforzo si potrebbe riconoscere che il risultato è identico a quello ottenuto sopra con i minimi quadrati. Ci si chiede allora: cosa ha sostituito, qui, la richiesta fatta sopra che i valori ottimali fossero quelli che minimizzavano SQM? L’indipendenza tra " e le X

i

. Se per certi valori dei parametri risulta "

indipendente dalle X

i

, signi…ca che il modello è buono, nel senso che abbiamo sfruttato nel modo migliore le informazioni contenute nelle X

i

, senza ritrovarci parte di quelle informazioni nel resto ". Il resto contiene ciò che non siamo riusciti a spiegare, e non è nullo, ma l’importante è che non contenga residui legati alle variabili X

i

, altrimenti signi…ca che c’era un’altro modo di usare le X

i

più e¢ ciente.

4

Riferimenti

Documenti correlati

Le Spese medie annue per ciascuna Categoria sono calcolate dividendo il totale delle spese delle qualifiche appartenenti alla categoria per le unità di riferimento (mensilità

Procedura ristretta per la stipula di un contratto quadro per l’affidamento dei servizi relativi al “disaster recovery” dei sistemi informativi

Le Spese medie annue per ciascuna Categoria sono calcolate dividendo il totale delle spese delle qualifiche appartenenti alla categoria per le unità di riferimento (mensilità

179 Valore unitario su base annua della retribuzione di posizione previsto per la fascia meno elevata (euro) 161 Valore unitario su base annua della retribuzione di posizione

137 Importo totale della retribuzione di risultato erogata a valere sul fondo dell'anno di rilevazione (euro) 177996 115 Importo totale della retribuzione di risultato non erogata

137 Importo totale della retribuzione di risultato erogata a valere sul fondo dell'anno di rilevazione (euro) 83688 115 Importo totale della retribuzione di risultato non erogata

357 Importo del limite 2016 riferito alla presente macrocategoria come certificato dall'organo di controllo in sede di validazione del fondo/i dell'anno corrente (euro) 302928

Si pu` o anche dire che il rango della matrice `e il massimo numero di righe o colonne linearmente indipendenti, o anche il massimo ordine dei minori non nulli della matrice