Scheda riassuntiva
MODELLO DI REGRESSIONE LINEARE
Dalla statistica descrittiva sappiamo che il coefficiente di correlazione fra due variabili
quantitativa X e Y indica l’esistenza o meno di un legame lineare fra di esse. Tale coefficiente è un indice simmetrico, ossia non permette di individuare se una delle due variabili sia
dipendente dalle altre (potrebbe anche esistere una terza variabile che è responsabile del legame lineare fra X e Y).
In alcune situazioni,la conoscenza dettagliata del problema in studio permette di supporre la dipendenza lineare di una variabile dall’altra. In tal caso si ipotizza un modello del tipo
yi=0+1xi+errore
in cui la variabile Y viene espressa come funzione lineare della variabile X più un residuo/errore.
La variabile Y viene detta variabile risposta e la variabile X viene detta variabile esplicativa.
I parametri 0 e 1 vengono scelti in modo che si minimizzi i residui(più correttamente la somma dei quadrati dei residui).
L’espressione esplicita della retta è
y ) x x )( Y , X y cov(
X
2
ed è detta retta di regressione di Y rispetto a X.
Questa costruzione si può estendere anche quando si vuol stabilire se la variabile Y è
esprimibile come combinazione lineare di X1,…,Xp-1 variabili + un residuo,ossia quando si voglio determinare 0, 1,…, p-1 parametri tali che in termini vettoriali
y=0+1x1+…+p-1xp-1+residuo
Anche in questo caso si cercano quei valori bi da sostituire a i che minimizzano l’errore e si può dimostrare che la soluzione è
Bi=((XtX)-1XtY)i
dove abbiamo indicato con Y un vettore colonna con i dati osservati relativi alla variabile Y, X una matrice (nxp dimensionale) formata da un vettore (colonna) di 1 e dai vettori (colonna) dei dati osservati per le singole variabili Xi (ordinate) e con Xt la trasposta di X.
Osservazione: si suppone che le colonne della matrice X siano linearmente indipendenti e questo garantisce che si possa calcolare l’inversa di XtX. Non è un’assunzione assurda perché se una colonna si potesse scrivere in funzione delle altre, allora tale variabile si potrebbe eliminare perché non apporta informazioni che non siano già contenute in altre variabili.
Esempio:
Riportiamo un esempio numerico. Supponiamo di avere i seguenti dati:
X1 X2 Y
11,60055311 9,461106222 8,74559779 10,48762255 8,72795831 9,283203796 9,7511214 12,32789342 10,43440477 8,909286386 8,400389991 10,56067231 8,791483644 10,3836561 8,90689146
In questo caso la matrice X è
1 11,60055311 9,461106222 1 10,48762255 8,72795831 1 9,7511214 12,32789342 1 8,909286386 8,400389991 1 8,791483644 10,3836561
e il vettore Y è
8,74559779
9,283203796 10,43440477 10,56067231 8,90689146
A questo punto per calcolare i coefficienti è sufficiente svolgere il prodotto di matrici.
Anche in questo caso, la variabile Y viene detta variabile risposta e le variabili Xi vengono dette variabili esplicative.
Uno strumento semplice per verificare che stiamo lavorando con un buon modello è analizzare il grafico dei residui rispetto ai valori predetti: se tale grafico è formato da una nuvolo di punti omogenei allora stiamo considerando un buon modello. Se la dipendenza della variabile risposta non fosse lineare ma ad esempio quadratica o logaritmica il grafico dei residui enfatizzerebbe questa dipendenza non lineare. Un altro elemento è il coefficiente R-sq (nell’aoutput di Minitab si trova prima della tabella Analysis of Variance), che misura la correlazione fra la Y e le Xi: quindi tanto più è alto (>65%) più il modello è buono.
Ora vogliamo applicare gli strumenti acquisiti della statistica inferenziale per approfondire lo studio del modello lineare. Per far questo, ipotizziamo che i valori di Y siano realizzazioni campionarie di una qualche variabile causale e che i residui siano l’effetto risultante di un gran numero di cause non identificate, quindi siano una perturbazione casuale (con media nulla).
Introducendo ipotesi (e altre) di questo tipo potremmo effettuare test relativi ai parametri 0, 1,
…, p-1. In particolare saremo interessati a capire quali variabili escludere o, analogamente, quali parametri si possono considerare nulli. In generale, infatti, si è interessati a individuare modelli che approssimino bene la variabile risposta con un numero sufficientemente ridotto di variabili esplicative.
Per concludere uno dei test
H0:k=0, H1:k0 è sufficiente confrontare i p-value dell’output di Minitab.
Esempio: Vediamo come si legge l’output Minitab per il modello di regressione lineare e cosa si può concludere.
Regression Analysis: y versus x1; x2; x3; x4
The regression equation is
y = 5,24 + 2,04 x1 - 4,06 x2 + 0,0053 x3 + 0,0114 x4
Predictor Coef SE Coef T P Constant 5,238 1,418 3,69 0,000 x1 2,03639 0,02577 79,04 0,000 x2 -4,06464 0,03094 -131,37 0,000 x3 0,00527 0,02624 0,20 0,841 x4 0,01136 0,03052 0,37 0,711
S = 0,963130 R-Sq = 99,6% R-Sq(adj) = 99,6%
Analysis of Variance
Source DF SS MS F P Regression 4 19519,9 4880,0 5260,74 0,000 Residual Error 75 69,6 0,9
Total 79 19589,4
In questo caso le variabili esplicative sono 4. I coefficienti stimati si leggono nella seconda colonna della prima tabella. La numerosità campionaria è 80 (si aggiunge un’unità all’ultima
10 0 -10 -20 -30 -40 -50 -60 -70 -80 2
1
0
-1
-2
Fitted Value
Standardized Residual
Versus Fits (response is y)
riga e seconda colnna della tabella Analysis of Variance). I coefficienti di X3 e X4 si possono considerare singolarmente ininfluenti (con p-value 0,841 e 0,711 rispettivamente, entrambi maggiori di 0,05=livello del test). Il modello sembra buono (R-Sq=99,6%) e il grafico dei residui lo conferma
Il p-value cerchiato serve per capire se le variabili esplicative influenzano effettivamente la variabile risposta: se è <0,05 (livello del test) non si possono cancellare tutte.
Osservazione: Il test è fatto su un coefficiente per volta e ad esempio dall’accettazione che singolarmente due coefficienti siano nulli non si può concludere che siano entrambi
contemporaneamente nulli. Una strategia potrebbe essere quella di eliminare un coefficiente alla volta (corrispondente al p-value maggiore). Nell’caso dell’esempio si potrebbe iniziare a escludere la variabile X3.