• Non ci sono risultati.

7. REGRESSIONE LINEARE

N/A
N/A
Protected

Academic year: 2021

Condividi "7. REGRESSIONE LINEARE"

Copied!
20
0
0

Testo completo

(1)

7. REGRESSIONE LINEARE

7.1 Introduzione

Nella rilevazione congiunta di due variabili X e Y su n unità statistiche, lo studio dell’eventuale relazione di dipendenza fra loro può essere effettuato sia unilateralmente (quando si suppone che una variabile influenza l’altra), sia bilateralmente (quando si suppone che le due variabili interagiscono fra loro).

In questo capitolo si esaminerà la prima situazione, limitatamente al caso in cui entrambe le variabili siano di tipo quantitativo, e si ipotizzerà che lo scopo dell’analisi consista nell’analizzare il comportamento della Y al modificarsi dei valori assunti dalla X, per cui la Y viene considerata come variabile dipendente, mentre la X è detta variabile esplicativa.

In questa circostanza uno strumento particolarmente utile è il diagramma di dispersione che, come si è visto in precedenza, consente di mettere in evidenza il tipo di legame esistente fra X e Y e di valutare approssimativamente l’intensità di tale legame. Un altro vantaggio di questa rappresentazione grafica sta nella sua capacità di suggerire la famiglia dei possibili modelli matematici in grado di approssimare i valori osservati della variabile Y in funzione dei valori assunti dalla X, ossia di suggerire il modello teorico che meglio si adatta ai dati effettivamente rilevati sulle n unità statistiche.

L’utilizzo di un modello, ossia di una funzione che in corrispondenza dei diversi valori della X fornisce dei valori teorici che approssimano i valori osservati della variabile Y, consente di sintetizzare in una espressione matematica il legame esistente fra le due variabili. È evidente che il modello utilizzato sarà tanto più utile quanto più l’approssimazione fra valori osservati e valori stimati risulterà accurata.

Un esempio di funzione matematica in grado di approssimare in modo soddisfacente i valori osservati è riportato nella figura seguente che riporta lo scatter relativo ai valori del reddito e del consumo della tabella 5.2.5 e il grafico di una retta che descrive in modo sintetico, ma abbastanza accurato, il tipo di associazione esistente fra le due variabili: i punti dello scatter sono infatti distribuiti in modo irregolare intorno a una retta con inclinazione positiva, indicando che a incrementi di una variabile corrispondono, in media, incrementi proporzionali dell'altra.

In questo caso l'uso di un modello lineare consente quindi di quantificare il tipo di relazione fra X e Y perché fa corrispondere a un dato incremento x del reddito X un incremento y del consumo Y e le ordinate della retta, calcolate in corrispondenza dei valori osservati xi di X, approssimano in modo soddisfacente i corrispondenti valori yi della Y (per i = 1, 2, …, n).

(2)

Figura 7.1.1

Rappresentazione dei dati riportati nella tabella 5.2.5 e di una retta passante per la nuvola dei punti

Un modello di questo tipo, quando risulta adeguato a descrivere sinteticamente il tipo di legame fra le due variabili, permette anche di confrontare situazioni riferite a tempi o a luoghi diversi sulla base dei valori dell’intercetta e del coefficiente angolare calcolati per le diverse situazioni.

La scelta del tipo di modello può essere effettuata analizzando la disposizione dei punti evidenziati dal diagramma di dispersione, ma in genere questa scelta non è univoca, dato che esistono più funzioni matematiche in grado di descrivere uno stesso insieme di dati. In altre situazioni reali le conoscenze e le ipotesi sulla natura dei fenomeni studiati possono essere esplicitate in modo formale, così da individuare il modello più adatto.

Nelle pagine seguenti si è anticipato che la Y indicherà la variabile dipendente mentre la X sarà la variabile esplicativa, in accordo con la notazione usuale. Va però evidenziato che in alcuni casi i modelli teorici sono utilizzati anche quando esiste una relazione di interdipendenza fra variabili, anziché di dipendenza unilaterale. In ogni caso questi modelli teorici possono essere utilizzati per finalità diverse, che sono essenzialmente di natura descrittiva, interpretativa o di previsione.

15 20 25

20 25 30 35

consumo

reddito

(3)

7.2 Modelli teorici di regressione

Lo scopo dei modelli di regressione consiste nell’approssimare i valori assunti dalla Y sulle n unità statistiche mediante il calcolo di una qualche funzione matematica in corrispondenza dei valori assunti dalla X.

In pratica, quindi, le osservazioni yi della variabile Y saranno approssimate dai valori teorici

 

i

i f x

yˆ 

assunti dalla variabile

 

X f  ,

funzione matematica della variabile X.

Nei casi reali, salvo particolari eccezioni, gli n valori yi e i corrispondenti valori teorici i (con i = 1, 2,

…, n), stimati sulla base del modello matematico, non coincidono fra loro, anche perché i valori della Y sono in realtà influenzati da un insieme di altre variabili, diverse dalla X, che non sono state considerate esplicitamente. Nel caso della relazione fra il livello del reddito e del consumo nelle famiglie, per esempio, è evidente che quest’ultimo dipende anche dalla composizione della famiglia, dall’età dei suoi componenti, dalla zona di residenza, dalla classe sociale e da molte altre variabili socio-economiche.

La variabile dipendente viene espressa dal seguente modello

 

 X

Y f 7.2.1

in base al quale la Y dipende dalla X e da un insieme di altre variabili, non esplicitamente considerate, che sono inglobate nella componente  (che si legge “epsilon”).

Il modello 7.2.1 viene detto modello di regressione e mentre è la cosiddetta componente erratica.

Lo scopo dei modelli di regressione non consiste nell’approssimare nel modo più accurato possibile i valori rilevati, ma piuttosto nel descrivere in modo semplice l’eventuale relazione esistente fra le due variabili. Vengono quindi privilegiati i modelli matematici elementari e, fra tutte le possibili funzioni matematiche f(X), viene innanzitutto considerata quella lineare che, oltre a essere la più semplice possibile, si rivela anche adeguata in numerose situazioni reali.

(4)

In questo caso la Y può essere esplicitata nel modello seguente

 

 X

Y 7.2.2

che viene detto retta di regressione della Y sulla X.

In base al modello 7.2.2 il valore yi della Y rilevato sull’i-esima unità statistica corrisponde quindi a una funzione lineare del valore xi della variabile X (detta anche regressore) su quella stessa unità più un termine di errore che ingloba tutti gli altri fattori non esplicitamente considerati, ma che comunque esercitano un effetto sulla variabile dipendente.

In base alla 7.2.2 il valore osservato della Y sulla i-esima unità assume la forma

i i

i α βx ε

y    (i = 1, 2, …, n)

dove occorre calcolare il valore dei due parametri  e  rispettivamente corrispondenti all’intercetta e al coefficiente angolare, in modo da adattare il modello alla situazione reale, ossia in modo da individuare quella particolare retta che sintetizza nel modo migliore la conformazione delle n coppie di valori effettivamente rilevati.

(5)

7.3 Metodo dei minimi quadrati

La determinazione dei valori dell’intercetta e del coefficiente angolare della retta di regressione può essere effettuata attraverso metodi diversi che possono dare origine a soluzioni diverse. Nelle pagine successive si prenderà in considerazione solo uno dei possibili criteri, che è anche quello più comunemente utilizzato.

Il metodo dei minimi quadrati consiste nel trovare quei particolari valori dei parametri del modello di regressione per i quali risulta minima la somma dei quadrati delle differenze fra i valori osservati yi e i corrispondenti valori teorici i, stimati mediante il modello matematico, per cui si vuole rendere minima la quantità

 

n

i

i

i y

y

1

ˆ 2 . 7.3.1

I valori teorici, stimati attraverso il modello di regressione lineare, sono dati da

i

i x

yˆ 

ˆ

ˆ (i = 1, 2, …, n) 7.3.2

dove

ˆ e

ˆ rappresentano i valori assunti dai parametri  e  della retta di regressione per adattare il modello ai valori effettivamente rilevati.

Nella successiva figura 7.3.1, che mostra un esempio di differenza fra valore osservato e valore stimato della Y per la i-esima osservazione, i risulta minore di yi, ma è evidente che, per un’unità statistica diversa, questa differenza potrebbe risultare negativa, se il valore osservato della Y si trovasse al di sotto della retta.

Dato che la retta dovrà attraversare la nuvola dei punti, ci saranno infatti sia differenze negative sia differenze positive, e il metodo dei minimi quadrati consiste nel rendere minima la somma dei quadrati di queste n differenze yi - i.

(6)

Figura 7.3.1

Esempio di retta di regressione

Sostituendo nella 7.3.1 i valori teorici 7.3.2, la funzione (, ) da rendere minima assume la forma

       

n

i

i i

n i

i

i y y α βx

β y α, τ

1

2 1

ˆ 2 , 7.3.3

e risulta quindi funzione delle variabili  e , perché i valori yi e xi, date le n coppie di osservazioni, sono valori fissi.

Il metodo dei minimi quadrati consiste quindi nel determinare quei particolari valori

ˆ e

ˆ di  e  per i quali la funzione assume il suo valore minimo, ossia nel determinare i punti in cui si annullano le derivate parziali della 7.3.3 rispetto ad  e a .

Procedimento

Dato che la derivata di una somma è uguale alla somma delle derivate, risulta

  

  

n i

i i i

n i

i i

βx x α β y

τ(α,β)

βx α α y

τ(α,β)

1 1

2

1 2

yi

0 0 Y

X

(7)

e quindi, uguagliando entrambe le derivate a zero, le soluzioni

ˆ e ˆ si ottengono dal seguente sistema di due equazioni in due incognite

 

 





ˆ 0 2 ˆ

ˆ 0 2 ˆ

1 1 n i

i i i

n i

i i

x βx y α

βx α y

ovvero, eliminando la costante -2, dal seguente sistema

 

 





ˆ 0 ˆ

ˆ 0 ˆ

1 1 n i

i i i

n i

i i

x βx α y

βx y α

7.3.4

Dalla prima equazione, distribuendo la somma sui tre addendi, risulta

ˆ 0 ˆ

1 1

n i

i n

i

i β x

y

da cui si ottiene

βx y n x

β n y

α n

i i n

i

i ˆ1 ˆ

ˆ 1

1 1

 

per cui i valori stimati della Y, dati dalla 7.3.2, possono essere posti nella forma

x x

β y βx βx y βx α

yˆi ˆ ˆ i  ˆ  ˆ i  ˆ i(i = 1, 2, …, n) Sostituendo il risultato ottenuto per αˆ nella seconda equazione del sistema 7.3.4, si ha

    

n

i

n i

i i

i n

i

i i

i n

i

i i

i y βx βx x y y βx βx x y yx β xi xx

y

1 1

1 1

ˆ 0 ˆ

ˆ ˆ

ˆ

da cui si ottiene

 

   

n

i i n

i i

n i

i n

i i i n

i

i i n i

i i

x x x

x y y x

x x x

x y y β

1 1

2 1 1

1

ˆ 1 .

Dividendo per 1/n sia il numeratore sia il denominatore del termine a destra della precedente uguaglianza si ottiene infine

(8)

2 2 2

1 1

1 1

2 1 1

1 1 ˆ

x xy x

, n

i i n

i i

n i

i n

i i i

s s x m

y x m x

x n x

x y y n x

β

 





 





 

 

.

I valori dei parametri della retta di regressione della Y sulla X ottenuti con il metodo dei minimi quadrati risultano

βx

αˆy ˆ 7.3.5

2

ˆ

x xy

s

βs 7.3.6

per cui l’intercetta, che fornisce il valore previsto della Y quando il regressore è uguale a 0, è pari alla media della variabile dipendente meno il prodotto del coefficiente angolare della retta per la media della variabile X, mentre il coefficiente angolare, che misura di quanto varia mediamente la variabile dipendente al variare di una unità del regressore, è pari al rapporto fra la covarianza fra X e Y e la varianza della X. La retta di regressione ha quindi un’inclinazione positiva o negativa a seconda che il legame lineare fra X e Y è di tipo diretto oppure inverso.

Una volta sostituiti i valori numerici 7.3.5 e 7.3.6 ai parametri della retta, l’espressione 7.3.2 consente stimare il valore previsto della variabile Y in corrispondenza di qualsiasi valore della X, purché interno al suo campo di variazione, perché nulla assicura che la relazione resti invariata anche per valori di X minori o maggiori di quelli effettivamente rilevati.

Il valore della Y stimato in corrispondenza della media della variabile X è pari al valore

ˆx y ˆ

ˆ

che, in base alla proprietà della media di una trasformazione lineare, corrisponde anche alla media di Y

ˆx y

ˆ

.

(9)

La retta di regressione della Y sulla X, quindi, passa sempre per il punto avente per coordinate il valore medio delle due variabili, ossia per il cosiddetto baricentro dello scatter.

Esempio 7.3.1

Considerate le coppie di osservazioni dell’esempio 6.5.1 si disegni il diagramma di dispersione e si determini l’equazione della retta di regressione della Y sulla X. Si stimi infine il valore teorico della variabile Y in corrispondenza di x=70.

Il diagramma di dispersione assume la forma seguente, dalla quale si nota come la relazione fra le due variabili può essere approssimata da una retta con un coefficiente angolare positivo.

In base ai risultati già ottenuti nell’esercizio 6.5.1, riportati qui di seguito,

x 47.375 m2x= 2590.375 s2x 345.984375

y 144.00

m1,1 = 7308.875 sxy486.875

i valori dei parametri della retta di regressione risultano

4072 984375 1

345 875

486 .

.

ˆ.

3331 77 375 98437547 345

875

144 486 . .

.

ˆ  .

Il valore stimato della pressione per un’età pari a 70 anni risulta quindi

8371 175 70 4072 1 3331

77. . .

   

100 110 120 130 140 150 160 170 180 190 200 210 220

20 30 40 50 60 70 80 90

pressione

età

(10)

I modelli di regressione possono essere utilizzati anche quando i dati si riferiscono a una distribuzione di frequenza congiunta e le soluzioni per i due parametri sono sempre fornite dalle formule 7.3.5 e 7.3.6.

Se i dati sono organizzati in una tabella con classi di valori, gli scarti da prendere in considerazione nella 7.3.1 sono ovviamente quelli fra i valori centrali delle singole classi e la retta, e i risultati ottenuti sono approssimati perché dipendono dalla suddivisione in classi (per cui è sempre preferibile utilizzare le coppie di valori originali, se disponibili).

Per quanto riguarda, per esempio, le coppie di valori contenuti nella tabella 5.2.5, la retta di regressione del consumo Y sul reddito X è la seguente

X 0.5544 7.0317

e la sua rappresentazione grafica è riportata nella figura 7.3.2 insieme con lo scatter dei dati originari.

Sulla base della retta così determinata risulta, per esempio, che il consumo medio teorico in corrispondenza di un reddito di 24 mila euro annui è pari a 20.3373 mila euro. Dalla retta risulta anche che a un incremento del reddito pari a x corrisponde un incremento del consumo y = 0.5544x, cosicché, per esempio, a un incremento di mille euro del reddito corrisponde un incremento di 554 euro circa del consumo.

Figura 7.3.2

Retta di regressione calcolata sulla distribuzione 5.2.6

15 20 25

20 25 30 35

consumo

reddito

(11)

Esempio 7.3.2

Data la seguente distribuzione doppia, calcolare i parametri della retta di regressione della Y sulla X e stimare il valore teorico di Y per x=1 e x=3

X\Y 0 1 2

0 20 10 0 30

2 0 30 10 40

4 0 0 30 30

20 40 40 100

Dai dati riportati nella tabella si ottiene

x 2 m2x= 6.4 s2x 2.4

y 1.2

m1,1 = 3.4 sxy 1

I parametri della retta di regressione sono quindi 6

41 4 0 2

1 .

.

ˆ 

6 3 0 2 6 41 0 2

1. . .

ˆ    

Dato il modello di regressione della Y sulla X X

6 41 0 6 3

0. .

 

i valori stimati della variabile dipendente assumono i valori:

per x=1 0.360.41610.783 per x=3 0.360.41631.616

L’applicazione del metodo dei minimi quadrati non dà la garanzia che il modello lineare ottenuto sia adeguato a descrivere in modo soddisfacente la relazione fra le variabili in esame. Questa informazione è invece fornita dal valore di un particolare indice, descritto nel paragrafo successivo.

Nota

Tutto quello che è stato detto a proposito della retta di regressione della Y sulla X può essere ripetuto, con le opportune modifiche, a proposito della retta di regressione della X sulla Y.

(12)

7.4 Misura della bontà di adattamento

Dai risultati 7.3.5 e 7.3.6 ottenuti nel paragrafo precedente, risulta che la retta di regressione della Y sulla X può essere posta nella forma seguente

x

s y s s

x s s y s

x xy x

xy x

xy    

 X X

2 2

2 7.4.1

o anche, tenendo presente la formula 5.7.1 dalla quale si ottiene l’uguaglianza

y x xy

xy r s s

s  , 7.4.2

nella forma equivalente

x

s r s y

x y

xy

 X . 7.4.3

Da quest’ultima espressione si nota che il coefficiente angolare della retta assume lo stesso segno del coefficiente di correlazione lineare, che risulta positivo o negativo a seconda che le variabili siano concordanti o discordanti. Se rxy è nullo, invece, la variabile Y stimata sotto ipotesi di linearità assume la forma

y

per cui i valori stimati risultano tutti uguali fra di loro, quale che sia il valore della X, e uguali alla media della Y. In questo caso il modello lineare risulta del tutto inutile per descrivere l’eventuale legame fra le variabili X e Y.

In tutti gli altri casi la retta dei minimi quadrati associa a ognuno degli n valori originari yi un valore teorico che è una funzione lineare della variabile X

x x

s r s y

y i

x y xy

i   

ˆ 7.4.4

(13)

la cui media corrisponde alla media dei valori originari yi

x x

y n

s r s n y

y

n i

i x

y xy n

i

 

1 1

1

ˆ 1 , 7.4.5

dato che 1

 

0

1

n i

i x

n x perché è la media della variabile scarto

 X  x

. La varianza dei valori teorici, che corrisponde a

 

n

i i

ˆy y

s n

1

2

2 1

, 7.4.6

viene detta varianza spiegata, in quanto misura quella parte di variabilità complessiva della Y che dipende, ossia è spiegata, dalla sua relazione lineare con la X.

Come si è ricordato più volte, l’utilizzo di un modello di regressione ha l’obiettivo di approssimare nel miglior modo possibile i valori osservati yi della Y attraverso i valori teorici i, stimati sulla base del modello, ma nelle situazioni reali esistono differenze più o meno rilevanti fra yi e i. Le differenze

ei = yii,

fra i valori rilevati e stimati vengono generalmente chiamate residui.

Si dimostra facilmente che il valore medio degli n residui risulta nullo dato che

ˆ

1 1 ˆ 0

1

1 1

1

  

y y n y

n y y n y

e

n i

i n

i i n

i

i

i ,

mentre la loro varianza, che corrisponde al momento del secondo ordine

 

n

i

i i

e y y

s n

1

2 1 ˆ 2

,

(14)

tende ad aumentare al crescere delle differenze fra valori rilevati e valori stimati. Questa varianza è detta varianza residua, perché misura quella parte di variabilità della Y che non dipende dalla sua relazione lineare con la X.

La varianza della variabile dipendente può essere scissa nella somma della varianza spiegata sotto ipotesi di linearità s2yˆ più la varianza residua se2.

Dimostrazione

Aggiungendo e sottraendo i valori teorici i nella formula della s2y e sviluppando poi l’espressione così ottenuta, risulta

       

      

  

n i

i i y i

e

n i

i i i n

i i n

i

i i

n i

i i i n

i i y

y y y n y

s s

y y y n y

y n y

y n y

y y y n y

y n y

s

1 2ˆ 2

1 1

2 1

2

1

2 1

2 2

2

2 ˆ 1

1

1 1

7.4.7

dove il doppio prodotto è pari a zero.

Infatti, in base alla 7.4.4, risultano verificate le seguenti uguaglianze

      

x x

s r s y y x s x

r s y y y

y i

x y xy i

i x y xy i

i

i    





  

ˆ

  

x x

s r s y

y i

x y xy

i  

ˆ

per cui, il doppio prodotto della 7.4.6 può essere scritto nella forma seguente

        

    

0 2 2 2

2

2 1 2 1

2 2

2 2 2 2 2 2 2

2

1 1

2 2

1 1

 

 

 









  

 

   

 

x xy x xy x y x

xy xy x y y x

xy n i

n i

i x

y xy i

i x

y xy

n i

i x y xy i x y xy i

n i

i i i

s s s s s s s s s s s s s

s

x n x

s r s x x y n y

s r s

x s x r s x s x r s y n y

y y y n y

(15)

La scomposizione della varianza complessiva della Y nella varianza dei valori teorici più la varianza dei residui

2 2ˆ 2

e y

y s s

s   7.4.8

rappresenta la cosiddetta scomposizione della varianza sotto ipotesi di linearità, dato che s2 rappresenta la parte di variabilità della Y che viene spiegata dal modello di regressione, mentre se2 rappresenta la variabilità degli errori di previsione.

Nella successiva figura 7.4.1 si nota come il valore della varianza residua corrisponde alla media dei quadrati degli scarti di tipo AB, fra valori osservati e valori teorici, mentre la varianza della Y è la media dei quadrati degli scarti di tipo AC, fra valori osservati e la media della Y.

Il criterio dei minimi quadrati equivale a individuare i parametri della retta che rende minimo il valore della varianza residua.

Figura 7.4.1

Esempio di retta di regressione

Dall’uguaglianza 7.4.8 risulta evidente che la varianza residua se2 può assumere valori compresi nell’intervallo [0, s2y] e risulta uguale a zero se e solo se gli n valori stimati sono esattamente uguali ai

1 C

mx my

A

B

0 0 Y

X

(16)

corrispondenti valori osservati, ossia se tutti i punti del diagramma di dispersione sono esattamente allineati. Questa situazione si verifica solo se fra le variabili X e Y esiste una perfetta correlazione lineare.

In questo caso è evidente che s2ys2yˆ, per cui la varianza dei valori osservati coincide con la varianza dei valori teorici.

Il valore massimo della varianza residua, pari a s2y, si ha invece quando il coefficiente della retta di regressione è uguale a zero e cioè quando i valori stimati sono tutti uguali a y, per cui la retta di regressione è parallela all’asse delle ascisse. In questo caso si ha assenza di correlazione lineare, dato che la conoscenza del valore di X non fornisce alcuna informazione sul corrispondente valore di Y stimato sotto ipotesi di linearità.

Tenendo presente la scomposizione della varianza 7.4.8, l’intensità del legame lineare fra le variabili può essere quindi valutata mediante il rapporto fra la varianza spiegata e la varianza totale della variabile dipendente, ossia dal rapporto

2 2 2

2ˆ

2 1

y e y

y

xy s

s s

Rs   7.4.9

che prende il nome di coefficiente di determinazione lineare.

Si vede immediatamente che il risultato Rxy2 1 indica che fra X e Y c’è una situazione di correlazione lineare perfetta, mentre il risultato Rxy2 0 indica un’assenza di correlazione lineare fra le due variabili.

In quest’ultimo caso, infatti, la varianza residua è uguale alla varianza totale e la varianza spiegata è nulla.

Il coefficiente di determinazione lineare R2xy può essere interpretato come la frazione della varianza totale della variabile dipendente che viene "spiegata" dalla relazione lineare fra X e Y.

Si dimostra facilmente che l’indice 7.4.9 corrisponde in realtà al quadrato del coefficiente di correlazione lineare 5.7.1 e tale relazione è utile per ottenere il suo valore numerico. Dall’uguaglianza 7.4.4 risulta infatti che

x x

s r s y

y i

x y xy

i   

ˆ

(17)

per cui la varianza spiegata che compare al numeratore della 7.4.9 può essere posta nella forma equivalente

       

2 2 2 2

1

2 2

1

2

1

2

2ˆ 1 ˆ 1 1

y xy x x y xy

n

i i

x y xy n

i i

x y xy n

i i

y

s r s s

r s

x n x

s r s x

s x r s y n

n y s

 

 



 

 





 

 

  

7.4.10

mentre la varianza residua, pari alla differenza fra varianza totale e varianza spiegata, assume la forma se2sy2rxy2sy2s2y

 

1rxy2 .

In base all’uguaglianza 7.4.10 il coefficiente di determinazione lineare può essere quindi posto nella forma

2 2

2 2 2 2ˆ 2

xy y

y xy y y

xy r

s s r s

Rs  

e corrisponde quindi al quadrato del coefficiente di correlazione lineare fra X e Y.

Dato che, come si è dimostrato in precedenza, il coefficiente di correlazione lineare assume valori compresi nell’intervallo [-1, +1], il coefficiente di determinazione lineare è ovviamente compreso nell’intervallo [0, 1]. Se vale 0 si ha assenza di correlazione lineare fra X e Y, mentre se è pari a 1 si può concludere che fra le due variabili esiste una relazione lineare perfetta (di tipo diretto o inverso).

Esempio 7.4.1

Date le seguenti coppie di osservazioni (xi, yi) relative alle variabili X e Y rilevate su 5 individui (-3, -4) (-1, -3) (1, 1) (1, 3) (2, 6)

disegnare lo scatter, determinare l’equazione della retta di regressione della Y sulla X e stimare il valore teorico di Y per X=0. Calcolare infine il valore del coefficiente di correlazione lineare e del coefficiente di determinazione lineare.

(18)

x 0 m

2x=s2x 3.2 y0.6

m1,1 = sxy6.2

I parametri della retta di regressione sono quindi 9375

2 1 3

2

6 .

. ˆ.

6 . 0 0 9375 . 1 6 .

ˆ0   

Dato il modello di regressione della Y sulla X X

9375 . 1 6 . ˆ0 

Y

il valore stimato della variabile dipendente per X = 0 è ˆy0.6.

Risulta inoltre

m2y= 14.2 sy214.20.6213.84 per cui

9316 0 84 13 2 3

2

6 .

. .

rxy .

  08680

84 13 2 3

2 6 2

2 .

. .

Rxy .

 

Si può quindi concludere che per la collettività esaminata l'87% circa della variabilità totale della Y dipende, o viene spiegata, dalla relazione lineare con la X.

-4 -2 0 2 4 6

-3 -2 -1 0 1 2

Y

X

(19)

Esempio 7.4.2

Data la seguente distribuzione doppia determinare l’equazione della retta di regressione della Y sulla X e calcolare il coefficiente di determinazione lineare

X\Y 0 3 3 5 5 10

0 0.15 0.12 0.03 0.30

2 0.25 0.20 0.05 0.50

4 0.10 0.08 0.02 0.20

0.50 0.40 0.10 1.00

Le variabili risultano indipendenti in senso assoluto, pertanto la loro covarianza è pari a zero. Questo implica che il coefficiente angolare della retta di regressione e il coefficiente di correlazione lineare sono entrambi nulli. La retta di regressione della Y sulla X è parallela quindi all’asse delle ascisse e la sua equazione risulta

3.1

y

Esempio 7.4.3

Data la seguente distribuzione doppia calcolare il coefficiente di determinazione lineare fra le due variabili

X\Y 0 1 2

-1,5 -0,5 40 0 0 40

-0,5  0,5 0 40 40 80

0,5  1,5 0 20 60 80

40 60 100 200

Dai dati riportati nella tabella si ottiene

x 0.2 m

2x= 0.6 sx20.56

y 1.3 m2y= 2.3 s2y 0.61 m1,1 = 0.7 sxy0.44

5667 61 0

0 56 0

44

0 2

2 .

. .

Rxy .

 

Proprietà

Il coefficiente di determinazione lineare è invariante rispetto a trasformazioni lineari delle variabili.

Dimostrazione

Considerate due variabili X e Y con un coefficiente di determinazione lineare pari aR2xy, si considerino le variabili

T = a0 + b0X

(20)

e

Z = a1 + b1Y,

trasformate lineari delle prime due. Sulla base delle dimostrazioni già note circa la covarianza e le varianze di trasformazioni lineari, il coefficiente di determinazione lineare fra T e Z è dato dal rapporto

2 2 12 2 02

2 2 1 2 0 2 2 2 2

xy y x

xy z

t

tz tz R

s b s b

s b b s s

Rs  

e corrisponde quindi al coefficiente di determinazione lineare fra X e Y.

Nota

Nelle situazioni reali non sempre una funzione lineare risulta adeguata a descrivere l'associazione fra le variabili. In questi casi vengono utilizzate funzioni di forma diversa come, per esempio, un polinomio di grado non troppo elevato, i cui parametri corrispondono sempre a quei valori che rendono minima la media delle differenze al quadrato fra i valori yi osservati e i corrispondenti valori teorici.

Riferimenti

Documenti correlati

Essendo nullo l’ingresso, la retta di carico passa per l’origine ed ha pendenza -1.. y

[r]

attorno al modello possono essere individuate due fasce di ampiezza

Il metodo della Regressione Lineare (o metodo di stima ai Minimi Quadrati) si occupa di individuare, all’interno di un certo ambito di funzioni, una relazione fra le

In questo esempio abbiamo 2 variabili dipendenti Y, chiamate anche “risposte”; come vedrete il modello è molto simile a quello fatto a lezione... Ecco

Supponiamo ora di avere una differente incertezza per ciascuna misura sulle y e che non esista incertezza sulla misura dell’osservabile x. La nuova relazione non è altro che

L’algoritmo di regressione lineare da’ sempre come risultato una retta, indipendemente dal fatto che i punti si collochino o meno sulla una retta stessa.. E’ necessario