• Non ci sono risultati.

Lezione 11 Concordanza e discordanza

N/A
N/A
Protected

Academic year: 2021

Condividi "Lezione 11 Concordanza e discordanza"

Copied!
17
0
0

Testo completo

(1)

Lezione 11

Concordanza e discordanza

Quando si è parlato della covarianza si è detto che due variabili X e Y quantitative possono essere concordi o discordi a seconda che al crescere dei valori assunti da una variabile i valori dell’altra tendano a crescere oppure a diminuire.

Per esempio, le spese sostenute per le auto tendono ad aumentare al crescere del reddito, lo stipendio tende ad aumentare al crescere del grado di anzianità in ruolo, mentre al crescere della produzione di grano il suo prezzo tende a diminuire.

Data la sequenza delle n coppie di osservazioni, uno strumento molto utile per esaminare il tipo e l'intensità dell’eventuale legame fra due variabili è il cosiddetto diagramma di dispersione (o scatter diagram) che, per ciascuna osservazione, riporta le coppie di valori (xi, yi) su un sistema di assi cartesiani.

Il diagramma di dispersione mette in evidenza il campo di variazione delle due variabili, i punti intorno ai quali sono concentrati i loro valori e il tipo di legame che esiste tra le variabili e la sua intensità.

In alcuni casi la forma della nuvola dei punti può suggerire l’utilizzo di una funzione (o modello matematico) in grado di sintetizzare in una semplice formula l’eventuale relazione esistente fra le variabili.

I modelli matematici sono molto utilizzati in statistica per diversi motivi:

possono limitarsi a descrivere il legame fra le variabili, per cercare di interpretare la relazione esistente fra X e Y oppure per effettuare previsioni.

(2)

DIPENDENZA LINEARE

La funzione matematica più semplice è il modello lineare che fa corrispondere a un incremento della X una variazione della Y (che può essere di segno positivo o negativo).

Dato lo scatter successivo, relativo a 10 coppie di osservazioni (xi, yi) , sembra ragionevole sintetizzare il legame esistente fra X e Y mediante una retta.

Guardando la disposizione dei punti è ovvio che la retta dovrà avere un’inclinazione positiva, ma non si può stabilire con certezza il valore dei parametri che la caratterizzano semplicemente sulla base dell’analisi grafica.

Bisogna quindi stabilire un qualche criterio che consenta di individuare, fra tutte le possibili rette, quella che approssima nel miglior modo la nuvola dei punti che compongono lo scatter.

Nella figura seguente sono riportate due fra le infinite possibili rette che potrebbero essere utilizzate.

0 0,5 1 1,5 2 2,5 3 3,5

0 0,5 1 1,5 2 2,5 3

Y

X

(3)

Quando si utilizza un modello matematico per approssimare la nuvola dei punti, i valori 𝑦𝑖 della Y effettivamente rilevati sulle n unità statistiche vengono approssimati dai valori teorici che si ottengono mediante il modello.

Questo significa che se la retta è in grado di approssimare con sufficiente accuratezza la nuvola dei punti, tutte le informazioni contenute nella sequenza delle osservazioni effettivamente rilevate sono sintetizzate dal modello matematico.

In seguito si indica con 𝑌̂ la variabile stimata mediante il modello e quindi con 𝑦̂𝑖 il suo valore per la i-esima osservazione. Questo valore approssimerà in modo più o meno soddisfacente la vera intensità 𝑦𝑖 effettivamente osservata.

(4)

Nei modelli teorici che esamineremo si farà esplicito riferimento al caso in cui la variabile Y è una funzione lineare della variabile X, ma risultati analoghi si potrebbero ottenere per la X considerata in funzione di Y.

In seguito, quindi, Y è la cosiddetta variabile dipendente (in quanto è considerata in funzione della X e quindi “dipende” da X), mentre X è la cosiddetta variabile esplicativa o regressore.

La variabile Y effettivamente rilevata viene approssimata dalla variabile teorica

𝑌̂ = 𝑓(𝑋) = 𝛼 + 𝛽𝑋

che è una funzione matematica della variabile X. L’equazione considerata dà origine a una retta che viene chiamata retta di regressione.

Questa retta è definita dai valori dei suoi due parametri 𝛼 (alfa) e 𝛽 (beta) che corrispondono, rispettivamente, all’intercetta e al coefficiente angolare.

Di conseguenza, i valori osservati 𝑦𝑖 vengono approssimati dai valori teorici

𝑦̂𝑖 = 𝑓(𝑥𝑖) = 𝛼 + 𝛽𝑥𝑖

e questa approssimazione può risultare più o meno soddisfacente.

È abbastanza evidente che, in genere, i valori 𝑦̂𝑖 stimati in base al modello matematico differiscono dai veri valori 𝑦𝑖 dato che questi ultimi sono sicuramente influenzati anche da altre variabili che non sono state considerate nel modello.

(5)

Per esempio, il livello dei consumi Y delle famiglie dipende sicuramente dal reddito familiare X, ma sarà influenzato anche dalla composizione delle famiglie, dall’età dei suoi componenti, dalla zona di residenza, dalla classe sociale e da molte altre variabili socio-economiche.

I modelli matematici, quindi, approssimano e semplificano la realtà, ma sono comunque utili per mettere in evidenza le relazioni esistenti fra le variabili considerate.

Il modello di regressione assume quindi in realtà la forma seguente

𝑌 = 𝑓(𝑋) + 𝜀 = 𝛼 + 𝛽𝑋 + 𝜀

dove l’effetto delle variabili non esplicitamente considerate è contenuto nella componente erratica 𝜀 (epsilon). I valori assunti da questa variabile, in corrispondenza delle intensità 𝑥𝑖 rilevate sono

𝑦𝑖 = 𝑓(𝑥𝑖) + 𝜀 = 𝛼 + 𝛽𝑥𝑖 + 𝜀

Lo scopo dei modelli di regressione non è tanto quello di approssimare nel modo più accurato possibile i valori rilevati (o al posto della retta si utilizzerebbero polinomi di grado più elevato), ma di descrivere in modo semplice il legame fra le variabili. Vengono quindi privilegiati i modelli matematici elementari, ed in particolare la retta di regressione della Y sulla X.

Nelle prossime pagine vedremo come si calcolano i due parametri 𝛼 e 𝛽 in modo da adattare il modello alla situazione reale, ossia in modo da trovare l’equazione della retta che meglio di ogni altra riesce ad approssimare la nuvola dei punti dello scatter.

(6)

METODO DEI MINIMI QUADRATI

Uno dei più comuni metodi per determinare i valori dell’intercetta e del coefficiente angolare della retta di regressione della Y sulla X è il cosiddetto metodo dei minimi quadrati.

Il criterio si basa sulle differenze fra i valori 𝑦𝑖 effettivamente rilevati e i valori 𝑦̂𝑖 stimati mediante la relazione lineare con la X.

Considerate le n differenze

(𝑦𝑖 − 𝑦̂𝑖)

il metodo dei minimi quadrati consiste nel rendere minima la somma dei quadrati di tali differenze

∑(𝑦𝑖 − 𝑦̂𝑖)2

𝑛

𝑖=1

= 𝑚𝑖𝑛𝑖𝑚𝑜

Dato che le 𝑦̂𝑖 sono una funzione lineare del tipo

𝑦̂𝑖 = 𝛼 + 𝛽𝑥𝑖

in cui le 𝑥𝑖 sono quantità note (corrispondono ai valori della X rilevati sulle n unità esaminate), mentre sono ignoti i valori dei due parametri della retta, il metodo dei minimi quadrati consiste nel rendere minima la seguente funzione di 𝛼 e 𝛽

𝜏(𝛼, 𝛽) = ∑(𝑦𝑖 − 𝑦̂𝑖)2

𝑛

𝑖=1

= ∑(𝑦𝑖 − 𝛼 − 𝛽𝑥𝑖)2

𝑛

𝑖=1

(7)

(dove la lettera greca 𝜏 si legge “tau”).

I valori di 𝛼 e 𝛽 che rendono minima la funzione si ottengono calcolando le derivate di 𝜏(𝛼, 𝛽) rispetto ai due parametri 𝛼 e 𝛽 e ponendole pari a zero.

Si ottiene un sistema di due equazioni in due incognite, le cui soluzioni 𝛼̂ 𝑒 𝛽̂

risultano

{ 𝛽̂ =𝑠𝑥𝑦 𝑠𝑥2 𝛼̂ = 𝑦̅ − 𝛽̂𝑥̅

Il coefficiente angolare della retta stimato con il metodo dei minimi quadrati risulta pari al rapporto fra la covarianza delle due variabili e la varianza del regressore, mentre l’intercetta è pari alla media della variabile dipendente meno 𝛽̂ che moltiplica la media del regressore

Una volta ottenuti i valori dei due parametri, il modello di regressione è completamente specificato

𝑌̂ = 𝛼̂ + 𝛽̂𝑋

ed è possibile utilizzarlo per determinare il valore teorico della Y in corrispondenza di un qualunque valore 𝑥0 della X che sia interno al campo di variazione della variabile (al di fuori del campo di variazione la relazione fra la Y e la X potrebbe infatti essere differente da quella ottenuta).

(8)

Per effettuare questa stima è sufficiente sostituire alla X il valore 𝑥0 nell’espressione della retta e calcolare il corrispondente valore teorico 𝑦̂0 della Y stimata

𝑦̂0 = 𝛼̂ + 𝛽̂𝑥0

Va infine notato che, dalla formula del coefficiente angolare della retta, risulta che se la covarianza fra X e Y è pari a zero, anche 𝛽̂=0, per cui la retta di regressione della Y sulla X risulta parallela all’asse delle ascisse. Questo risultato sarà chiarito meglio nella lezione successiva.

(9)

ESERCIZI

1) Considerata la sequenza delle coppie di valori relativi a due variabili X e Y (1.1, 2.3) (1.9, 2.7) (2.0, 2.4) (2.5, 3.0) (2.8, 3.5)

si disegni lo scatter fra le due variabili, si determini l’equazione della retta di regressione della Y sulla X e si stimi il valore teorico di Y per x=2

Per la variabile X si ottiene:

𝑥̅ = 2.06 𝑚2𝑥 = 4.582 𝑠𝑥2 = 0.3384

La media della Y risulta 𝑦̅ = 2.78

Il momento misto di ordine 1,1 è 𝑚1,1 = 29,76

5 = 5.952

per cui la covarianza risulta 𝑠𝑥𝑦 = 0.2252

0 0,5 1 1,5 2 2,5 3 3,5 4

0 0,5 1 1,5 2 2,5 3

Y

X

(10)

Il coefficiente angolare della retta di regressione corrisponde quindi a 𝛽̂ = 𝑠𝑥𝑦

𝑠𝑥2 =0.2252

0.3384 ≈ 0.6655 mentre l’intercetta è pari a

𝛼̂ = 𝑦̅ − 𝛽̂𝑥̅ ≈ 2.78 − 0.6655 × 2.06 = 1.4091

L’equazione della retta di regressione è quindi 𝑌̂ = 1.4091 + 0.6655𝑋 e il valore stimato della Y per x = 2 risulta quindi pari a

𝑦̂ = 1.4091 + 0.6655 × 2 = 2.7401

(11)

2) Considerata la seguente distribuzione bivariata

X\Y 0 1 2

-1 5 5 0 10

0 0 3 2 5

1 0 10 15 25

5 18 17 40

si determini l’equazione della retta di regressione della Y sulla X e si stimi il valore teorico di Y per x=0.

Per la variabile X si ottiene:

𝑥̅ = 0.375 𝑚2𝑥 = 0.875 𝑠𝑥2 = 0.734375

La media della Y risulta 𝑦̅ = 1.3

Il momento misto di ordine 1,1 è 𝑚1,1 = −5 + 10 + 30

40 = 0.875

per cui la covarianza risulta 𝑠𝑥𝑦 = 0.3875

Il coefficiente angolare della retta di regressione corrisponde quindi a 𝛽̂ = 𝑠𝑥𝑦

𝑠𝑥2 = 0.3875

0.734375≈ 0.5277 mentre l’intercetta è pari a

(12)

𝛼̂ = 𝑦̅ − 𝛽̂𝑥̅ ≈ 1.3 − 0.5277 × 0.375 = 1.1021

L’equazione della retta di regressione è quindi 𝑌̂ = 1.1021 + 0.5277𝑋 e il valore stimato della Y per x = 0 risulta quindi pari a

𝑦̂ = 1.1021 + 0.5277 × 0 = 1.1021

(13)

VALORI STIMATI E RESIDUI

Le soluzioni ottenute per i parametri che compaiono nella retta di regressione della Y sulla X mediante il metodo dei minimi quadrati vengono in seguito utilizzate per analizzare alcune caratteristiche delle 𝑦̂𝑖, ossia dei valori stimati attraverso la retta di regressione, e dei cosiddetti residui 𝑒𝑖, pari alla differenza fra valori osservati e valori stimati

𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖

Dato il modello di regressione

𝑌̂ = 𝛼̂ + 𝛽̂𝑋

cominciamo con il sostituire ai due parametri 𝛼̂ e 𝛽̂ le soluzioni

𝛽̂ = 𝑠𝑥𝑦 𝑠𝑥2

𝛼̂ = 𝑦̅ − 𝛽̂𝑥̅ = 𝑦̅ −𝑠𝑥𝑦 𝑠𝑥2 𝑥̅

ottenendo

𝑌̂ = (𝑦̅ −𝑠𝑥𝑦

𝑠𝑥2 𝑥̅) +𝑠𝑥𝑦

𝑠𝑥2 𝑋 = 𝑦̅ +𝑠𝑥𝑦

𝑠𝑥2 (𝑋 − 𝑥̅)

(14)

A questo punto è opportuno far comparire nell’espressione il coefficiente di correlazione lineare fra X e Y che, come si è visto in una lezione precedente, corrisponde al rapporto fra la covarianza e la varianza della X.

Dall’uguaglianza

𝑟𝑥𝑦 = 𝑠𝑥𝑦 𝑠𝑥𝑠𝑦 si ottiene il risultato

𝑠𝑥𝑦 = 𝑟𝑥𝑦𝑠𝑥𝑠𝑦

che sostituiremo alla covarianza nell’espressione riportata nel riquadro in giallo, ottenendo

𝑌̂ = 𝑦̅ +𝑟𝑥𝑦𝑠𝑥𝑠𝑦

𝑠𝑥2 (𝑋 − 𝑥̅)

da cui si risulta infine

𝑌̂ = 𝑦̅ + 𝑟𝑥𝑦𝑠𝑦

𝑠𝑥(𝑋 − 𝑥̅)

Quest’ultima uguaglianza, riportata nel riquadro arancione, risulterà fondamentale per varie dimostrazioni che vedremo nella lezione successiva.

Prima di passare allo studio delle caratteristiche delle 𝑦̂𝑖 e dei residui 𝑒𝑖 conviene notare che il coefficiente angolare della retta assume lo stesso segno del coefficiente di correlazione lineare (o della covarianza): risulta positivo o negativo a seconda che le variabili X e Y siano concordi o discordi.

(15)

Se la covarianza è nulla (e quindi anche 𝑟𝑥𝑦 è nullo) dall’uguaglianza riportata nel riquadro arancione risulta che il modello di regressione assume la forma

𝑌̂ = 𝑦̅

per qualsiasi valore della variabile X.

I valori stimati, quindi, sono tutti uguali fra loro e uguali alla media della Y

𝑦̂𝑖 = 𝑦̅

In questa situazione il modello lineare risulta del tutto inutile per descrivere l’eventuale legame fra le variabili X e Y in quanto la retta di regressione risulta parallela all’asse delle X, per cui a ogni valore di X associa la media della Y.

Va sottolineato il fatto che un 𝛽̂ = 0 non esclude che fra X e Y esista una relazione anche molto forte, ma solo che non si tratta di una relazione di tipo lineare: potrebbe esistere un elevato grado di dipendenza assoluta o di dipendenza in media.

In tutti gli altri casi, quando il 𝛽̂ è diverso da zero, la retta dei minimi quadrati associa agli n valori 𝑦𝑖 un valore teorico 𝑦̂𝑖 che è una funzione lineare della X.

(16)

Per chiarire quanto esposto finora si considerino i dati contenuti nella tabella successiva che riporta i valori delle variabili X e Y rilevati su 25 unità statistiche

X 22.2 22.6 23.2 23.4 23.8 24.2 24.6 25.0 25.2 25.6 Y 18.4 19.0 19.8 19.4 20.2 20.6 22.2 22.2 20.0 21.4 X 25.8 26.2 26.8 27.2 27.6 28.0 28.4 28.6 29.0 29.4 Y 21.0 21.6 22.2 21.8 22.0 23.0 24.0 23.6 24.2 22.0 X 30.2 30.6 31.2 32.0 34.2

Y 23.4 24.2 23.6 24.4 25.8

Nel grafico successivo è riportato lo scatter corrispondente e la retta di regressione stimata con il metodo dei minimi quadrati

𝑌̂ = 7.0317 + 0.5544𝑋

17 18 19 20 21 22 23 24 25 26

20 25 30 35

consumo

reddito

(17)

Mediante questa retta a ciascuno dei valori 𝑥𝑖 si fa corrispondere un valore teorico 𝑦̂𝑖 che approssima il vero valore 𝑦𝑖 effettivamente rilevato.

Nel grafico successivo è riportata la figura precedente, evidenziando in blu il punto di coordinate (29.4, 22), che era evidenziato in blu anche nella tabella, e si è aggiunto in rosso il punto teorico, ottenuto sulla retta, in corrispondenza dell’ascissa 29.4,

𝑦̂ = 7.0317 + 0.5544 × 29.4 = 23.33106

Questo punto, di coordinate (29.4, 23.22106) approssima il punto originario e, in questo caso, lo approssima per eccesso. Per altre osservazioni, invece, l’approssimazione sarà per difetto.

17 18 19 20 21 22 23 24 25 26

20 25 30 35

consumo

reddito

Riferimenti

Documenti correlati

[r]

[r]

L’algoritmo di regressione lineare da’ sempre come risultato una retta, indipendemente dal fatto che i punti si collochino o meno sulla una retta stessa.. E’ necessario

La teoria matematica ci richiede delle particolari ipotesi su tali residui, che costituiscono la componente aleatoria del modello lineare: essi devono essere dei numeri

Per studiare la dipendenza tra il consumo energetico e la massa corporea non-grassa, vengono mi- surate le masse corporee non-grasse di 4 uomini, e il corrispondente consumo

Nel confronto tra due metodi di previsione delle serie storiche, un …t migliore (residui più piccoli, relativamente ai dati noti) garantisce una miglior previsione2.

Rappresentare l’andamento congiunto di Y in funzione di X mediante un opportuno grafico: le due variabili sono correlate3. Come

Per far questo, ipotizziamo che i valori di Y siano realizzazioni campionarie di una qualche variabile causale e che i residui siano l’effetto risultante di un gran numero di