1.52.02.53.03.5

(1)

STATISTICA

Regressione-2

(2)

Esempio

Su un campione di = 5 unità sono state osservate due variabili, ed :

x_i 1 2 3 4 5

y_i 1.5 2.5 3 2.5 3.5

1. Rappresentare l’andamento congiunto di in funzione di mediante un opportuno grafico: le due variabili sono correlate? Come e quanto?

2. Determinare le stime dei minimi quadrati dei parametri della retta interpolatrice dei dati

(3)

1 2 3 4 5

1.52.02.53.03.5

Esempio

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

Grafico di dispersione

(4)

1 2 3 4 5

1.52.02.53.03.5

Esempio

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

,

(5)

Esempio

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

x_iy_i 1.5 5 9 10 17.5

̅ = 3, = 2.6

= 11 − 3 = 2 ,

= 7.2 − 2.6 = 0.44

= 1

5 − ̅ = 43

5 − 3 × 2.6 = 0.8

= = 0.8

2 × 0.44 = .

= 1

− ̅

(6)

1 2 3 4 5

1.52.02.53.03.5

Esempio

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

, ,

= .

Correlazione lineare

positiva

(7)

Esempio

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

x_iy_i 1.5 5 9 10 17.5

̅ = 3, = 2.6

= 11 − 3 = 2 ,

= 7.2 − 2.6 = 0.44

= 1

5 − ̅ = 43

5 − 3 × 2.6 = .

= = 0.8

2 = .

= − = 2.6 − 0.4 × 3 = .

= 1

− ̅

(8)

1 2 3 4 5

1.52.02.53.03.5

Esempio

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

= 0.4

= 1.4

= . + .

= , = .

= , = . + . = .

(9)

1 2 3 4 5

1.52.02.53.03.5

Esempio

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

= 0.4

= 1.4

= . + .

̅ = 3, = 2.6

= . ,

= . + . × . = .

_4.5

Previsione:

(10)

1 2 3 4 5

1.52.02.53.03.5

Esempio

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

= 0.4

= 1.4

= 1.4 + 0.4

̅ = 3, = 2.6

= . ,

= . + . × . = .

_4.5

La previsione è attendibile?

solo se “il modello si adatta bene ai dati”

Previsione:

(11)

Regressione lineare

A. Valutazione preliminare se una retta possa essere una buona

approssimazione

B. Stima dei parametri della retta.

C. Valutazione della bontà di adattamento del

modello ai dati

ρ

= +

(12)

1 2 3 4 5

1.52.02.53.03.5

Esempio

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

= 0.4

= 1.4

= 1.4 + 0.4

̅ = 3, = 2.6

= . ,

= . + . × . = .

_4.5

La previsione è attendibile?

solo se “il modello si adatta bene ai dati”

Previsione:

COME LO VERIFICO?

CONFRONTANDO LE OSSERVAZIONI CON LE PREVISIONI

CHE IL MODELLO FA PER QUELLE OSSERVAZIONI

(13)

La varianza spiegata dalla retta

1 = 1

( + ) =

= + ̅ = ( − ̅) + ̅ = la media delle previsioni

coincide con

la media delle osservazioni

= +

(14)

La varianza spiegata dalla retta

la media delle previsioni coincide con

= ∑( − ) ≈ = ∑( − )

1 = 1

( + ) =

= + ̅ = ( − ̅) + ̅ =

se le previsioni sono molto vicine alle osservazioni anche le varianze saranno vicine!

= +

(15)

La varianza spiegata dalla retta

la media delle previsioni coincide con

1 = 1

( + ) =

= + ̅ = ( − ̅) + ̅ =

se le previsioni non sono molto vicine alle

osservazioni, la varianza dei dati sarà maggiore di quella delle previsioni

= +

(16)

85 90 95 100 105 110

960000980000100000010200001040000

2010-2016

Clima di fiducia

Spesa per consumi individuali Italia

1300000 1400000 1500000 1600000

8000008500009000009500001000000

2000-2016

PIL Italia

La varianza spiegata dalla retta

in quale grafico le previsioni e le osservazioni sono più vicine?

(17)

1300000 1400000 1500000 1600000

8000008500009000009500001000000

2000-2016

PIL Italia

La varianza spiegata dalla retta

= ∑( − ) ≈ = ∑( − )

1 =

∑ ( − )

∑ ( − ) =

≈

(18)

85 90 95 100 105 110

960000980000100000010200001040000

2010-2016

Clima di fiducia

La varianza spiegata dalla retta

= ∑( − ) = ∑( − )

1 =

∑ ( − ) ≈ 1

∑ ( − ) =

(19)

varianza totale

Analisi della Varianza

Fonte di variabilità

Gradi di libertà

(gl)

SS (Sum of Squares)

Mean Square

(SS/gl)

Retta di

regressione 1 ( − )

Attorno alla

retta − 2 − 1

− 2

Totale − 1 ( − )

num. di parametri stimati ( e )

varianza spiegata

(20)

85 90 95 100 105 110

960000980000100000010200001040000

2010-2016

Clima di fiducia

1300000 1400000 1500000 1600000

8000008500009000009500001000000

2000-2016

PIL Italia

La varianza spiegata dalla retta

= .

in quale grafico le previsioni e le osservazioni sono più vicine?

≈

(21)

La bontà della regressione

∑ ( − )

∑ ( − ) =

coeff. di determinazione

0 1

=

. ⟺ . o − .

(per tendenze crescenti)

(per tendenze decrescenti) BUON ADATTAMENTO :

(22)

1 2 3 4 5

1.52.02.53.03.5

Esempio,

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

1.8 2.2 2.6 3.0 3.4 Grafico di dispersione

= . + .

Cont.

= .

= ( )

= =

= . = .

(23)

L’indice non basta!

20 40 60 80 100

1 2 3 4 5

= . ⇒ = .

20 40 60 80 100

1 2 3 4 5

(24)

Regressione lineare: sunto

approssimazione

modello ai dati GRAFICO DI

DISPERSIONE

&

= ⁄

= −

=

NON BASTA !

(25)

20 40 60 80 100 1

2 3 4 5

Per fare un buon modello lineare serve:

 una correlazione alta

 alcune ipotesi che

garantiscono la linearità del modello

(26)

Inferenza

= +

Il modello della

regressione lineare semplice:

≈ ⟺ = +~ ( , )

= + +

~ ( + , )

(27)

66 68 70 72

140150160170180

w

Il modello di regressione lineare

Y

X X

= + + , ~ ( , )

In questo modello, mi aspetto di osservare il valore = +

(sulla retta), ma l’incertezza del fenomeno può produrre

un’osservazione che non sta sulla retta. Questo errore,

= − ,è supposto gaussiano, quindi non può

essere troppo grande (" − 3 , 3 "), e deve essere

simmetrico, nel senso che l’istogramma degli deve dare

una «campana» simmetrica.

~ ( + , )

(28)

66 68 70 72

140150160170180

w

Il modello di regressione lineare

Y

X X

= + + , ~ ( , ) ~ ( + , )

= − ,

- non sono «troppo grandi»:

(−3 , +3 );

- sono in parte positivi e in parte negativi;

- il loro grafico è

“sparpagliato”.

(29)

0 10 20 30 40

-50510

Verifica della Gaussianità

(30)

0 20 40 60 80 100

-60-40-20020406080

Verifica della Gaussianità

La varianza non è costante

~ ( , )

(31)

1 2 3 4 5

1.52.02.53.03.5

Esempio,

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

= 0.4

= 1.4

= . + .

̅ = 3, = 2.6

= .

Cont.

(32)

1 2 3 4 5

1.52.02.53.03.5

Esempio,

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

1.8 2.2 2.6 3.0 3.4 Grafico di dispersione

= . + .

Cont.

= .

= = .

(33)

Esempio,

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

1.8 2.2 2.6 3.0 3.4 -0.3 0.3 0.4 -0.5 0.1

= . + .

Cont.

= .

= = .

= −

1 2 3 4 5

1.52.02.53.03.5

(34)

Esempio,

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

1.8 2.2 2.6 3.0 3.4 -0.3 0.3 0.4 -0.5 0.1

= 1.4 + 0.4

Cont.

= 0.85

= = .

= −

(35)

Esempio,

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

1.8 2.2 2.6 3.0 3.4 -0.3 0.3 0.4 -0.5 0.1

= . + .

Cont.

= 0.85

= = .

= −

Sparpagliati attorno alla retta

tratteggiata;

abbastanza

simmetrici

(36)

Regressione lineare:

approssimazione

modello ai dati GRAFICO DI

DISPERSIONE

&

= ⁄

= −

=

& analisi residui

(37)

Esempio,

^x_yⁱ ¹ ² ³ ⁴ ⁵

i 1.5 2.5 3 2.5 3.5

1.8 2.2 2.6 3.0 3.4 -0.3 0.3 0.4 -0.5 0.1

= . + .

Cont.

= 0.85

= = .

= −

I DATI SONO I DATI SONO

TROPPO POCHI PER

FARE

UN’ANALISI SERIA DEI

RESIDUI !

(38)

Regressione lineare:

approssimazione

modello ai dati

D. Significatività della regressione

GRAFICO DI DISPERSIONE

&

= ⁄

= −

=

& analisi residui

(39)

≈ ⟺ ~ (0, )= + indipendenti

= + +

Inferenza

Il modello della

regressione lineare semplice:

Verificare se il vero valore della pendenza nella popolazione di riferimento è davvero diverso da zero (⇔ previsioni!) oppure no:

∶ = , ∶