• Non ci sono risultati.

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE

N/A
N/A
Protected

Academic year: 2021

Condividi "INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE"

Copied!
27
0
0

Testo completo

(1)

1

INFERENZA NEL MODELLO DI

REGRESSIONE LINEARE SEMPLICE

• E’ necessaria l’ipotesi di

normalità dei termini stocastici

• Interpretazione dell’intervallo di confidenza, fissato il livello di significatività  (ad esempio per ).

Se estraessi più campioni;

ognuno fornirebbe valori diversi della stima OLS di  e quindi diversi intervalli di confidenza;

l’(1-)% di questi intervalli includerebbe , mentre solo nell’

% dei casi devierebbe da  per

più di un certo .

(2)

2

• Verifica d’ipotesi, fissato il livello di significatività  (ad esempio per ).

Sia data una congettura

(ipotesi nulla), che si assume vera, attraverso la verifica

d’ipotesi si valuta l’entità della discrepanza tra quanto

osservato nei dati campionari e quanto previsto sotto ipotesi

nulla. Se, fissato il livello di significatività , la

“discrepanza” è significativa

l’ipotesi nulla viene rifiutata,

altrimenti l’ipotesi nulla non

(3)

3

INTERVALLI DI CONFIDENZA SICCOME

  0,1

: N

2 2

n

:

OVVERO:

2

ˆ

ˆ

t

n

s

 

 :

/g.l.

T-Student con (n-2) g.l.

standardizza ndo





2

2

, ˆ :

i u

N   x

0,1

ˆ :

2

N xi

u

 

 

2

2 ˆ

2

2 2

 

n s n

x

u u

i

(4)

1

Prob t

/2

t

n 2

t

/2

Quindi l’intervallo di confidenza per 

all’(1 -)% si determina nel seguente modo:

ˆ 

ˆ 

  1  Prob t

/2

s

ˆ

t

/2

s

ˆ

Limite inferiore

Limite superior

e

In sostanza l’intervallo di confidenza fornisce

il range di valori in cui verosimilmente cade il

vero valore del parametro

(5)

5

VERIFICA DI IPOTESI

• Fissato il livello di significatività 

• Ipotesi nulla

• Ipotesi alternativa

• Statistica test

Regione di

Accettazione o di

Rifiuto del test

(6)

VERIFICA DI IPOTESI:

SIGNIFICATIVITA’ di

0

: 0

H

: 0

H

A

 

NON ESISTE RELAZIONE

LINEARE TRA X ED Y

STATISTICA TEST

SI RESPINGE L’IPOTESI NULLA SE:

REGOLA D’ORO

QUANDO n è grande, t-student ad una Normale, quindi se fissiamo il 5% come

livello di significatività, possiamo adottare la

“regola d’oro”: se

0

: 0

H  

ALLORA SI RIFIUTA L’IPOTESI NULLA:

ˆ

ˆ 2 s

2 ˆ

ˆ

0 ˆ ˆ

 

t

n

s s

2 , 2 / ˆ

ˆ

t

n

s

REGIONE CRITICA

(7)

7

VERIFICA DI IPOTESI H0: = 0

• Se 

0

è una costante si può verificare:

H0: = 

0

0 1

:    H

2 ˆ

ˆ

0

t

n

s

 STATISTICA

TEST

SI RESPINGE L’IPOTESI NULLA SE:

2 , 2 / ˆ

ˆ

0

t

n

s

N.B. ancora una volta se n è

grande la distribuzione t-Student

si approssima alla distribuzione

normale standardizzata

(8)

Significato del coefficiente 

  esprime di quanto varia

mediamente Y in conseguenza di una variazione unitaria di X.

• Se >0, al crescere di X cresce anche Y (relazione lineare diretta)

• Se <0, al crescere di X, Y

decresce (relazione lineare inversa)

(9)

9

REGRESSIONE E CORRELAZIONE

0 A X X

Y

Y

B

x

i

y

i

T R Q P

S V

N COPPIE DI PUNTI

,

S X Y

i

,

i

P x y

i=1, …, N

PVXi

PTY

i

I QUADRANTE: IL PRODOTTO

II QUADRANTE: IL PRODOTTO

III QUADRANTE: IL PRODOTTO

IV QUADRANTE: IL PRODOTTO

   

i i i i

x yXX Y YX

i

Y

i

i i

0 x y

i i

0 x y

i i

0 x y

i i

0

x y

(10)

LA FUNZIONE MISURA l’intensità del LEGAME LINEARE TRA X ED Y.

i i

x y

COEFFICIENTE DI CORRELAZIONE DI BRAVAIS-PEARSON

n s

X

x

i2

n s

Y

y

i2

i i

i i

y n x

Y Y

X n X

Y X Cov

 1

) )(

1 ( )

, (

COVARIANZA

Y X

i i

s s

y r x

R è un indice relativo, ossia non

dipende dall’unità di misura delle

variabili X, Y

(11)

11

SE SULLE N COPPIE DI OSSERVAZIONI STIMIAMO UN MODELLO LINEARE

SICCOME

ALLORA ABBIAMO:

ˆ i 2i i

x y

x

MISURA DEL LEGAME LINEARE TRA X ED Y

MISURA DELLA

DIPENDENZA LINEARE DI Y DA X

Osservazione: SE SI È ACCERTATA L’ESISTENZA DI UN LEGAME LINEARE SONO POSSIBILI DUE TIPI DI DIPENDENZA LINEARE: QUELLO DI Y DA X E QUELLO DI X DA Y;

CONSIDERAZIONE: NELL’ANALISI DI REGRESSIONE È NECESSARIO DECIDERE “EX ANTE” QUALE TIPO DI DIPENDENZA SI VUOLE CONSIDERARE;

ˆ

x

y

r s

s

  

X

Y

(12)

CONSIDERAZIONE: L’ANALISI DI CORRELAZIONE PRESCINDE DA LEGAMI CAUSALI; QUELLA DI REGRESSIONE È BASATA SUI LEGAMI CAUSALI;

CONSIDERAZIONE: CORRELAZIONE E CAUSALITÀ. ESEMPIO: NUMERO DI MALATI DI UNA DATA PATOLOGIA PER ZONA (X), NUMERO DI MEDICI PRESENTI PER ZONA (Y).

SE r INDICA ALTA CORRELAZIONE QUESTO NON SIGNIFICA CHE UN ELEVATO NUMERO DI MEDICI CAUSA UN ELEVATO NUMERO DI MALATI MA SIGNIFICA SOLO CHE TRA LE DUE VARIABILI ESISTE UN ALTO LEGAME LINEARE;

(13)

13

PROPRIETÀ DEI RESIDUI

• •

• •

• •

• •

• •

• •

Y

X S

R Q

P(xi,yi)

ˆ

i

ˆ

i

QR Y Y    y

i i

PR Y Y    y Y

X

RESIDUO

X Y ˆ   ˆ   ˆ

x y ˆ   ˆ

Sono somme degli scarti dalla media, quindi sono zero

i i

i

Y u

Y

PQ   ˆ  ˆ

ˆ  0

u

i

ˆ      0

u

i

y

i

x

i

i i

i i

i

y y y x

u ˆ   ˆ    ˆ

(14)

14

SCOMPOSIZIONE DELLA DEVIANZA

• Dal precedente grafico:

ˆ ) ( ˆ )

( Y Y Y Y

Y

Y

i

 

i

i

i

ˆ ) ˆ )(

( 2

ˆ ) ( ˆ )

(

) (

2 2

2

Y Y

Y Y

Y Y

Y Y

Y Y

i i

i i

i i

i

0 ˆ )

( ˆ

) ˆ ( ˆ

i i

i i

i i

i

X u

u Y

Y u Y

Y u

( Y

i

Y )

2

( Y

i

Y ˆ

i

)

2

( Y ˆ

i

Y )

2

DEVIANZA DEVIANZA DEVIANZA

TOTALE RESIDUA

SPIEGATA

TSS = RSS + ESS

Total Sum = Residual Sum + Explained Sum

(15)

15

1 RSS ESS

TSS TSS

 

Si definisce COEFFICIENTE DI DETERMINAZIONE

TSS RSS TSS

R

2

ESS  1 

Dividendo tutto per TSS si ottiene:

Tale coefficiente rappresenta la proporzione di devianza totale

spiegata dal modello di regressione lineare di Y su X.

Dato che

 

MAX ESS TSS  0  R

2

 1

Quando il modello non spiega niente della variabilità di Y

Tutta la

variabilità di Y

è spiegata dal

modello

(16)

SE

=0 SIGNIFICA CHE IL CONTRIBUTO ESPLICATIVO ALLA DEVIANZA COMPLESSIVA APPORTATO DAL MODELLO È IDENTICAMENTE NULLO; LA DEVIANZA COMPLESSIVA È SOLO SPIEGATA DALLA COMPONENTE CASUALE (RESIDUO).

SE

=1 TUTTI GLI N VALORI EMPIRICI

OSSERVATI GIACCIONO ESATTAMENTE SULLA RETTA DI REGRESSIONE; IL CONTRIBUTO

ALLA DEVIANZA COMPLESSIVA È SOLO FORNITO DAL MODELLO.

NEI CASI INTERMEDI, QUANTO PIÙ

È

PROSSIMO AD UNO O A ZERO, TANTO

PIÙ/MENO LA VARIABILITÀ COMPLESSIVA È SPIEGATA DAL MODELLO PRESCELTO. AD

ESEMPIO, UN VALORE

=0.80 SIGNIFICA CHE IL MODELLO PRESCELTO RIESCE A SPIEGARE L’80 PER CENTO DELLA VARIABILITÀ

COMPLESSIVA.

(17)

17

Il coefficiente di determinazione rappresenta un indice di fitting (da prendere con cautela!), in quanto misura l’adattabilità del modello specificato ai dati.

Vediamo che relazione c’è tra ed i parametri della retta di

regressione. Per fare questo

consideriamo il modello in forma di scarti

R2

i

i

x

y ˆ   ˆ

Ogni osservazione della variabile dipendente può essere scomposta in

i i

i

y u

y  ˆ 

   

y

i 2

( y ˆ

i

u

i

)

2

y ˆ

i2

u

i2

ˆ 0

ˆ   

u

i

y

i

u

i

x

i

 ˆ

2 2 2

i

i

u

x

(18)

Ne consegue che

2 2

2 2 2

2 2

2

ˆ ˆ ( ˆ ) ( )

s r s y

x y

y TSS

R ESS

Y X i

i i

i

  

  

 

UNA SEMPLICE ED EFFICIENTE RELAZIONE PER IL COEFFICIENTE DI DETERMINAZIONE SI PUÒ RICAVARE ANCHE DA:

 

2

2

2

1 1

i i

y u TSS

R RSS

QUINDI IL COEFFICIENTE DI DETERMINAZIONE È UGUALE AL QUADRATO DEL COEFFICIENTE DI CORRELAZIONE.

(19)

19

ANALISI DELLA VARIANZA (ANOVA)

La scomposizione

O equivalentemente

MOSTRA LA SCOMPOSIZIONE DELLA VARIABILITÀ TOTALE (in forma di DEVIANZA) NEI CONTRIBUTI della COMPONENTE DI ERRORE e del MODELLO specificato. INOLTRE:

SAPPIAMO CHE:

TSSRSS ESS

2

ˆ

2 2

ˆ

i i

ESS   y    x

 

) 1 , 0 ( :

ˆ

2

x N

u

i

y

i 2

u

i2

y ˆ

i2

(20)

ALLORA:

SI PUÒ DIMOSTRARE CHE:

ALLORA:

Pertanto per verificare l’ipotesi

Si può utilizzare la suddetta statistica test che sotto ipotesi nulla è

0

: 0

H  

Quadrato di una N(0,1)

Rapporto tra Chi- Quadrato divise per i propri g.l.

0 1

:    H

 

) 2 , 1 2 (

2 2

) : 2 /(

1 / )

2 /(

ˆ

 

 

n i

i

F

n RSS

ESS n

u

x

 

2

) 1 2 (

2 2

ˆ :

 

u

x

i

2 ) 2 2 (

2

:

n u

u

i

 

 

) 2 , 1 2 (

2 2

) : 2 /(

ˆ

 

n i

i

F

n u

x

(21)

21

Intuitivamente un forte legame lineare tra X e Y determinerà valori elevati per la statistica test  bontà del modello.

Pertanto valori grandi della statistica test portano al rifiuto dell’ipotesi nulla.

Formalmente, se

viene rifiutata,

1,n 2

F

F

H

0

: 0

Valore empiric o

Valore teorico

Osservazione: nel caso del modello di regressione lineare semplice,

applicare il test t o F è

equivalente, in entrambi i casi si verifica la significatività dell’unico parametro di regressione, ma nel caso del modello di regressione lineare multipla il test F servirà per verificare la ‘bontà’ del

modello nel suo complesso e

quindi la significatività congiunta

di tutti i parametri di regressione.

(22)

TAVOLA ANOVA

CAUSA DEVIANZE GRADI DI STIME CORRETTE

VARIAZIONE LIBERTÀ DELLA VARIANZA

MODELLO 1

RESIDUO (n-2)

TOTALE (n-1)

ˆ x y

i i

1

 

ˆ

2

y

i

y

i2

y ˆ

i2

u

i2

u

i2

u

i2

/( n 2 )

(23)

23

PREVISIONE

• Il modello di regressione stimato spesso viene

utilizzato a fini previsivi,

ovvero per stimare il valore della variabile dipendente che corrisponde ad un

determinato valore della variabile indipendente Y ˆ

0

ˆ ˆ X

0

Lo standard error di tale valore previsto è

0 2 2

0

( )

) (

1 1 ˆ )

.(

. X X

X X

s n Y

e s

i

Pertanto i limiti dell’intervallo di confidenza per il valore

previsto, fissato un livello di

confidenza pari a 1-

(24)

ˆ ) .(

ˆ .

0 )

2 / , 2 (

0

t s e Y

Y

n

Si osservi che il valore dello s.e.

aumenta al crescere della

distanza tra X

0

e il valor medio di X, pertanto la qualità della

previsione diverrà sempre peggiore.

Inoltre può accadere che la

linearità della relazione tra Y e X sia limitata alla nuvola di punti osservati e che fuori tale

relazione non sia valida, pertanto può essere totalmente fuorviante prevedere un valore di Y

partendo da un valore di X che è

(25)

25

ESEMPIO NUMERICO

ANNI Yi Xi yi xi

xiyi x

1947 166 352 -51.8 -167.2 8660.96 27955.84

1948 153 373 -64.8 -146.2 9473.76 21374.44

1949 177 411 -40.8 -108.2 4414.56 11707.24

1950 201 441 -16.8 -78.2 1313.76 6115.24

1951 216 462 -1.8 -57.2 102.96 3271.84

1952 208 490 -9.8 -29.2 286.16 852.64

1953 227 529 9.2 9.8 90.16 96.04

1954 238 577 20.2 57.8 1167.56 3340.84

1955 268 641 50.2 121.8 6114.36 14835.24

1956 268 692 50.2 172.8 8674.56 29859.84

1957 274 743 56.2 223.8 12577.56 50086.44

n=11 Σ=2396 Σ=5711 Σ=52876.36 Σ=169495.64

MEDIAy=217.8 MEDIAx=519.2

 

ˆ y ˆx 217.8 0.312 519.2 55.81

2

52876.36

ˆ 0.312

169495.64

i i

i

x y

x

ˆi 55.81 0.312 i

y   x

}

0 X

Y y

x

Y→ INCIDENTI STRADALI (X1000)

X →VEICOLI CIRCOLANTI (X1000)

(26)

2

2

2

2

11, 5711, 2396

3134543, 1296836 169495.64, 52876.36

ˆ ˆ

17619.64, 55.81, 0.312

ˆ ˆ 2 11.18

i i

i i i

i i i

i

i

n X Y

X X Y

x x y

y

s e n

 

  

 

 

  

  

 

 

 

FONTE SS DF MS

MODELLO 16497.42 1 16497.42

RESIDUO 1124.33 9 124.93

TOTALE 17621.75 10

   

 

2

2

ˆ 2.262 11.18

ˆ 0.312

411.7 t s

x

 

 

INTERVALLO DI CONFIDENZA 2 0.025

tt ; 95%

ˆ ˆ 0.03 s

0.2506    0.3734

0.01;1.9

0

132, 10.56

: 0; ;

F F

HF F RESPINTA

 

 

(27)

27

 

12

2 2

52876.36

169495.64 17619.64 0.97

i i

i i

r x y

x y

  

  

LEGAME LINEARE POSITIVO E MOLTO ELEVATO, PARI AL 97% DEL MASSIMO VALORE POSSIBILE

VERIFICA D’IPOTESI DISGIUNTA PER β

ˆ

ˆ 0.312 0.03 10.4 t s

  

0

: 0

H  

È RESPINTA

Quindi la variabile veicoli circolanti risulta significativa

0.025;9

2.262

t

t

Riferimenti

Documenti correlati

Per ottenere alcune statistiche riportate nel precedente output si procede nel seguente modo..

La teoria matematica ci richiede delle particolari ipotesi su tali residui, che costituiscono la componente aleatoria del modello lineare: essi devono essere dei numeri

B Dal rapporto tra il numero di posti letto e popolazione media annua residente nel territorio di gravitazione dell’ospedale. C Dal rapporto tra numero di posti letto e giornate

Per far questo, ipotizziamo che i valori di Y siano realizzazioni campionarie di una qualche variabile causale e che i residui siano l’effetto risultante di un gran numero di

sulla base delle osservazioni campionarie verificare l’ipotesi nulla di assenza di un legame lineare tra Altezza e Peso, ad un livello di significatività 

Mohamoud confeziona una disamina partendo dalla “devianza” come violazione delle regole strutturali e di disciplina come conformità a tali regole. Quindi si appresta a studiare

Infatti, solo in rarissime occasioni si sono avute differenze significative tra i quattro indici calcolati nelle due tesi, tra I'altro non sempre a favore degli