Modello di regressione

(1)

Modello di regressione

Corso di Statistica Universit`a degli Studi di Salerno

Corso di Laurea Triennale in Economia e Management a.a. 2016/2017

(2)

Relazioni tra variabili

Uno degli obiettivi della statistica `e quello di studiare le relazioni esistenti tra variabili.

Il primo strumento utile per identificare il tipo di relazione esistente tra due variabili `e quello grafico: il diagramma a dispersione o diagramma scatter

Il diagramma a dispersione, o scatter-plot, fornisce una descrizione dei dati, evidenziando:

1 i possibili valori di ogni variabile;

2 l’eventuale relazione tra le due variabili;

(3)

(4)

Relazione lineare

Tra i possibili legami esistenti tra due variabili, il pi`u semplice `

e quello lineare, che indica che al variare di una delle due variabili l’altra cresce (o decresce) mediamente seguendo l’andamento di una retta.

Se il legame `e positivo, allora all’aumentare di una variabile anche l’altra aumenta (in media). Se il legame `e negativo, le due variabili si comportano in maniera opposta.

Gli indici di covarianza sXY e correlazione rXY misurano la

presenza e l’intensit`a del legame lineare esistente tra due variabili.

Nota chel’indice di correlazione non `e una misura generale della relazione tra due variabili, ma esprime solo il grado di linearit`a della relazione in un grafico a dispersione.

(5)

(6)

Relazioni causa-effetto

Un particolare tipo di relazione tra variabili `e quella che stabilisce un nesso di causalit`a diretta tra una variabile e le altre.

E’ da tener presente che il diagramma a dispersione, la

covarianza e il coefficiente di correlazione non possono provare relazioni di causa-effetto tra variabili, ma ne forniscono l’evidenza empirica.

Per giungere a conclusioni fondate, fondamentali per la formulazione di un modello statistico, bisogna quindi combinare teoria, esperienza e analisi statistica.

(7)

Modelli statistici

Una parte rilevante della statistica `e fondata sull’analisi dei fenomeni attraverso la costruzione di modelli che

rappresentino una visione “semplificata” della realt`a. problema reale −→ problema statistico

Un modello studia il legame esistente tra due o pi`u aspetti di un fenomeno che si intende spiegare, dei quali uno viene visto come effetto o risultato e gli altri come causa.

effetto ← causa 1, causa 2,. . . Va ribadito che tutti i modelli sono intrinsecamente sbagliati: essi sono solo parzialmente e provvisoriamente utili, e sono destinati ad essere sostituiti con l’avanzare del

(8)

Alcuni cenni storici

Il modello statistico più longevo e più utilizzato nella storia della statistica è ilmodello di regressione

Il termine ”regressione” venne coniato nel diciannovesimo secolo dal biologo e statistico Galton in occasione di una famosa applicazione in cui esaminava le altezze dei figli in funzione della media delle altezze dei due genitori, per un gran numero di famiglie inglesi.

Sebbene si evidenziasse una relazione diretta tra altezze dei genitori e dei figli, Galton osserv`o che a genitori

eccezionalmente alti/bassi non corrispondevano figli alti/bassi in modo cos`ı estremo, e applic`o il termine vagamente

fuorviante di regressione verso la media.

Per Galton, la regressione aveva solo questo significato biologico, ma il suo lavoro venne in seguito esteso da Yule e Pearson in un contesto statistico pi`u generale. Oggi il termine ”regressione” `e spesso sinonimo di ”relazione funzionale tra variabili”.

(9)

Esempi di problemi analizzabili mediante un modello

1 Quale livello medio di vendite si potrebbe prevedere se il

prezzo di vendita venisse fissato a 10 dollari per unit`a?

2 Con 250 operai, quante unit`a di prodotto si potrebbero

prevedere?

3 Se un Paese in via di sviluppo aumenta la sua produzione di

fertilizzanti di 1000000 di tonnellate, quanto sar`a l’aumento atteso nella produzione di cereali?

(10)

Formulazione del modello

La “semplificazione” del modello di regressione consiste nel: quantificare in qualche modo i fenomeni, rappresentandoli e misurandoli attraverso delle variabili;

ipotizzare una relazione funzionale tra la variabile dipendente (effetto o variabile risposta), indicata con Y , e le variabili indipendenti (cause o variabili esplicative), indicate con le lettere X1, . . . , Xp;

considerare una variabile residuale che racchiuda l’insieme delle concause non note che dovessero agire sul fenomeno analizzato. Questa variabile deve comportarsi come una componente erratica.

Y = f (X1, X2, . . . , Xp) +

La formulazione e costruzione di un modello `e un’operazione delicata che richiede generalmente la collaborazione di esperti di varie discipline, tra cui lo statistico.

(11)

Fasi della costruzione di un modello

Mediante l’interazio-ne tra statistici ed esperti del fenomeno analizzato, il proble-ma reale va tradotto in un modello statisti-co (specificazione) il quale, formalizzato in una struttura probabi-listica, viene stimato e sottoposto ad inferen-za mediante un’inda-gine campionaria ( sti-ma e verifica o valida-zione), prima di poter essere utilizzato.

(12)

Specificazione del modello di regressione

La fase di specificazione avviene esplicitando la relazione funzionale tra le variabili coinvolte nel modello

Y = f (X1, X2, . . . , Xp; β) + , (4.1)

per una qualche funzione f , dipendente dai regressori e da un vettore di parametri β.

Dato un campione di dimensione n, la relazione (4.1) si ripropone per le n unit`a statistiche campionarie

Yi = f (Xi 1, Xi 2, . . . , Xip; β) + i, i = 1, . . . , n. (4.2)

La notazione in lettere maiuscole (o lettera greca) utilizzata nella (4.1) e nella (4.2) viene generalmente usata in

riferimento al campione casuale (v.c. campionaria), mentre per la particolare realizzazione osservata si ricorre alle corrispondenti lettere minuscole

(13)

Ipotesi classiche del modello di regressione semplice

Il modello di regressione, nella sua versione pi`u semplice, si basa sul seguente insieme di ipotesi:

1 La funzione f (·; β) `e di tipo lineare e dipende da un unico

regressore,

Yi = β0+ β1xi+ i, i = 1, . . . , n. 2 La variabile indipendente X `e deterministica, per cui le

relative osservazioni campionarie si considerano fissate a priori (per tale motivo vengono indicate con le lettere minuscole anche quando la relazione si riferisce alla v.c. campionaria).

3 E (i) = 0, ∀i ; 4 Var (i) = σ2, ∀i ; 5 Cov (i, j) = 0, ∀i 6= j .

(14)

Il modello di regressione lineare semplice

Osservazioni generate da variabili Y e X legate da una relazione lineare causa-effetto

(15)

Commento sull’ipotesi di linearit`

a

L’ipotesi 1 sulla linearità rappresenta il caso più semplice di modello. È da notare, tuttavia, che la linearità del modello va intesa rispetto ai parametri βj, e non rispetto alla X .

Esempio: Yi = β0+ β1Xi2+ i.

Talvolta il modello, originariamente non lineare, pu`o essere linearizzato ricorrendo ad alcune trasformazioni delle variabili. Ad esempio, nel caso di relazione moltiplicativa, `e utile ricorrere alla trasformazione logaritmica

Yi = β0Xi 1β1i

log Yi = log β0+ β1log Xi 1+ log i,

e se per tale trasformazione valgono le ipotesi classiche, la procedura di stima del modello lineare classico pu`o essere applicata ai dati trasformati.

(16)

Commento sull’ipotesi di variabili deterministiche

L’ipotesi 2 esclude che la variabilit`a del regressore X sia di natura stocastica (caso a).

Tuttavia, se è più realistico affermare che essa è una v.c., allora il modello di regressione andrebbe esaminato

condizionatamente ai valori osservati per essa. In tal caso, il modello di regressione rappresenterebbe la media condizionata E (Y |X = x ) (caso b).

(17)

Commento sull’ipotesi di omoschedasticit`

a

L’ipotesi 3 sull’errore garantisce il comportamento erratico delle variabili casuali i. Data la loro funzione, `e naturale

assumere che queste non influenzino in media la variabile Y . L’ipotesi 4 sulla varianza degli errori costante

(omoschedasticit`a) ha la funzione di assicurare che gli errori non manifestino un comportamento “strutturato” e quindi “prevedibile”.

(18)

Commento sull’ipotesi di incorrelazione

Infine, l’ipotesi 5 sull’incorrelazione tra gli errori relativi a unit`a statistiche diverse, soprattutto quando la variabile regressore `e legata al tempo, assume che gli errori non manifestino un comportamento “strutturato” e quindi “prevedibile” nel tempo.

(19)

Violazione delle ipotesi classiche

Una o pi`u delle ipotesi classiche potrebbero non valere in determinati contesti.

Il modello di regressione pu`o essere esteso e generalizzato a tali contesti, in cui una o pi`u ipotesi classiche vengono violate

modelli di regressione nonlineare o nonparametrici modelli di regressione con errori eteroschedastici modelli di regressione con errori autocorrelati modelli di regressione per dati spazialmente correlati ....

Lo studio di tali estensioni del modello di regressione viene generalmente affrontato nei programmi dei corsi di

(20)

Modello di regressione: propriet`

a

Dato il modello di regressione lineare semplice Yi = β0+ β1xi + i,

sotto le ipotesi 1-5 formulate, risulta

E (Yi) = E (β0+ β1xi+ i) = β0+ β1xi

Var (Yi) = Var (i) = σ2,

Nota, per`o, che la distribuzione della Yi non `e nota, a meno

che non si facciano ulteriori ipotesi sulla distribuzione degli errori.

In particolare, se assumiamo che gli errori si distribuiscano normalmente, ovvero i ∼ N (0, σ2) per ogni i = 1, . . . , n,

allora

(21)

Stima dei coefficienti mediante il metodo LS

Per la stima del vettore β, si ricorre ad un metodo di stima basato sul criterio dei minimi quadrati (LS - Least Squares), che non richiede la conoscenza della distribuzione della Yi.

La logica su cui si fonda `e quella di individuare la migliore stima per β rendendo minimo il “contributo” degli errori. Formalmente i = Yi− β0− β1xi Q (β0, β1) = n X i =1 2_i = n X i =1 (Yi− β0− β1xi)2 ˆ βLS = arg min Q (β0, β1). (4.3)

Il vettore ˆβLS = (b0, b1) viene detto stimatore dei minimi

(22)

Stimatore ˆ

β

LS

= (b

0

, b

1

)

Lo stimatore dei minimi quadrati per β1, coefficiente angolare

della retta di regressione, `e b1= Pn i =1(xi− ¯xi)(yi− ¯yi) Pn i =1(xi − ¯xi)2 = SXY S_X2 .

Lo stimatore dei minimi quadrati per β0, intercetta della retta

di regressione, `e

b0 = ¯y − b1x¯ (4.4)

La retta stimata `e data da: ˆyi = b0+ b1xi

Al variare del campione, lo stimatore ˆβLS = (b0, b1) descrive

una coppia di variabili casuali, le cui propriet`a devono essere derivate per poter fare inferenza sul modello di regressione.

(23)

Il modello di regressione lineare stimato

N.B.: la differenza tra il valore osservato yi e quello previsto ˆyi genera il residuo ei.

(24)

Propriet`

a del modello di regressione lineare stimato

Dalla (4.4) si nota che la retta di regressione passa sempre per il punto medio di coordinate (¯y, ¯x ).

La somma dei residui stimati `e sempre nulla

n X i =1 ˆ ei = n X i =1 (yi− ˆyi) = 0.

Dalla propriet`a precedente deriva la seguente:

n X i =1 yi = n X i =1 ˆ yi,

e dividendo ambo i membri per n risulta che la media

campionaria dei dati yi coincide con la media campionaria dei

(25)

Propriet`

a dello stimatore ˆ

β

LS

Riguardo alle propriet`a statistiche dello stimatore ˆβLS per

campioni finiti, esse sono sancite in un teorema dimostrato da Gauss e Markov, che afferma che, sotto le ipotesi classiche 1-5, lo stimatore ˆβLS `e lineare, non distorto ed il pi`u efficiente

nella classe degli stimatori lineari e non distorti (BLUE - Best Linear Unbiased Estimator).

I momenti caratteristici dello stimatore ˆβLS sono

E ( ˆβLS) = (β0, β1) (4.5) Var ( ˆβLS) = σ2_m 2X nS_X2 , σ2 nS_X2 . (4.6)

La (4.5) conferma che lo stimatore `e non distorto, mentre dalla (4.6) si nota che la varianza dello stimatore converge a zero per n → ∞. Quindi, lo stimatore LS `e consistente in media quadratica.

Altra proprietà asintotica generalmente valida per tale stimatore riguarda la normalità asintotica, per cui è possibile ricorrere a soluzioni inferenziali di tipo asintotico (grandi 25/45

(26)

Propriet`

a dello stimatore ˆ

β

LS

Se alle ipotesi classiche 1-5 se ne aggiunge una sesta relativa alla distribuzione degli errori, ovvero

6. i ∼ N (0; σ2_), _∀i

che include, ovviamente, le ipotesi 3 e 4, allora `e nota la distribuzione campionaria dello stimatore di ˆβLS anche per

campioni finiti b0 ∼ N β0; σ2m2X Pn i =1(xi − ¯x )2 (4.7) b1 ∼ N β1; σ2 Pn i =1(xi − ¯x )2 (4.8) In tal caso `e possibile costruire test delle ipotesi e intervalli di confidenza esatti, quindi validi anche per piccoli campioni, per i parametri del modello.

(27)

Validazione del modello di regressione

Prima di essere utilizzato per i fini preposti, il modello va testato e validato, al fine di controllare se le ipotesi su cui esso si basa sono da considerarsi verificate oppure no.

La violazione di una o pi`u ipotesi pu`o infatti invalidare l’intera procedura di stima del modello, in quanto gli stimatori

utilizzati di fatto non garantiscono più le proprietà desiderate. La fase di verifica del modello è nota col nome di diagnostica o validazione del modello di regressione, e viene attuata attraverso una serie di strumenti grafici ed inferenziali,

l’analisi grafica della retta e dei residui stimati, iltest delle ipotesi sui parametrie sulla normalit`a dei residui, la

costruzione di intervalli di confidenza e il calcolo dell’indice sulla bont`a di accostamento del modello ai dati, noto come indice R2.

(28)

Analisi dei residui

Poich`e il modello di regressione `e basato su un insieme di ipotesi, se queste non sono verificate l’analisi della regressione potrebbe portare a conclusioni errate.

Nel modello di regressione semplice, `e sempre buona norma esaminare il grafico dei residui rispetto alla variabile

esplicativa, per individuare anomalie di comportamento di qualche dato, una errata specificazione della forma funzionale del modello, ecc..

Poichè, date le ipotesi 1-5, i residui dovrebbero essere realizzazioni di v.c. omoschedastiche e incorrelate per unità distinte, bisogna accertarsi che il grafico dei residui stimati non evidenzi una situazione incompatibile con tali ipotesi, quali una struttura di eteroschedasticità.

Infine, per piccoli campioni, l’ipotesi di normalit`a degli errori andrebbe testata mediante strumenti inferenziali appositi (test di normalit`a).

(29)

(30)

Ricerca di outliers

Si noti che la retta di regressione `e, in pratica, una media, ed in quanto tale risente della presenza di dati anomali.

(31)

Ricerca di outliers

Talvolta una relazione lineare pu`o risultare ingigantita a causa della presenza di dati anomali.

(32)

Ricerca di outliers

Altre volte possono evidenziarsi degli effetti di leverage causati da una o pi`u osservazioni anomale.

(33)

Ricerca di outliers

Nelle applicazioni a dati reali, bisogna sempre analizzare attentamente i dati ”inusuali” e decidere se inserirli o meno nella regressione.

I grafici precedenti, ed altri indicatori proposti e qui non analizzati, possono aiutare l’analista in questa ricerca.

Tuttavia, `e bene precisare che l’individuazione di dati anomali deve essere basata su una conoscenza approfondita del

fenomeno analizzato, per decidere sulla natura e la causa della diversit`a del dato.

(34)

Test delle ipotesi sul coefficiente β

1

Al fine di verificare se la relazione lineare tra Y e X esiste, `e utile sottoporre a test il seguente sistema di ipotesi

H0 : β1 = 0 H1 : β1 6= 0

Dalla (4.7) si ricava la seguente statistica test T = b1− β1 es(b1) = _q b1 s2 e Pn i=1(xi−¯x )2 H_{∼ t}0 (n−2) dove s_e2 = Pn i=1ˆei2

n−2 `e la stima della varianza degli errori σ2.

La regione critica di rifiuto `e data da |T_c| > t_{(1−α/2;n−2)}

dove t_{(1−α/2;n−2)}`e il percentile di una t -Student con n − 2 gdl.

(35)

Test delle ipotesi sul coefficiente β

1

Nota che:

1 Il test pu`o essere fatto anche considerando in H0 un valore

β16= 0.

2 Tuttavia, il caso H₀: β₁= 0 `e utile perch`e permette di

verificare la significativit`a del modello stesso. In questo caso particolare, una formula alternativa della statistica test `e

T = q b1 s2 e Pn i=1(xi−¯x )2 = (n − 2) r 2 XY 1 − r2 XY

3 Ovviamente, il test pu`o anche essere ad alternativa unilaterale

(a una coda, destra o sinistra) invece che bilaterale (a due code).

4 In caso l’ipotesi 6 non valga, la statistica test `e

asintoticamente normale in virt`u del TLC, e il test pu`o essere usato per grandi campioni usando i percentili della normale standard.

(36)

Test delle ipotesi sul coefficiente β

0

Allo stesso modo, possiamo costruire un test sull’intercetta del modello di regressione

H0 : β0 = 0 H1 : β0 6= 0

Dalla (4.4) si ricava la seguente statistica test

T = b0 se q _m 2X Pn i=1(xi−¯x )2 H0 ∼ t_(n−2)

La regione critica di rifiuto `e data da |Tc| > t(1−α/2;n−2)

(37)

Intervalli di confidenza per i parametri

Dalle (4.4) e (4.7) `e anche immediato derivare intervalli di confidenza per i parametri del modello di regressione

b0− t(1−α/2;n−2)es(b0) ≤ β0≤ b0+ t(1−α/2;n−2)es(b0) b1− t(1−α/2;n−2)es(b1) ≤ β1≤ b1+ t(1−α/2;n−2)es(b1) dove es(b0) = se r _m 2X Pn i =1(xi− ¯x )2 es(b1) = se s 1 Pn i =1(xi− ¯x )2

(38)

Bont`

a di accostamento del modello ai dati

Vogliamo ora sviluppare delle misure che indichino quanto efficacemente la variabile X spieghi il comportamento di Y . A tal fine, `e possibile utilizzare l’analisi della varianza, detta ANOVA (ANalysis Of VAriance), basata sulla scomposizione della varianza totale nella somma di due componenti

n X i =1 (yi− ¯y)2 = n X i =1 (ˆyi − ¯y)2+ n X i =1 (yi− ˆyi)2 SST = SSR + SSE dove

SST =Pn_i=1(yi− ¯y)2`e la devianza totale

SSR =Pn_i=1(ˆyi− ¯y)2`e la devianza della regressione SSE =Pn_i=1(yi− ˆyi)2 `e la devianza dei residui

(39)

Bont`

a di accostamento del modello ai dati

Scomposizione della devianza: si noti come l’adattamento del modello di regressione lineare ai dati `e migliore quando aumenta SSR e diminuisce SSE

(40)

Coefficiente di determinazione R

2

Dalla scomposizione della devianza possiamo ricavare un indice che misura la bont`a di accostamento del modello lineare ai dati

1 = SSR SST +

SSE SST Definiamo il coefficiente di determinazione R2

R2 = SSR SST = 1 −

SSE SST

L’indice R2 varia tra 0 e 1 e valori pi`u elevati indicano una migliore bont`a del modello.

Il coefficiente di determinazione R2 `e spesso interpretato come la percentuale di variabilit`a di Y spiegata dal modello di regressione.

Si dimostra che, per il modello di regressione lineare semplice, si ha che R2= r_XY2

(41)

(42)

Esempio 4.1 (Esercizio pag. 491 n. )

Su un campione casuale di 306 studenti di un corso di statistica di base `e stata ottenuta la seguente retta di regressione stimata:

ˆ

y = 58.813 + 0.2875x in cui:

y = Punteggio nell’esame finale; x = Punteggio nel test di ingresso.

Il coefficiente di determinazione `e stato 0.1158 e sb1 vale 0.04566. 1 Interpretate b1.

2 interpretate il coefficiente di determinazione.

3 Con le informazioni disponibili, l’ipotesi nulla che β₁ sia nullo

contro l’alternativa che sia positivo pu`o essere verificata in due modi diversi. Effettuate queste verifiche e dimostrate che giungono alle stesse conclusioni.

(43)

Utilizzo del modello di regressione

Superata la fase di verifica, il modello pu`o essere utilizzato. Il modello di regressione pu`o essere utilizzato per molteplici obiettivi, tra cui:

Descrizione e interpretazione Previsione

Analisi di stabilit`a, controllo, simulazione....

(44)

Descrizione e interpretazione

I parametri stimati di un modello di regressione possono fornire interessanti informazioni:

l’intercetta β0 rappresenta il livello base della relazione tra X e

Y , poich`e `e il valore assunto da Y in corrispondenza di x = 0 Y = β0+ β1∗ 0 = β0;

il coefficiente angolare β1 esprime il tasso di variazione di Y al

variare di una unit`a di X . Infatti:

[β0+ β − 1(x + 1)] − [β0+ β1x ]

(x + 1) − (x ) = β1

Nota: nelle scienze economiche, se le variabili sono espresse in logaritmi, il coefficiente angolare assume il significato di di elasticit`a.

(45)

Esempio 4.2 (Esercizio pag. 457 n. 12.21)

Una grande societ`a sottopone tutti i nuovi agenti di commercio a test attitudinali. I dirigenti sono interessati a sapere fino a che punto il test possa prevedere l’eventuale successo degli agenti. La tabella seguente contiene le vendite medie settimanali (in migliaia di dollari) e i punteggi nei test attitudinali per un campione casuale di otto agenti di commercio.

Vendite settimanali 10 12 28 24 18 16 15 12 Punteggio del test 55 60 85 75 80 85 65 60

a. Stimate la retta di regressione delle vendite settimanali sul punteggio dei test attitudinali.

(46)

Previsione

Si tratta di attribuire un valore numerico alla v.c. Yi

conoscendo il valore X = xi, tramite la stima ˆyi = ˆβ0+ ˆβ1xi.

Tale utilizzazione include tre situazioni ricorrenti:

la valutazione di un valore futuro (previsionein senso stretto); la determinazione di un valore intermedio (interpolazione); la stima di una valore mancante (imputazione).

Nota, per`o, che vanno distinti i due casi di previsione del livello medioE (Y |X = xi) e diprevisione del valore singolo

yi in corrispondenza di X = xi. I due casi corrispondono alle

due diverse assunzioni che si possono considerare nell’ipotesi 2 (ovvero, variabile X stocastica oppure deterministica)

Mentre la previsione puntuale non cambia nei due casi, gli intervalli di confidenza per le previsioni sono leggermente diversi.

(47)

Previsione

Se l’ipotesi 2 stabilisce che la variabile X `e stocastica (quindi, che il modello di regressione `e una media condizionale), allora l’intervallo di confidenza per la previsione

E (Yn+1|Xn+1= xn+1) `e dato da ˆ yn+1± t(α/2;n−2)se s 1 n + (xn+1− ¯x )2 P(xi− ¯x )2

Se l’ipotesi 2 stabilisce che la variabile X `e deterministica (quindi, che il modello regressione contiene la variabile errore i), allora l’intervallo di confidenza per la previsione yn+1 `e

dato da ˆ yn+1± t(α/2;n−2)se s 1 + 1 n + (xn+1− ¯x )2 P(x_i − ¯x )2

Nota chegli intervalli hanno ampiezza minima quando xi ≡ ¯x , mentre l’ampiezza cresce man mano che xi si

(48)

Esempio 4.3 (Esercizio pag. 483 n. 12.63)

Un nuovo agente di commercio della societ`a considerata

nell’Esercizio 12.21 ottiene un punteggio di 70 nel test attitudinale. Costruite l’intervallo di confidenza, a livello 80% e 90%, per la previsione delle vendite settimanali che riuscir`a ad effettuare.