Prof. L. Neria.a. 2015-2016 Corso diAnalisi Statistica per le imprese

(1)

Corso di

Analisi Statistica per le imprese

Esercitazione: Modello di regressione lineare semplice e multipla

Prof. L. Neri a.a. 2015-2016

1

(2)

Verifica di ipotesi per i singoli parametri del modello – Test t

Il contributo (marginale) della singola variabile X_j (j=2,…,k) alla previsione di Y si può verificare attraverso il sistema di ipotesi:

0 :

H

0 :

H

j 1

j 0







Se si accetta H₀, si conclude che, al variare di X_j, quando tutte le altre X rimangono immutate, il valore medio di Y rimane costante

In altre parole, l’ipotesi nulla afferma che X_j non fornisce informazione utile per stimare Y al di là di quella fornita dalle altre variabili esplicative

2

(3)

Statistica test

0 :

H

0 :

H

j 1

j 0







 

j ⁿ ^k

j t

se ~ ^

ˆ ˆ



Al livello di significatività α, si accetta H

₀

se il valore della statistica test calcolato sul

campione cade nell’area di accettazione dell’ipotesi nulla, cioè se

 

j ⁿ ^k j

k

n t

t _  se  _

 ₂_; ₂_;

ˆ ˆ



 



Statistica test

3

(4)

Esempio – Vendite di gelato

Risultati ottenuti su un campione di n=10 osservazioni

Per ciascun coefficiente il valore della statistica test è sufficientemente elevato (in valore assoluto) da portare al rifiuto dell’ipotesi nulla (come si legge anche dai bassi valori del p-value)

Ciascuna delle due var. X fornisce un’utile

informazione aggiuntiva per spiegare le variazioni nei valori campionari della var. Y, oltre a quella

fornita dall’altra var. esplicativa

Coefficienti Errore

standard Stat t p-value

Intercetta 6,770 1,165 5,812 0,001

Prezzo -0,201 0,054 -3,706 0,008

Temperatura 0,281 0,032 8,898 0,000

4

(5)

Analisi della varianza - test F

Il test F è una procedura per sottoporre a

verifica l’ipotesi che i parametri del modello siano congiuntamente uguali a zero

0 un

:

0 ...

:

1

2 0





j k

almeno H

H



Se si accetta H

0

vuol dire che nessuna

variabile esplicativa X

_j

(j=2,…,k) ha un effetto significativo su Y

Se si accetta H

₁

, si conclude che c’è almeno una variabile esplicativa X

_j

da cui Y dipende significativamente

5

(6)

Generalizzando il risultato ottenuto nel modello di regressione lineare semplice, la statistica test per verificare questa ipotesi è data da:

Analisi varianza e test F

k n

Fk

k n RSS

k ESS

 



~ ,

) /(

) 1 /(

Nella regressione semplice era:

2 ,

~ 1

) 2 /(

1 /

 F ⁿ

n RSS

ESS

6

(7)

Tabella ANOVA

Regione di rifiuto sulla coda destra della distribuzione

Se il valore empirico della statistica test F > F_k,n-k;α

si rifiuta H₀ al livello di significatività prescelto

F_k,n-k;α

7

(8)

23 , 16 42

, 0

55 ,

6 



 MSR

F MSE

737 ,

4 F₀_,₀₅_;₂_;₇ 

Test F ANOVA - Output Excel

0 oppure

: H

0 :

H

2 1

1

2 1

0







Per verificare 

Al livello α=0,05

42,23 > 4,737 Si rifiuta H₀

L’evidenza campionaria contraddice l’ipotesi nulla La quantità venduta di gelato dipende

linearmente da almeno una delle due variabili esplicative (prezzo e temperatura)

gdl SQ MQ F p-value

Modello 2 13,10 6,55 42,23 0,00

Errore 7 1,09 0,16

Totale 9 14,18

8

(9)

Esercizio 1

Per un campione di clienti, il gestore di una pizzeria che effettua

consegne a domicilio registra la distanza (in km) dalla pizzeria al cliente e il tempo (in minuti) necessario per consegnare la pizza.

Si vuole studiare la dipendenza lineare del tempo (Y) dalla distanza (X).

Sappiamo che:

Dev(X)=7,45; Dev(Y)=TSS=26,18; n=12; R²=0,895 a) Stimare il coefficiente della variabile X

b) Costruire l’intervallo di confidenza al 90% per il suddetto

coefficiente e verificare la dipendenza lineare del tempo dalla distanza.

c) Conoscendo che il tempo medio di consegna quando la distanza è pari a 2 km è di 3,4 minuti e che la distanza media percorsa è di 2,4 km, ricavare l’intervallo di confidenza al 95% per il tempo medio di consegna quando la distanza è pari a 2 km

9

(10)

(a)

Per calcolare il coefficiente di regressione, ricaviamo prima il coefficiente di correlazione lineare ρ_XY a partire da R²

Un km di distanza in più fa aumentare il tempo medio di percorrenza di 1,77 minuti (b)

Gli estremi dell’intervallo di confidenza sono dati da

dove

946 ,

0 R²

XY  



77 , ) 1

X ( Dev

) Y (

ˆ₁  _XY Dev 



) X ( Dev t s

ˆ₁  ₁₀_;₀_,₀₅



2

 n s RSS

10

(11)

Dalla relazione si ricava Allora

Quindi l’intervallo ha per estremi cioè

L’intervallo in questione non comprende il valore 0.

In base a questa considerazione, è possibile concludere che l’ipotesi H₀: β₁=0 deve essere rifiutata a favore di H₁: β₁≠0 ad un livello α=0,10

c) Gli estremi dell’intervallo sono dati da:

524 ,

0 s 

73 , 2

524 ,

81250 ,

1 77 ,

1 

¹^,⁴²^;^2,12

 

  ^^

















 



 



 n

1 h

2 h

2 2 i

2 n , 2

i x x

x x

n s 1

t yˆ _

TSS

R²  1 RSS RSS  (1 R²)TSS  2,7485

11

(12)

dove

L’intervallo è

 

12 n

2 x

4 , 2 x

45 , 7 )

X ( Dev x

x

524 ,

0 s

2281 ,

2 t

4 , 3 )

2 X

| Y ( E y

ˆ

i n

1 h

2 h

10 , 025 , 0

i i













³^,⁰²²^;^3,778

12

(13)

Esercizio 2

Si stima un modello di regressione lineare semplice del tipo Y= β₀+ β₁X per indagare la dipendenza lineare delle vendite annuali (Y, in migliaia di euro) di una catena di n=14 negozi dalla superficie (X, in metri quadri) dei negozi stessi.

La seguente tabella riporta i risultati della stima.

(a) Stimare le vendite medie per i negozi con una superficie di 35 metri quadri

(b) Al livello di significatività α=0,10 verificare l’ipotesi di assenza di dipendenza lineare delle vendite dalla superficie

(c) Al livello di significatività α=0,05 verificare l’ipotesi che la retta di regressione passi per l’origine degli assi.

Coefficiente Stima Errore standard

β₀ 0,964 0,526

β₁ 1,670 0,157

13

(14)

(a)

Le vendite medie per X=35 sono date da:

Questo indica che la media delle vendite annuali dei negozi di 35 mq è pari a 59414 €

(b)

Il valore della statistica test è

Poiché 10,64>1,7823 si rifiuta H0: β1=0 e si accetta H1: β1≠0 (p- value=0,00).

414 ,

59 ˆ 35

y ˆ

ˆ_i  ₀  ₁  

64 , ) 10

B ( s t ˆ

1 1

10   

t_10;0,05 =1,7823 -t_10;0,05=-1,7823

C’è evidenza di una

relazione di dipendenza lineare delle vendite dalla superficie dei negozi

14

(15)

(c)

Il valore della statistica test è

Poiché -2,2281 < 1,83 < 2,2281 l’ipotesi H0: β0=0 contro l’alternativa bilaterale non può essere rifiutata (p-

value=0,097).

Accettare l’ipotesi nulla corrisponde a considerare che la

relazione di dipendenza lineare nella popolazione è descritta da una retta che passa per l’origine.

83 , ) 1

B ( s t ˆ

0 0

10   

t_10;0,025 =2,2281 -t_10;0,025=-2,2281

15

(16)

Esercizio 3

Sulla base di n= 17 osservazioni campionarie si è stimato un modello di regressione lineare in cui il reddito familiare (Y) è espresso in funzione del numero di componenti (X).

Completare la seguente tabella ANOVA:

a) Al livello α=0,05 verificare la significatività della relazione di dipendenza lineare del reddito dal numero di componenti b) Ricavare R².

Fonte della

variazione Somma dei quadrati (Devianza)

Gradi di

libertà

Media dei quadrati (Varianza)

Statistica F

Regressione 3,8 ? ? F=?

Errore ? ? 1,8

Totale ? ?

16

(17)

La tavola ANOVA risultante è

Fonte della

variazione Somma dei quadrati (Devianza)

Gradi di

libertà Media dei quadrati (Varianza)

Statistica F

Regressione 3,8 1 3,8 2,11

Residuo 27,0 15 1,8

Totale 30,8 16

(a)

Poiché 2,11 < 4,54 si accetta H₀: β₁=0 contro H₁: β₁≠0 (p-value=0,167).

La relazione di dipendenza lineare di Y da X non è significativa.

(b)

12 , 8 0

, 30

8 ,

2   3 

TSS R ESS

F_1,15;0,05=4,54

17

(18)

Esercizio 4

Si stima un modello di regressione multipla dove la variabile risposta è la media mensile di utilizzo del cellulare (in minuti) Le variabili esplicative sono:

BOLLETTA (Costo medio mensile delle telefonate, in euro) LAVORO (Percentuale di utilizzo per uso lavoro)

REDDITO (Reddito familiare mensile, in migliaia di euro) Si ottengono i seguenti risultati:

Statistica della regressione

R multiplo 0,540

R al quadrato 0,292 R al quadrato corretto 0,283 Errore standard 39,424

Osservazioni 250

ANALISI VARIANZA

Regressione 3 157695,699 52565,233 33,821 0,000 Residuo 246 382340,714 1554,231

Totale 249 540036,413

18

(19)

a) Aumentando di un euro il costo medio della bolletta (tenendo costante il valore delle altre variabili) di quanto aumenta la media mensile di utilizzo del cellulare?

b) Considerando un livello di significatività α=0,10 indicare quali sono le variabili esplicative che presentano un

coefficiente di regressione significativamente diverso da zero c) Ad un livello di confidenza pari a 1-α=0,95 il coefficiente di

regressione della var. BOLLETTA può essere pari a 1,2?

d) La bontà di adattamento del modello è molto elevata?

e) Si può rifiutare l’ipotesi nulla che i coefficienti di regressione siano tutti uguali a zero per α=0,05?

standard Stat t p-

value Inferiore

95% Superiore 95%

Intercetta 29,625 15,503 1,911 0,057 -0,910 60,161

BOLLETTA 0,885 0,147 6,016 0,000 0,595 1,175

LAVORO 0,536 0,323 1,662 0,098 -0,099 1,172

REDDITO 0,956 0,233 4,112 0,000 0,498 1,414

19

(20)

a) L’effetto di un aumento di un euro del costo medio della bolletta sulla media mensile di utilizzo del cellulare

(tenendo costante il valore delle altre variabili) si legge dal valore del coefficiente della variabile BOLLETTA. In questo caso la media mensile di utilizzo del cellulare subisce un incremento di 0,885 minuti

b) Al livello di significatività α=0,10 i coefficienti di tutte le variabili esplicative e anche quello dell’intercetta sono significativamente diversi da zero, poiché il loro p-value è minore di 0,10

c) Al livello 1-α=0,95 il coefficiente di regressione della var.

BOLLETTA non può essere pari a 1,2. La stima intervallare di tale coefficiente (0,595; 1,175) non comprende, infatti, il valore 1,2

d) La bontà di adattamento del modello non è molto elevata, in quanto la variabilità spiegata dal modello (misurata da R²) è pari al 29,2%

e) L’ipotesi nulla che tutti i coefficienti di regressione siano simultaneamente uguali a zero si può rifiutare, visto che il valore F della tavola ANOVA ha associato un p-value pari a zero

20

(21)

Introduzione di una o più variabili dummy

Per stimare la domanda di gelato possiamo

ipotizzare che, oltre al prezzo e alla temperatura, la quantità venduta di gelato dipenda anche dal giorno della settimana. Ci aspettiamo che le

vendite siano maggiori nei fine settimana rispetto agli altri giorni. Questa indicazione ci sarebbe

molto utile per fissare la produzione nei diversi giorni della settimana.

Introduciamo nel modello come terza variabile esplicativa una variabile dummy X3 (GIORNO)

21



 

ven) al

lun (dal

altrimenti 0

dom) o

(sab ana

finesettim se

X₃ 1

(22)

22

Modello stimato:

Il coefficiente , così come gli altri, è stimato con il metodo dei minimi quadrati.

Rappresenta la differenza tra le vendite medie

giornaliere di gelato quando X₃=1 (finesettimana) e le vendite medie giornaliere quando X₃=0 (dal lun al

ven), se il prezzo e la temperatura rimangono costanti

Interpretazione del coefficiente della variabile dummy

3 3 2

2 1

1

0 ˆ X ˆ X ˆ X

Y ˆ

ˆ        

X₃ Modello stimato finesettimana 1

da lun a ven 0

3 2

2 1

1

0 ˆ X ˆ X ˆ

Y ˆ

ˆ        

2 2 1

1

0 ˆ X ˆ X

Y ˆ

ˆ       ˆ3



(23)

23

Il coefficiente della variabile dummy GIORNO è significativamente diverso da 0 (p-value=0,006).

Conoscere il giorno (se dal lun al ven oppure

sab/dom) è utile per spiegare la variazione nei valori campionari delle vendite, se il prezzo e la temperatura sono noti

A parità di prezzo e temperatura, le vendite stimate nei fine settimana sono in media superiori di 0,607 kg rispetto agli altri giorni della settimana

Coefficienti Errore standard Stat t p-value

Intercetta 6,123 0,649 9,433 0,000

PREZ (X₁) -0,165 0,031 -5,395 0,002

TEMP (X₂) 0,272 0,017 15,830 0,000

GIORNO (X₃) 0,607 0,144 4,228 0,006

Interpretazione del coefficiente

della variabile dummy

(24)

24

Vendite stimate Vendite stimate

Prezzo Temperatura

Differenza=0,607

Differenza=

0,607

A sinistra, la relazione tra VENDITE stimate e PREZZO quando TEMP=29.

A destra, la relazione tra VENDITE stimate e

TEMPERATURA quando PREZ=15.

In blu la retta quando GIORNO=1 (sab-dom), in rosso la retta quando GIORNO=0 (lun-ven)

Interpretazione del coefficiente della variabile dummy

³

 ˆ

(25)

25

R multiplo 0,990

R al quadrato 0,981 R al quadrato

corretto 0,971

Errore standard 0,213

Osservazioni 10

ANALISI VARIANZA

Regressione 3 13,911 4,637 101,986 0,000

Errore 6 0,273 0,045

Totale 9 14,184

Coeffici

enti Errore

standard Stat t p-value Inferiore

95% Superiore 95%

Intercetta 6,123 0,649 9,433 0,000 4,534 7,711

PREZ -0,165 0,031 -5,395 0,002 -0,240 -0,090

TEMP 0,272 0,017 15,830 0,000 0,230 0,314

GIORNO 0,607 0,144 4,228 0,006 0,256 0,959

Riepilogo output

(26)

26

Nel complesso, con l’inserimento della

variabile qualitativa X

₃

(GIORNO), il modello migliora il suo adattamento

Rispetto al modello con solo prezzo e temperatura come variabili esplicative:

 R

²

corretto è più alto

 l’errore standard s della regressione è più piccolo

 gli errori standard dei coefficienti stimati sono più piccoli

Valutazione del modello con la

variabile dummy

(27)

27

Un altro fattore che potrebbe influenzare le

vendite di gelato sono le condizioni del tempo.

Immaginiamo di voler distinguere tra le tre condizioni di “sereno”, “coperto”, “piovoso”.

Dobbiamo introdurre nel modello due variabili dummy

Se le modalità della variabile qualitativa sono più di due?



 

altrimenti 0

"

sereno

"

se X₄ 1



 

altrimenti 0

"

coperto

"

se X₅ 1

(28)

28

Le due variabili X

₄

e X

₅

servono per specificare le tre condizioni meteorologiche

Due variabili dummy per un carattere con tre modalità

X₄ X₅ Modello stimato

sereno 1 0

coperto 0 1

piovoso 0 0

“piovoso” è la categoria di riferimento (quella per la quale le variabili dummy valgono entrambe 0)

4 3

3 2

2 1

1

0 ˆ X ˆ X ˆ X ˆ

Y ˆ

ˆ          

5 3

3 2

2 1

1

0 ˆ X ˆ X ˆ X ˆ

Y ˆ

ˆ          

3 3 2

2 1

1

0 ˆ X ˆ X ˆ X

Y ˆ

ˆ        

(29)

29

Interpretazione dei coefficienti

X₄ X₅ Modello stimato

sereno 1 0

coperto 0 1

piovoso 0 0

stima la differenza nelle vendite medie tra

giorni sereni (X₄=1) e giorni piovosi (la categoria di riferimento)

stima la differenza nelle vendite medie tra

giorni coperti (X₅=1) e giorni piovosi (la categoria di riferimento)

4 3

3 2

2 1

1

0 ˆ X ˆ X ˆ X ˆ

Y ˆ

ˆ          

5 3

3 2

2 1

1

0 ˆ X ˆ X ˆ X ˆ

Y ˆ

ˆ          

3 3 2

2 1

1

0 ˆ X ˆ X ˆ X

Y ˆ

ˆ        

ˆ4



ˆ5



(30)

30

Esercizio – Regressione multipla

Su un campione di n=391 automobili si stima un modello di regressione multipla

Var. risposta: CONSUMO (Km/l) Var. esplicative:

•MOTORE (Cilindrata in cm3)

•CV (Potenza in Cavalli Vapore)

•PESO

•ACCEL (Accelerazione, secondi per passare da 0 a 100 km/h))

La var. ORIGINE (Nazione produttrice) presentava tre modalità: ITALIA, EUROPA, GIAPPONE

Si introducono due variabili dummy

•ORIGINE1 (=1 per auto italiane)

•ORIGINE2 (=1 per auto europee non italiane) (la categoria di riferimento è “auto giapponesi”

(31)

31

Esercizio – Risultati regressione multipla

R multiplo 0,846

R al quadrato 0,716

R al quadrato corretto 0,712

Errore standard 4,176

Osservazioni 391

ANALISI VARIANZA

Regressione 6 16882,010 2813,668 161,372 0,000 Residuo 384 6695,402 17,436

Totale 390 23577,412

standard Stat t p-value Inferiore 95% Superiore 95%

Intercetta 41,558 2,262 18,376 0,000 37,112 46,005

MOTORE 0,002 0,007 0,214 0,830 -0,013 0,016

CV -0,067 0,017 -3,899 0,000 -0,100 -0,033

PESO -0,014 0,002 -5,738 0,000 -0,019 -0,009

ACCEL -0,123 0,125 -0,987 0,324 -0,369 0,122

ORIGINE1 -2,805 0,695 -4,034 0,000 -4,171 -1,438

ORIGINE2 -1,751 0,702 -2,495 0,013 -3,131 -0,371

(32)

32

Esercizio

a) Considerando un livello di significatività α=0,05 indicare quali sono le variabili esplicative che presentano un coefficiente di regressione

significativamente diverso da zero

b) Ad un livello di confidenza pari a 1-α=0,95 il coefficiente di regressione della var. PESO può essere di segno positivo?

c) La bontà di adattamento del modello è sufficientemente elevata?

d) Si può accettare l’ipotesi nulla che i coefficienti di regressione siano tutti uguali a zero per α=0,01?

e) Tenendo fisse le altre var. esplicative, qual è la differenza nel consumo medio tra auto italiane e auto giapponesi?