2 - Il modello lineare nei parametri

(1)

`Statisti a per l'Analisi Organizzativa'

B. S arpa

AA 2006/07

0

Questiappuntisiriferis onoal orsoindi atosopraperladell'Università ommer iale

L.Bo oni,esonodestinatiades lusiva ir olazioneinterna. Èvietatala ir olazionedi

questomaterialealdifuoridell'ambitoindi ato. Questomaterialenon ostituis eillibro

(2)

(3)

modello di regressione lineare nei parametri

trasformate delle variabili espli ative

(4)

i dati

si hanno a disposizione le informazioni riguardanti la domanda di gas

naturale e il prezzo dello stesso gas naturale per 20 ittà in Texas nel

1969.

è di interesse apire se 'è una qual he relazione tra il prezzo e il

on-sumo del gas. Ci si hiede ioè se al res ere del prezzo, il onsumo di

gas diminuis a.

qualora venga veri ata una qual he relazione, si è interessati an he a

apire la forma di tale relazione, se ioè il alo dei onsumi è ostante

o se varia al variare del livello del prezzo.

è inne di interesse avere uno strumento he aiuti a fare previsioni su

quanto onsumeranno i ittadini di una ittà per uiè noto il osto del

gas

La seguente tabella mostra per le 30 ittà oltre al nome della ittà il

prezzo mediodel gasin entesimi di dollaro per migliaia di piedi ubi i

(5)

ittà prezzo onsumo di

del gas gas

Amarillo 30 134 Borger 31 112 Dalhart 37 136 Shamro k 42 109 Royalty 43 105 Texarkana 45 87 CorpusChristi 50 56 Palestine 54 43 Marshall 54 77 IowaPark 57 35 PaloPinto 58 65 Millsap 58 56 Memphis 60 58 Granger 73 55 Llano 88 49 Brownsville 89 39 Mer edes 92 36 KarnesCity 97 46 Mathis 100 40 LaPryor 102 42

30

40

50

60

70

80

90

100

40

60

80

100

120

140 prezzo

consumo di gas

Amarillo

Borger

Dalhart

Shamrock

Royalty

Texarkana

CorpusChristi

Palestine

Marshall

IowaPark

PaloPinto

Millsap

Memphis

_Granger

Llano

Brownsville

Mercedes

KarnesCity

(6)

adottiamo per il momento l'ipotesi di una relazione lineare.

se hiamiamo

y

il onsumo di gas e on

x

il prezzo possiamo pensare

a un modello del tipo

y = α + βx + ε

sappiamo in questo aso ome eettuare le stime

^

β =

ov

(X, Y)

Var

(X)

=

−588.95

533.4 = −1.104

^

α =

y − ^

β

x = 69 + 1.104 · 63 = 138.561

un qualsiasi pa hetto standard di statisti a fornis e un output on

queste stime e on i prin ipali indi atori visti nella sezione pre edente.

Ad esempio R fornis e

> summary(lm(gas~prezzo))

Call:

lm(formula = gas ~ prezzo)

Residuals:

Min 1Q Median 3Q Max

-40.625 -10.719 -1.136 14.073 38.292

Coeffi ients:

Estimate Std. Error t value Pr(>|t|)

(Inter ept) 138.561 13.552 10.225 6.34e-09 ***

prezzo -1.104 0.202 -5.467 3.42e-05 ***

---Signif. odes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 20.86 on 18 degrees of freedom

Multiple R-Squared: 0.6241, Adjusted R-squared: 0.6033

F-statisti : 29.89 on 1 and 18 DF, p-value: 3.417e-05

Eser iziosiottengano inmanieraanaliti a lestime perla varianzadeiresidui, per

R

2

eper

(7)

il gra o della stima è il seguente

30

40

50

60

70

80

90

100

40

60

80

100

120

140 prezzo

consumi di gas

per veri are se il modello si adatta bene ai dati ontrollo i test di

adattamento, in parti olare osserviamo he l'

R

2

risulta pari a 0.62 he

indi a un buon adattamento lineare. Osserviamo an he l'andamento

gra o dei residui

Istogramma dei residui

residui

frequenze

−40

−20

0

20

40

0

1

2

3

4

5

6

40

60

80

100 −40

−20

0

20

40 stima di Y

residui

30

40

50

60

70

80

90

100 −40

−20

0

20

40 stima di Y

residui

(8)

Il modello appena ostruito non è male ma ha una aratteristi a

disturbante

non sembra ogliere in maniera del tutto appropriata l'andamento ai

due estremi (le osservazioni sembrano ome urvare, il modello non

lo fa);

osservando i residui è molto evidente vedere ome sia rimasta an ora

(9)

Possiamo ragionare nella seguente maniera:

1. si può ipotizzare he il onsumatore medio abbia a disposizione

una erta quantità di denaro

κ

destinata all'a quisto del gas

2. evidentemente se il prezzo del gas res e troppo, uno preferis e

utilizzare la legna o il gasolio per ris aldarsi, o vi eversa, se s ende

utilizza il gas an he per far funzionare gli elettrodomesti i ...

3. tale ipotesi i porterebbe a un'equazione del tipo

x · y = κ

, ioè il

prodotto tra quantità e prezzo è ostante e uguale alla quantità di

denaro disponibile per il gas

4. è ragionevole, però, pensare he il onsumatore medio debba

on-sumare, omunque, una erta minima quantità di gas a qualunque

prezzo essa venga venduta

5. Il mer ato del gas è parti olarmente regolamentato, e presenta

quindi dei vin oli ben pre isi. Esperti del settore i indi ano, ad

esempio, he il prezzo del gas non può s endere al di sotto di 7

entesimi per migliaia di piedi ubi i,

la relazione onsumo di un bene e il suo prezzo può essere quindi

ris ritta utilizzando le informazioni disponibili

(x − 7)(y − γ) = κ

dove

γ

è un parametro he misura il livello minimo di onsumo del

onsumatore medio e

κ

è il parametro he misura la quantità media di

denaro a disposizione del onsumatore per spese di gas. L'indi azione

heil prezzo non puòessere inferiore a 7 entesimi permigliaia di piedi

(10)

la relazione appena ottenuta non è ertamente lineare tra

x

e

y

ma

potrebbe essere ris ritta

(y − γ) =

κ

(x − 7)

o an he

y = γ + κ ·

1 (x − 7)

questa forma però i è molto più familiare. Ci ri orda ertamente i

modelli he abbiamo già in ontrato. E' infatti su iente reare una

nuova variabile

z

he dipende dalla

x

in questa maniera

z =

1 (x − 7)

e il modello si trasforma esattamente in un modello a noi noto:

y = γ + κ · z

he è un modello lineare ome quello he onos iamo bene e he

(11)

si osservi he abbiamo potuto fare la trasformazione dalla variabile

x

alla variabile

z

senza al un problema, per hé abbiamo assunto he la

x

è una variabile deterministi a osservata, non è, ioè, una variabile aleatoria. Se fosse stata tale avremmo dovuto tenerne onto per

po-ter stimare i parametri e rispondere a domande inferenziali su essi in

manieraappropriata. Nel seguitonontratteremo questotipodi

proble-mi, e vengono las iati alla uriosità di ias uno, an he se in e onomia,

spesso le variabili

x

devono essere onsiderate ome variabili aleatorie.

La lasse di modelli he abbiamo hiamato lineare assumono una

re-lazione lineare tra i parametri del modello e non tra le variabili. Tale

lasse, quindi ingloba an he asi ome questo, in ui le variabili sono

legate da relazioni hiaramente non lineari.

altri sempli i asi dello stesso tipo potrebbero essere modelli ome

y = a + bx

2

o

y = a + b

log

(x)

oppure

(12)

le ittà del Texas rispetto ai onsumi del gas e

all'in-verso del prezzo (

1/

(prezzo-7) ), se ondo il

suggerimen-to he abbiamo appena visto, he i viene dall'e onomia.

0.010

0.015

0.020

0.025

0.030

0.035

0.040

40

60

80

100

120

140 1/(prezzo − 7)

consumi di gas

la relazione sembra lineare, di erto più lineare di quanto indi ava il

gra o senza eettuare la trasformazione.

i siamo onvinti quindi he possiamo er are di adattare una urva ai

nostri dati utilizzando un modello lineare sempli e del tipo

y = γ + κ · z + ε

dove

ε

risponde atutte le ipotesi heabbiamoin ontratoinpre edenza.

la stima di

γ

e

κ

edegli indi atori di bontà dell'adattamento può venir

fatta adottando quindi il riterio dei minimi quadrati appli ati alle

variabili trasformate, una volta ottenuti i parametri si può fa ilmente

risalire alla funzione nella s ala originale

si osservi he in questo aso, poi hé la trasformazione di variabile

oin-volge solo la variabile

x

e non la

y

, il riterio dei minimi quadrati he

fa riferimento alle distanze rispetto all'asse

y

fornis e la soluzione di

minimo an he per il problema originale. Non è osì nei asi in ui si

(13)

>summary(lm(gas~I(1/(prezzo-7))))

Call:

lm(formula = gas ~ I(1/(prezzo - 7)))

Residuals:

Min 1Q Median 3Q Max

-29.617 -4.574 2.394 7.800 30.917

Coeffi ients:

Estimate Std. Error t value Pr(>|t|)

(Inter ept) 3.918 8.376 0.468 0.646

I(1/(prezzo - 7)) 3034.938 357.037 8.500 1.02e-07 ***

---Signif. odes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 15.19 on 18 degrees of freedom

Multiple R-Squared: 0.8006, Adjusted R-squared: 0.7895

F-statisti : 72.26 on 1 and 18 DF, p-value: 1.022e-07

he si potevano ottenere an he apartire da

X

z

i

= 0, 4288

X

y

i

= 1380

X

z

2 i

= 0, 01101

X

y

2 i

= 116058

X

x

i

y

i

= 35, 0896

ottenendo

y =

X

y

i

/20 = 69

Var

(Y) = 116058/20 − 69

2 = 1041, 9

z

i

= 0, 4288/20 = 0, 02144

Var

(Z) = 0, 01101/20 − 0, 02144

2 = 0, 00009056

Cov

(YZ) = 35, 0896/20 − 69 · 0, 02144 = 0, 2748

da ui

^

κ = 3034, 938

γ = 3, 918

^

Var.residua

= 1041, 9−0, 2748

2 /0, 00009056 = 207, 7889

R

2 = 1−207, 7889/1041, 9 = 0.80

(14)

i parametri stimati possono essere sostituiti nella funzione originale

ottenendo

y = 3, 918 + 3034, 938 ·

1 (x − 7)

e o i gra i della funzione stimata sulla s ala trasformata e sulla s ala

originale

0.010

0.015

0.020

0.025

0.030

0.035

0.040

40

60

80

100

120

140 1/(prezzo − 7)

consumi di gas

30

40

50

60

70

80

90

100

40

60

80

100

120

140 prezzo

consumi di gas

Osserivamo he il nuovo modello ha una varianza residua di 207,7889

mentre il modello da ui siamo partiti aveva una varianza residua di

391.6148(

20, 86

2

, dove 20,86 era lo standard errordei residui).

Possia-mo, quindi, dire he il nuovo modello ridu e il quadrato degli errori

di previsione di quasi il 50%. An he da un punto di vista puramente

gra oil nuovomodello sembra migliore,in parti olare, per hé oglie

la urvatura agli estremi he avevamo osservato.

30

40

50

60

70

80

90

100

40

60

80

100

120

140 prezzo

consumi di gas

(15)

ve hie domande, ...e una domanda nuova

a questo punto possiamo eettuare an he tutti i test statisti i he

ab-biamo trovato nel aso di modello lineare sempli e, visto he

sostan-zialmente, da quel punto di vista, non è ambiato nulla on questa

nuova impostazione.

abbiamo osì la possibilità di veri are la signi atività di ias un

parametro (utilizzando la distribuzione

t

di Student)

o veri are se il modello si adatta bene ai risultati attraverso la

F

di

Snede or.

possiamo inoltre ostruire intervalli di previsione per la

y

,

esattamen-te ome avevamo fatto nel aso lineare sempli e, e poi trasformare i

risultati nella s ala originale, ome abbiamo fatto on le stime di

^

y

.

abbiamoperòoraunanuovadomandaa ui i pia erebberispondere. Il

nuovomodello è davvero preferibile a quello ve hio? Ilmiglioramento

dell'

R

2

è reale oppure può essere attribuito all'eetto del aso?

è evidente he un miglioramento del 50%, visibile in maniera hiara

an he gra amente, di ilmente può essere attribuito al aso. Ma in

altresituazioni in uiilmiglioramentoottenuto èmoltoinferiore questa

domanda diventa ru iale: quanto ho migliorato il mio adattamento

ai dati on il nuovo modello? il osto he ho sostenuto per stimarlo

(16)

I metodi basati sui minimi quadrati possono essere appli ati non solo

a modelli del tipo

y = α + βx + ε

ma an he a modelli, più generali, ad esempio del tipo

g(y) = α + βh(x) + ε

dove

g(·)

e

h(·)

sono appropriate funzioni. Quello he è importante

è he, ome si usa dire, il modello sia lineare nei parametri non nelle

variabili. Ad esempio, risulta trattabile senza problemi un modello del

tipo

y = α + β

sin

27

_{(x) + ε}

Spesso modelli lineari nelle variabili possono essere visti al più ome

approssimazioni di relazioni non lineari (per hi sa os'è pensi alla

formula di Taylor). In queste situazioni, ottenere estrapolazioni dal

modello è peri oloso e può dare luogo a risultati insensati (nel aso

onsiderato, previsioni negative per i onsumi).

Non bisogna mai buttare via quello he si sa. Ad esempio, in questo

aso, po he onos enze di e onomia i hanno portato ad un modello

he sembra adattarsi meglio ai dati osservati e soprattutto he è più

ragionevole. In generale, hi eettua analisi statisti he ha il dovere di

re uperare le onos enze sul fenomeno he sta analizzando. Inoltre,

è spesso utile (e, tra l'altro, quasi sempre divertente) he l'analista

vadasul ampo (nel laboratorio, nellostabilimento diproduzione,nel

all enter, ...) per vedere dal vivo ome i dati sono eettivamente