`Statisti a per l'Analisi Organizzativa'
B. S arpa
AA 2006/07
0
Questiappuntisiriferis onoal orsoindi atosopraperladell'Università ommer iale
L.Bo oni,esonodestinatiades lusiva ir olazioneinterna. Èvietatala ir olazionedi
questomaterialealdifuoridell'ambitoindi ato. Questomaterialenon ostituis eillibro
modello di regressione lineare nei parametri
trasformate delle variabili espli ative
i dati
si hanno a disposizione le informazioni riguardanti la domanda di gas
naturale e il prezzo dello stesso gas naturale per 20 ittà in Texas nel
1969.
è di interesse apire se 'è una qual he relazione tra il prezzo e il
on-sumo del gas. Ci si hiede ioè se al res ere del prezzo, il onsumo di
gas diminuis a.
qualora venga veri ata una qual he relazione, si è interessati an he a
apire la forma di tale relazione, se ioè il alo dei onsumi è ostante
o se varia al variare del livello del prezzo.
è inne di interesse avere uno strumento he aiuti a fare previsioni su
quanto onsumeranno i ittadini di una ittà per uiè noto il osto del
gas
La seguente tabella mostra per le 30 ittà oltre al nome della ittà il
prezzo mediodel gasin entesimi di dollaro per migliaia di piedi ubi i
ittà prezzo onsumo di
del gas gas
Amarillo 30 134 Borger 31 112 Dalhart 37 136 Shamro k 42 109 Royalty 43 105 Texarkana 45 87 CorpusChristi 50 56 Palestine 54 43 Marshall 54 77 IowaPark 57 35 PaloPinto 58 65 Millsap 58 56 Memphis 60 58 Granger 73 55 Llano 88 49 Brownsville 89 39 Mer edes 92 36 KarnesCity 97 46 Mathis 100 40 LaPryor 102 42
30
40
50
60
70
80
90
100
40
60
80
100
120
140
prezzo
consumo di gas
Amarillo
Borger
Dalhart
Shamrock
Royalty
Texarkana
CorpusChristi
Palestine
Marshall
IowaPark
PaloPinto
Millsap
Memphis
Granger
Llano
Brownsville
Mercedes
KarnesCity
adottiamo per il momento l'ipotesi di una relazione lineare.
se hiamiamo
y
il onsumo di gas e onx
il prezzo possiamo pensarea un modello del tipo
y = α + βx + ε
sappiamo in questo aso ome eettuare le stime
^
β =
ov(X, Y)
Var(X)
=
−588.95
533.4
= −1.104
^
α =
y − ^
β
x = 69 + 1.104 · 63 = 138.561
un qualsiasi pa hetto standard di statisti a fornis e un output on
queste stime e on i prin ipali indi atori visti nella sezione pre edente.
Ad esempio R fornis e
> summary(lm(gas~prezzo))
Call:
lm(formula = gas ~ prezzo)
Residuals:
Min 1Q Median 3Q Max
-40.625 -10.719 -1.136 14.073 38.292
Coeffi ients:
Estimate Std. Error t value Pr(>|t|)
(Inter ept) 138.561 13.552 10.225 6.34e-09 ***
prezzo -1.104 0.202 -5.467 3.42e-05 ***
---Signif. odes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 20.86 on 18 degrees of freedom
Multiple R-Squared: 0.6241, Adjusted R-squared: 0.6033
F-statisti : 29.89 on 1 and 18 DF, p-value: 3.417e-05
Eser iziosiottengano inmanieraanaliti a lestime perla varianzadeiresidui, per
R
2
eper
il gra o della stima è il seguente
30
40
50
60
70
80
90
100
40
60
80
100
120
140
prezzo
consumi di gas
per veri are se il modello si adatta bene ai dati ontrollo i test di
adattamento, in parti olare osserviamo he l'
R
2
risulta pari a 0.62 he
indi a un buon adattamento lineare. Osserviamo an he l'andamento
gra o dei residui
Istogramma dei residui
residui
frequenze
−40
−20
0
20
40
0
1
2
3
4
5
6
40
60
80
100
−40
−20
0
20
40
stima di Y
residui
30
40
50
60
70
80
90
100
−40
−20
0
20
40
stima di Y
residui
Il modello appena ostruito non è male ma ha una aratteristi a
disturbante
non sembra ogliere in maniera del tutto appropriata l'andamento ai
due estremi (le osservazioni sembrano ome urvare, il modello non
lo fa);
osservando i residui è molto evidente vedere ome sia rimasta an ora
Possiamo ragionare nella seguente maniera:
1. si può ipotizzare he il onsumatore medio abbia a disposizione
una erta quantità di denaro
κ
destinata all'a quisto del gas2. evidentemente se il prezzo del gas res e troppo, uno preferis e
utilizzare la legna o il gasolio per ris aldarsi, o vi eversa, se s ende
utilizza il gas an he per far funzionare gli elettrodomesti i ...
3. tale ipotesi i porterebbe a un'equazione del tipo
x · y = κ
, ioè ilprodotto tra quantità e prezzo è ostante e uguale alla quantità di
denaro disponibile per il gas
4. è ragionevole, però, pensare he il onsumatore medio debba
on-sumare, omunque, una erta minima quantità di gas a qualunque
prezzo essa venga venduta
5. Il mer ato del gas è parti olarmente regolamentato, e presenta
quindi dei vin oli ben pre isi. Esperti del settore i indi ano, ad
esempio, he il prezzo del gas non può s endere al di sotto di 7
entesimi per migliaia di piedi ubi i,
la relazione onsumo di un bene e il suo prezzo può essere quindi
ris ritta utilizzando le informazioni disponibili
(x − 7)(y − γ) = κ
dove
γ
è un parametro he misura il livello minimo di onsumo delonsumatore medio e
κ
è il parametro he misura la quantità media didenaro a disposizione del onsumatore per spese di gas. L'indi azione
heil prezzo non puòessere inferiore a 7 entesimi permigliaia di piedi
la relazione appena ottenuta non è ertamente lineare tra
x
ey
mapotrebbe essere ris ritta
(y − γ) =
κ
(x − 7)
o an he
y = γ + κ ·
1
(x − 7)
questa forma però i è molto più familiare. Ci ri orda ertamente i
modelli he abbiamo già in ontrato. E' infatti su iente reare una
nuova variabile
z
he dipende dallax
in questa manieraz =
1
(x − 7)
e il modello si trasforma esattamente in un modello a noi noto:
y = γ + κ · z
he è un modello lineare ome quello he onos iamo bene e he
si osservi he abbiamo potuto fare la trasformazione dalla variabile
x
alla variabile
z
senza al un problema, per hé abbiamo assunto he lax
è una variabile deterministi a osservata, non è, ioè, una variabile aleatoria. Se fosse stata tale avremmo dovuto tenerne onto perpo-ter stimare i parametri e rispondere a domande inferenziali su essi in
manieraappropriata. Nel seguitonontratteremo questotipodi
proble-mi, e vengono las iati alla uriosità di ias uno, an he se in e onomia,
spesso le variabili
x
devono essere onsiderate ome variabili aleatorie.La lasse di modelli he abbiamo hiamato lineare assumono una
re-lazione lineare tra i parametri del modello e non tra le variabili. Tale
lasse, quindi ingloba an he asi ome questo, in ui le variabili sono
legate da relazioni hiaramente non lineari.
altri sempli i asi dello stesso tipo potrebbero essere modelli ome
y = a + bx
2
o
y = a + b
log(x)
oppure
le ittà del Texas rispetto ai onsumi del gas e
all'in-verso del prezzo (
1/
(prezzo-7) ), se ondo ilsuggerimen-to he abbiamo appena visto, he i viene dall'e onomia.
0.010
0.015
0.020
0.025
0.030
0.035
0.040
40
60
80
100
120
140
1/(prezzo − 7)
consumi di gas
la relazione sembra lineare, di erto più lineare di quanto indi ava il
gra o senza eettuare la trasformazione.
i siamo onvinti quindi he possiamo er are di adattare una urva ai
nostri dati utilizzando un modello lineare sempli e del tipo
y = γ + κ · z + ε
dove
ε
risponde atutte le ipotesi heabbiamoin ontratoinpre edenza.la stima di
γ
eκ
edegli indi atori di bontà dell'adattamento può venirfatta adottando quindi il riterio dei minimi quadrati appli ati alle
variabili trasformate, una volta ottenuti i parametri si può fa ilmente
risalire alla funzione nella s ala originale
si osservi he in questo aso, poi hé la trasformazione di variabile
oin-volge solo la variabile
x
e non lay
, il riterio dei minimi quadrati hefa riferimento alle distanze rispetto all'asse
y
fornis e la soluzione diminimo an he per il problema originale. Non è osì nei asi in ui si
>summary(lm(gas~I(1/(prezzo-7))))
Call:
lm(formula = gas ~ I(1/(prezzo - 7)))
Residuals:
Min 1Q Median 3Q Max
-29.617 -4.574 2.394 7.800 30.917
Coeffi ients:
Estimate Std. Error t value Pr(>|t|)
(Inter ept) 3.918 8.376 0.468 0.646
I(1/(prezzo - 7)) 3034.938 357.037 8.500 1.02e-07 ***
---Signif. odes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 15.19 on 18 degrees of freedom
Multiple R-Squared: 0.8006, Adjusted R-squared: 0.7895
F-statisti : 72.26 on 1 and 18 DF, p-value: 1.022e-07
he si potevano ottenere an he apartire da
X
z
i
= 0, 4288
X
y
i
= 1380
X
z
2
i
= 0, 01101
X
y
2
i
= 116058
X
x
i
y
i
= 35, 0896
ottenendoy =
X
y
i
/20 = 69
Var(Y) = 116058/20 − 69
2
= 1041, 9
z
i
= 0, 4288/20 = 0, 02144
Var(Z) = 0, 01101/20 − 0, 02144
2
= 0, 00009056
Cov(YZ) = 35, 0896/20 − 69 · 0, 02144 = 0, 2748
da ui^
κ = 3034, 938
γ = 3, 918
^
Var.residua= 1041, 9−0, 2748
2
/0, 00009056 = 207, 7889
R
2
= 1−207, 7889/1041, 9 = 0.80
i parametri stimati possono essere sostituiti nella funzione originale
ottenendo
y = 3, 918 + 3034, 938 ·
1
(x − 7)
e o i gra i della funzione stimata sulla s ala trasformata e sulla s ala
originale
0.010
0.015
0.020
0.025
0.030
0.035
0.040
40
60
80
100
120
140
1/(prezzo − 7)
consumi di gas
30
40
50
60
70
80
90
100
40
60
80
100
120
140
prezzo
consumi di gas
Osserivamo he il nuovo modello ha una varianza residua di 207,7889
mentre il modello da ui siamo partiti aveva una varianza residua di
391.6148(
20, 86
2
, dove 20,86 era lo standard errordei residui).
Possia-mo, quindi, dire he il nuovo modello ridu e il quadrato degli errori
di previsione di quasi il 50%. An he da un punto di vista puramente
gra oil nuovomodello sembra migliore,in parti olare, per hé oglie
la urvatura agli estremi he avevamo osservato.
30
40
50
60
70
80
90
100
40
60
80
100
120
140
prezzo
consumi di gas
ve hie domande, ...e una domanda nuova
a questo punto possiamo eettuare an he tutti i test statisti i he
ab-biamo trovato nel aso di modello lineare sempli e, visto he
sostan-zialmente, da quel punto di vista, non è ambiato nulla on questa
nuova impostazione.
abbiamo osì la possibilità di veri are la signi atività di ias un
parametro (utilizzando la distribuzione
t
di Student)o veri are se il modello si adatta bene ai risultati attraverso la
F
diSnede or.
possiamo inoltre ostruire intervalli di previsione per la
y
,esattamen-te ome avevamo fatto nel aso lineare sempli e, e poi trasformare i
risultati nella s ala originale, ome abbiamo fatto on le stime di
^
y
.abbiamoperòoraunanuovadomandaa ui i pia erebberispondere. Il
nuovomodello è davvero preferibile a quello ve hio? Ilmiglioramento
dell'
R
2
è reale oppure può essere attribuito all'eetto del aso?
è evidente he un miglioramento del 50%, visibile in maniera hiara
an he gra amente, di ilmente può essere attribuito al aso. Ma in
altresituazioni in uiilmiglioramentoottenuto èmoltoinferiore questa
domanda diventa ru iale: quanto ho migliorato il mio adattamento
ai dati on il nuovo modello? il osto he ho sostenuto per stimarlo
I metodi basati sui minimi quadrati possono essere appli ati non solo
a modelli del tipo
y = α + βx + ε
ma an he a modelli, più generali, ad esempio del tipo
g(y) = α + βh(x) + ε
dove
g(·)
eh(·)
sono appropriate funzioni. Quello he è importanteè he, ome si usa dire, il modello sia lineare nei parametri non nelle
variabili. Ad esempio, risulta trattabile senza problemi un modello del
tipo
y = α + β
sin27
(x) + ε
Spesso modelli lineari nelle variabili possono essere visti al più ome
approssimazioni di relazioni non lineari (per hi sa os'è pensi alla
formula di Taylor). In queste situazioni, ottenere estrapolazioni dal
modello è peri oloso e può dare luogo a risultati insensati (nel aso
onsiderato, previsioni negative per i onsumi).
Non bisogna mai buttare via quello he si sa. Ad esempio, in questo
aso, po he onos enze di e onomia i hanno portato ad un modello
he sembra adattarsi meglio ai dati osservati e soprattutto he è più
ragionevole. In generale, hi eettua analisi statisti he ha il dovere di
re uperare le onos enze sul fenomeno he sta analizzando. Inoltre,
è spesso utile (e, tra l'altro, quasi sempre divertente) he l'analista
vadasul ampo (nel laboratorio, nellostabilimento diproduzione,nel
all enter, ...) per vedere dal vivo ome i dati sono eettivamente