1
1MODELLI EMPIRICI
MODELLI EMPIRICI
Corso di Laurea in Ingegneria Civile
Facoltà di Ingegneria, Università di Padova
Docente: Dott. L. Corain
E-mail: [email protected] Home page: www.gest.unipd.it/~livio/Corso_Civile.html
2
MODELLI EMPIRICI
SOMMARIO
¾
Introduzione ai modelli empirici
¾
Regressione
lineare semplice
polinomiale
con regressori qualitativi
¾
Regressione lineare multipla e superfici di
risposta
¾
Trasformazione dei dati nella regressione
3
MODELLI EMPIRICI
Molti problemi in ingegneria e scienze coinvolgono l’esplorazione delle relazioni tra due o più variabili e la modellazione del possibile legame esistente tra queste. Il modello e l’analisi di regressione rappresenta una
tecnica statistica molto utile per questi tipi di problemi. In generale, si suppone che vi sia una sola variabile
dipendente o risposta Y, dipendente da k variabili
indipendenti (esplicative/regressori)x1,x2,…,xk.
Frequentemente si usano i metodi di regressione per analizzare i dati di studi osservazionali o esperimenti
non pianificati, utili anche quando negli esperimenti
programmati qualcosa è andato storto.
Il modello di regressione può essere applicato anche come analisi aggiuntiva al quella ANOVA a dataset provenienti da esperimenti programmati.
L’analisi di regressione è utilizzata anche per capire quali specifiche variabili, tra un insieme di diverse variabili indipendenti, sono legate alla variabile dipendente e per esplorare le forme di queste relazioni.
L’analisi di regressione viene molto spesso utilizzata al fine di ottenere delle previsioni.
Le prestazioni dei metodi di analisi di regressione, in pratica dipendono dalla forma del processo di generazione dei dati, e come questo si relazione all’approccio di regressione utilizzato.
Dal momento che la vera forma del processo di generazione dei dati non è noto, l'analisi di regressione dipende in qualche misura dal fare assunzioni su questo processo.
3
5MODELLI EMPIRICI
Nell’analisi di regressione l'obiettivo della stima sono i parametri β che caratterizzano una funzione delle variabili indipendenti chiamata funzione di regressione:
Y = f(X;β) + ε. – Variabile dipendente/risposta: Y. – Variabili indipendenti/esplicative: X. – Parametri ignoti identificati da β. – Termine di errore casuale: ε.
L'utente dell’analisi di regressione deve fare un'ipotesi ragionevole sulla funzione f(X;β).
A volte la forma di questa funzione può essere nota, altre volte si deve applicare un processo trial and error, altre volte infine la forma è ignota perché troppo complessa e si decide di adottare una funzione semplificata che possibilmente la rappresenti.
6
MODELLI EMPIRICI
Le assunzioni classiche per l'analisi di regressione sono:
– Il campione deve essere rappresentativo della popolazione verso la quale si vuol fare inferenza.
– L’errore è assunto essere una variabile casuale con media condizionata alle variabili esplicative pari a zero. – Le variabili indipendenti sono prive di errore
(deterministiche). Se così non fosse, la modellazione dove prendere in considerazione le tecniche per i modelli con errori nelle variabili.
– Gli errori sono incorrelati, cioè la matrice di varianze/covarianze degli errori è diagonale e ogni elemento non nullo è la varianza dell’errore.
– La varianza dell’errore è costante rispetto alle osservazioni (omoschedasticità). Se così non fosse, si dovrebbero utilizzare la tecnica dei minimi quadrati pesati o altri metodi idonei a queste condizioni.
7
MODELLI EMPIRICI
Per esempio, in un processo chimico, si supponga che la purezza dell’ossigeno prodotto sia legata al livello di idrocarburi d’esercizio del processo.
L’analisi di regressione può essere usata per costruire un modello per prevedere le rese in termini di purezza per uno specificato livello di idrocarburi.
Diagramma di dispersione della purezza dell’ossigeno rispetto al livello di idrocarburi.
5
9MODELLI EMPIRICI
Sulla base del diagramma di dispersione, è ragionevole supporre che la media della variabile casuale Y sia legata alla x dalla seguente relazione lineare:
dove la pendenza e l’intercetta della retta si chiamano
coefficienti di regressione.
Il modello di regressione lineare sempliceè dato da
dove il termine di errore casuale ε è assunto IID (indipendente ed identicamente distribuito) con media zero e varianza (costante) σ2.
10
MODELLI EMPIRICI
Possiamo pensare al modello di regressione come ad un modello empirico.
Dalle assunzioni sul termine casuale ε è possibile ricavare media e varianza della variabile risposta Y: cioè vi è una distribuzione di valori Y per ogni dato x e la varianza di questa distribuzione è la stessa ad ogni x: Il vero modello di regressione è il luogo geometrico di
tutti valori medi condizionati di Y per ogni dato x:
dove β1 può essere interpretato come la variazione del
valore medio di Y per un variazione unitaria di x.
11
MODELLI EMPIRICI
Ipotetica vera distribuzione di Y per un dato x per i dati sulla della purezza dell’ossigeno rispetto al livello di idrocarburi.
Il caso della regressione lineare semplice considera un singolo regressore o predittore x e una variabile
dipendente o risposta Y. Supponiamo di avere n
coppie di osservazioni (x1,y1), (x2,y2),…, (xn,yn).
Il metodo dei minimi quadrati viene utilizzato per
stimare i parametri, β0 e β1 minimizzando la somma dei quadrati delle deviazioni verticali.
Deviazioni dei dati dal modello di regressione stimato.
7
13MODELLI EMPIRICI
Consideriamo il modello di regressione lineare semplice in riferimento alle n osservazioni del campione
con εi~IID(0,σ2) e definiamo una funzione obiettivo L
come la somma degli scarti al quadrato delle osservazioni dal vero modello di regressione:
Gli stimatori (detti ai minimi quadrati) dei due
parametri β0e β1devono soddisfare le due equazioni 0 1
ˆ ˆ
β e β
14
MODELLI EMPIRICI
Semplificando le due espressioni si ottengono le cosiddette equazioni normali ai minimi quadrati
le cui soluzioni forniscono gli stimatori ai minimi quadrati dove e .
15
MODELLI EMPIRICI
Gli stimatori ai minimi quadrati dei due parametri β0e β1 sono non distorti
con varianza pari a
Si può dimostrare che sono anche stimatori
consistenti, ovvero asintoticamente la probabilità che
assumano il vero valore del parametro è pari ad uno.
La retta di regressione stimata (o prevista) è quindi
si noti che ogni coppia di osservazioni soddisfa la relazione
dove il termine viene definito residuo. L’i-esimo residuo ei rappresenta l’errore relativo al
valore previsto dal modello rispetto all’osservazione yi. In seguito vedremo che i residui verranno utilizzati
come per ottenere delle elaborazioni dette analisi dei residui che mirano a valutare dal punto di vista descrittivo l’adeguatezza del modello stimato rispetto alle assunzioni (normalità, indipendenza ed eteroschedasticità) del modello di regressione lineare.
9
17MODELLI EMPIRICI
Riprendendo l’esempio della purezza dell’ossigeno rispetto al livello di idrocarburi, le stime ai minimi quadrati del coefficiente angolare e dell’intercetta sono
Il modello di regressione stimato risulta quindi Diagramma di dispersione della purezza dell’ossigeno rispetto al livello di idrocarburi e modello di regressione ŷ = 74.20 + 14.97x. 18 MODELLI EMPIRICI
19
MODELLI EMPIRICI
La somma dei quadrati degli errori SSEè pari a
Si può dimostrare che il valore atteso della somma dei quadrati degli errori è tale che E(SSE) = (n – 2)σ2.
Quindi, una stimatore non distortodi σ2 è
dove SSEpuò essere facilmente calcolato come
REGRESSIONE LINEARE SEMPLICE
Assumendo che il termine di errore casuale ε abbia distribuzione normale, ovvero εi~NID(0,σ2), è possibile
considerare due statistiche test finalizzare a fare inferenza sui due parametri β0e β1, formalmente
dove un importate caso è quello del cosiddetto test di significatività della regressione: H0: β1=0 vs. H1: β1≠0
Le statistiche test appropriate sono:
che hanno distribuzione nulla t di Student con n-2 gdl, ovvero l’ipotesi nulla sarà rigettata se .
11
21MODELLI EMPIRICI
Il mancato rifiuto dell’ipotesi nulla H0: β1=0 vs. H1: β1≠0 è equivalente a concludere che non vi è una relazione lineare tra x e Y.
Possibili casi in cui l’ipotesi H0: β1= 0
non è rigettata.
Possibili casi in cui l’ipotesi H0: β1= 0 viene è rigettata.
22
MODELLI EMPIRICI
23
MODELLI EMPIRICI
Una procedura alternativa (ma equivalente) per sottoporre a verifica la significatività della regressione (H0: β1=0 vs. H1: β1≠0) può essere sviluppata grazie
all’approccio dell’Analisi della Varianza (applicato alla regressione), mediante l’espressione:
⇔
Se l’ipotesi nulla H0: β1=0 è vera, la statistica test
segue una distribuzione F1,n-2 e l’ipotesi sarà rifiutata, a livello di significatività α, se F0> Fα;1,n-2.
I risultati delle verifica di ipotesi sulla significatività della regressione via Analisi della Varianza vengono usualmente rappresentati in forma tabellare:
dove le quantità MSR e MSE sono chiamate quadrati medi della regressione e dell’errore.
SSRe SSE rappresentano rispettivamente la parte della variabilità totale della risposta Y spiegata dalla regressione e la parte imputabile al termine di errore.
13
25MODELLI EMPIRICI
è chiamata coefficiente di determinazione - R2 ed è spesso utilizzata per giudicare l’adeguatezza del modello di regressione.
Il range dei valori possibili dell’R2sono 0 ≤ R2≤ 1.
Spesso ci riferiamo all’R2 come la quantità della
variabilità nei dati spiegata o interpretata dal modello di regressione.
Per il modello di regressione della purezza dell’ossigeno rispetto al livello di idrocarburi,
R2= SS
R/SST = 152.13/173.38 = 0.877
Quindi, il modello interpreta l’87.7% della variabilità presente nei dati.
La quantità
26
MODELLI EMPIRICI
27
MODELLI EMPIRICI
REGRESSIONE LINEARE SEMPLICE
Sotto l’assunzione εi~NID(0,σ2), ovvero di normalità del
termine di errore (o equivalentemente delle osservazioni Yi), oltre a condurre dei test di significatività sui parametri, è possibile costruire degli intervalli di confidenza all’(1-α)100% per il coefficiente angolare β1e per l’intercetta β0:
15
29MODELLI EMPIRICI
30
MODELLI EMPIRICI
REGRESSIONE LINEARE SEMPLICE
Oltre agli intervalli di confidenza per parametri β1e β0, è possibile costruire intervalli di confidenza anche per
la previsione media µY|x
0:
31
MODELLI EMPIRICI
REGRESSIONE LINEARE SEMPLICE
Diagramma di dispersione della purezza dell’ossigeno rispetto al livello di idrocarburi, retta di regressione stimata e limiti di confidenza al 95% di µY|x0.
17
33MODELLI EMPIRICI
34
MODELLI EMPIRICI
REGRESSIONE LINEARE SEMPLICE
Diagramma di dispersione della purezza dell’ossigeno rispetto al livello di idrocarburi, retta di regressione stimata, limiti di confidenza al 95% di µY|x0(linee interne) e limiti di previsione al 95% (linee esterne).
35
MODELLI EMPIRICI
Adottare un modello di regressione richiede alcune assunzioni: εi~NID(0,σ2),
¾ gli errori devono essere variabili aleatorie incorrelate con media zero;
¾ gli errori devono avere varianza costante;
¾ gli errori devono essere distribuiti normalmente. L'analista deve sempre considerare la validità di queste
assunzioni e condurre analisi per esaminare l'adeguatezza del modello.
I residui del modello di regressione sono definiti come ei=yi−ŷi, dove yi è il valore osservato e ŷi è il corrispondente valore stimato dal modello di regressione.
Possibili pattern dei grafici dei residui.
(a) soddisfacente, (b) imbuto,
(c) double bow, (d) non lineare.
REGRESSIONE LINEARE SEMPLICE
L'analisi dei residui è spesso utile nel valutare l'ipotesi che gli errori sono hanno distribuzione normale, con varianza costante, e nel determinare se sarebbe utile considerare nel modello ulteriori termini.
19
37MODELLI EMPIRICI
Normal probability
plot dei residui Residui vs. valori previsti ŷ
38
MODELLI EMPIRICI
La regressione polinomiale è una forma di regressione lineare in cui la relazione tra la variabile indipendente x e la variabile dipendente Y viene modellata da un polinomio.
La regressione polinomiale adatta una relazione non lineare tra il valore di x e la corrispondente media condizionata di Y, indicata con E(Y|X).
Anche se la regressione polinomiale adatta ai dati un modello non lineare, il problema di stima statistica è lineare, nel senso che la funzione di regressione E(Y|x) è lineare nei parametri ignoti che sono stimati dai dati.
Quindi, la regressione polinomiale è considerata un caso particolare di regressione lineare multipla.
39
MODELLI EMPIRICI
• Modello lineare semplice:
Yi= β0+ β1xi+εi, i =1,...,n. • Modello quadratico: Yi= β0+ β1xi+ β2xi2+ε i, i =1,...,n. • Modello cubico: Yi= β0+ β1xi+ β2xi2+ β3xi3+εi, i =1,...,n. • Modello polinomiale di ordine p:
Yi= β0+ β1xi+ β2xi2+…+ β
pxip+εi, i =1,...,n. Un approccio alternativo è la regressione non parametrica in cui la funzione link non prende una forma predeterminata, ma viene costruita in base alle informazioni ricavate dai dati.
REGRESSIONE CON REGRESSORI QUALITATIVI
In un modello di regressione si possono introdurre anche delle variabili esplicative di tipo qualitativo (es. tipo di prodotto, fornitore, ecc.), che possono essere definite su due o più livelli (modalità, categorie).
A questo scopo, data una variabile qualitativa su a livelli, è necessario applicare la seguente procedura:
o un livello (ad es. il primo) viene scelto come riferimento (baseline);
o si costruiscono a−1 variabili (di comodo o dummy) D2,...,Da, secondo una delle due codifiche:
1. Dij=1, se in corrispondenza dell’i-esima osserva-zione (i=1,...,n) si osserva il livello j-esimo della variabile qualitativa; altrimenti Dij=0;
2. Dij=1, se in corrispondenza dell’i-esima osserva-zione (i=1,...,n) si osserva il livello j-esimo; Dij=−1 se si osserva il livello 1 (baseline), altrimenti D=0.
21
41MODELLI EMPIRICI
Si noti che la variabile di comodo per la categoria di riferimento non viene considerata in quanto si verrebbe a determinare una dipendenza lineare tra le colonne della matrice dei regressori con conseguente impossibilità di invertire la matrice X′X.
Il coefficiente di una variabile dummy deve essere sempre interpretato in relazione alla categoria di riferimento, vale a dire la categoria che riceve il valore 0. Le variabili dummy possono interagire con regressori
sia quantitativi sia qualitativi.
Se un modello contiene più variabili esplicative di tipo qualitativo con diverse categorie, l'introduzione delle dummy per tutte le combinazioni possono ‘consumare’ un gran numero di gradi di libertà, specialmente se la dimensione del campione è relativamente piccolo.
42
MODELLI EMPIRICI
Un modello spesso usato è il modello di regressione
lineare multiplacon due variabili indipendenti:
Il modello descrive un piano nello spazio tridimensionale (y,x1,x2).
In generale, quando la variabile di risposta y può essere legata a k variabili esplicative è possibile specificare il seguente modello lineare:
Regressione polinomiale o con variabili qualitative sono casi particolari di regressione lineare multipla.
Questo approccio può essere applicato a dati provenienti sia da studi osservazionali sia sperimentali (dopo l’analisi ANOVA, se uno o più fattori sono di tipo numerico).
43
MODELLI EMPIRICI
Il dati si presentano nell’usuale forma di dataset:
Il modello di regressione lineare multipla, per la singola osservazione yi, si presenta nella forma
con εi~IID(0,σ2).
Riscritto in termini matriciali, risulta .
y è un vettore (n×1) delle variabili casuali rappresentanti
le osservazioni
X è una matrice (n×p) dei livelli delle variabili
indipendenti, con p=k+1
è un vettore (p×1) dei coefficienti di regressione
è un vettore (n×1) di errori casuali
23
45MODELLI EMPIRICI
Definiamo una funzione obiettivo L come la somma degli scarti al quadrato delle osservazioni dal vero modello di regressione La funzione dei minimi quadrati
Semplificando si ottiene un sistema di p equazioni dette normali ai minimi quadrati, che è semplice risolvere in forma matriciale.
L’obiettivo è quello di trovare il vettore degli stimatori ai minimi quadrati del parametro β, tale da minimizzare Dopo alcuni passaggi si ottiene .βˆ (= X X X y′ )−1 ′
46
MODELLI EMPIRICI
I valori stimati dal modello di regressione lineare multipla sono definiti come
In notazione scalare
La differenza tra osservazioni reali yi e i corrispondenti valori stimati ŷidefinisce il vettore (nx1) dei residui e Per stimare σ2 si considera la somma dei quadrati dei
residui SSE
Si può mostrare che quindi uno sti-matore non distorto di σ2è dato da: .
REGRESSIONE LINEARE MULTIPLA
2
ˆ SSE (n p)
47
MODELLI EMPIRICI
Il metodo dei minimi quadrati produce uno stimatore _ del parametro β del modello di regressione lineare che è BLUE (Best Linear Unbiased Estimator), ovvero è non distorto e ottimale nella classe degli stimatori lineari. Lo stimatore è inoltre consistente (converge
asintotica-mente in probabilità al vero valore).
Le proprietà della varianza di viene espressa dalla
matrice varianze-covarianze
che è una matrice simmetrica, il cui i-esimo elemento nella diagonale principale è la varianza dello stimatore del coefficiente di regressione individuale e il cui elemento (ij)-esimo è la covarianza tra e
ˆβ
ˆβ
La multicollinearità è un fenomeno che si può verificare in presenza di alta correlazione tra due o più variabili indipendenti.
Questo significa che alcune variabili contribuiscono con delle informazioni ridondanti al modello di regressione multipla.
L’inclusione di due variabili indipendenti strettamente correlate può influenzare negativamente i risultati della regressione e portare a stime dei parametri instabili (errore standard elevati e conseguenti bassi valori osservati dei t-test), tanto che i segni dei parametri potrebbero anche non corrispondere alle aspettative iniziali.
25
49MODELLI EMPIRICI
La presenza di multicollinearità è suggerita da alcuni situazioni:
o segni errato sui parametri stimati;
o grandi variazioni nella stima di un parametro quando una nuova variabile si aggiunge al modello;
o una variabile significativa in precedenza diventa insignificante quando una nuova variabile indipendente è aggiunta;
o la stima della deviazione standard del modello aumenta quando una variabile viene aggiunto al modello;
o valori elevati (>5) dell’indice VIF (Variance Inflation Factor), calcolato per ogni data stima del parametro βj.
50
MODELLI EMPIRICI
Sotto l’assunzione che gli errori del modello siano εi~IIN(0,σ2), cioè indipendenti e distribuiti normalmente,
con valore atteso zero e varianza costante, è possibile sviluppare delle procedure di verifica di ipotesi sulla significatività dei parametri del modello.
Una prima verifica di ipotesi (di tipo globale), mira a determinare se vi sono relazioni lineari tra la variabile di risposta Y ed almeno uno dei regressori:
Il rifiuto di H0 implica che almeno uno dei regressori contribuisce al modello, si tratta perciò di una procedura sulla significatività dell’intero modello di regressione.
La statistica test utilizzata si sviluppa dalla usuale scomposizione della somma dei quadrati:
51
MODELLI EMPIRICI
Dove le somma dei quadrati totali SST, dovuta alla regressione SSRè dell’errore SSEsono
Sotto l’ipotesi nulla la statistica test di interesse è di tipo F:
L’ipotesi nulla dovrà essere rifiutata se Foss> Fα;k,n−k −1.
Il p-value, usualmente riportato nella tabella ANOVA della regressione, rappresenta un metodo alternativo ed equivalente per la verifica di ipotesi.
Dalla scomposizione della somma dei quadrati, si può calcolare l’indice di determinazione R2:
che è una misura della parte della variabilità di y spiegata dal modello. Un basso/elevato valore di R2 non
implica necessariamente però che il modello di regressione sia cattivo/buono.
27
53MODELLI EMPIRICI
Dato che l’indice R2 aumenta monotonicamente
aggiungendo nuovi termini al modello, si preferisce utilizzarlo nella versione di R2
adjaggiustato ( adjusted):
L’indice R2
adj non aumenta necessariamente quando si aggiungono variabili nel modello, ma se si aggiungono termini superflui il valore decresce.
Spesso siamo interessati a determinare l’utilità individuale di ciascuna delle variabili indipendenti, nel modello di regressione.
Si deve decidere cioè se l’incremento nella somma dei quadrati della regressione è sufficiente a giustificare l’uso di una variabile aggiuntiva nel modello.
54
MODELLI EMPIRICI
Le ipotesi per valutare la significatività di un singolo coefficiente di regressione sono H0: βj=0 vs. H1: βj≠0.
Una statistica test (di tipo t di Student) appropriata a testare questa ipotesi è
dove il denominatore è spesso chiamato errore standard. La maggior parte dei software di calcolo della regressione
fornisce il test t per ogni parametro del modello.
In alternativa, mediante un test F si può esaminare il contributo alla somma dei quadrati della regressione di una particolare variabile (posto che le altre variabili siano incluse nel modello): si tratta del metodo della somma dei
quadrati aggiuntivi, utile anche a verificare se un dato
sottoinsieme delle variabili contribuisce significativamente al modello.
55
MODELLI EMPIRICI
Dal modello di regressione si vuole veri-ficare se il sottoinsieme X1delle variabili di regressione contribuisce significativamente al modello.
Il modello di regressione può essere riscritto evidenziando X1e X2e i relativi coefficienti β1e β2:
Per il modello completo che include sia β1 sia β2 si ottiene dove l’errore ha p gradi di libertà, da cui
Per il modello ridotto, che recepisce il vincolo β1=0, si ottiene
Si definisce la somma dei quadrati della regressione dovuta a β1dato che β2è già nel modello:
Ora dato che è indipendente da MSE, l’ipotesi H0: β1=0 può essere valutata dalla statistica
Tale statistica test è chiamata test F parziale e misura l’effetto di un vincolo imposto su di un sotto insieme di variabili indipendenti.
Usualmente il vincolo è β1=0, ma con lo stesso approccio si potrebbe considerare anche il caso più generale espresso da un sistema di equazioni lineari del tipo Rβ=r.
29
57MODELLI EMPIRICI
Consideriamo l’esempio della viscosità e supponiamo di volere studiare il contributo della variabile X2 nel modello.
Le ipotesi da valutare sono H0: β2=0 vs. H1: β2=0.
Ciò richiederà la somma dei quadrati aggiuntiva dovuta a β2
Il modello ridotto è
Per valutare la statistica test adeguata è
Questa procedura equivale a condurre il test t su β2.
58
MODELLI EMPIRICI
Sotto assunzione di normalità degli errori casuali è possibile costruire degli intervalli di confidenza per i coefficienti di regressione e per altre quantità d’interesse nel modello di regressione.
Un intervallo di confidenza al (1−α)% per il coefficiente di regressione βjè dato da
dove Cjj è l’elemento in posizione jj della matrice
Un intervallo di confidenza per la risposta media µy|x0 in corrispondenza del punto x0=(x01,x02,…,x0k)
dove .
59
MODELLI EMPIRICI
Infine, un intervallo di confidenza utile per prevedere future osservazioni del valore puntuale della risposta y0 in corrispondenza del punto x0=(x01,x02,…,x0k)
dove .
Quando si prevedono nuove osservazioni occorre molta cautela nell’eventuale estrapolazione al di fuori della regione contenente le osservazioni originarie.
REGRESSIONE LINEARE MULTIPLA
Uno degli aspetti più delicati della regressione lineare multipla è la selezione delle variabili esplicative al fine di ottenere un modello finale soddisfacente.
Infatti, la stima di un modello iniziale che include tutti i k possibili regressori produrrà quasi certamente un risultato in cui alcuni regressori avranno un p-value significativo mentre altri non l’avranno. Si pone quindi la questione della corretta/opportuna selezione del sottoinsieme dei regressori.
In questo ambito non esiste un algoritmo ottimale che consente in tutte le condizioni di ottenere un modello finale “ottimo”.
Ci si può affidare ad algoritmi alternativi, tenendo presente che questi non necessariamente produrranno lo stesso risultato.
31
61MODELLI EMPIRICI
Gli algoritmi più utilizzati per la selezione delle variabili esplicative nel modello di regressione lineare multipla si dividono in due categorie: 1. step-wise e 2. best sub-set. Gli algoritmi step-wise funzionano a passi, secondo una
delle tre modalità:
o Forward stepwise selection: inizia con il modello vuoto
e aggiunge regressori in modo sequenziale;
o Backward stepwise selection: inizia con il modello
completo e toglie regressori in modo sequenziale;
o Stepwise selection: combinazione di selezione forward
e backward.
La procedura best sub-set si basa sull’idea di stimare tutte le possibili equazioni di regressione utilizzando tutte le possibili combinazioni di variabili indipendenti, quindi si sceglie il modello in termini di migliore adattamento ai dati (R2elevato, MS
Epiccolo e indice Cpdi Mallow appropriato).
62
MODELLI EMPIRICI
Le analisi diagnostiche del modello di regressione sono delle tecniche che riguardano l’adeguatezza del
modello e che si applicano usualmente a quello che si
considera il modello stimato finale.
L’analisi grafica dei residui fa parte di queste procedure. Alcuni autori suggeriscono di lavoro non sui residui ordinari quanto su una loro forma modificata, suggerendo che questi forniscono più informazioni.
Uno tipo di questi residui è detto residui standardizzati caratterizzati da media zero e varianza unitaria che tornano utili nella ricerca degli outlier o valori anomali.
Il processo di standardizzazione trasforma la scala dei residui, in quanto li divide per la loro deviazione media approssimata.
REGRESSIONE LINEARE MULTIPLA
ˆ , 1,...,
i i
63
MODELLI EMPIRICI
La varianza dell’i-esimo residuo è , dove la matrice H=X(X′X)−1X′
trasforma il vettore dei valori osservati in un vettore di valori previsti.
In generale, residui prossimi al centro dello spazio di X hanno varianza maggiore di quelli relativi a posizioni più distanti. Tenendo conto della non uniformità della varianza quando si trasforma la scala dei residui, conviene considerare i residui studentizzati:
In molte situazioni la varianza dei residui si stabilizza, particolarmente per grandi insiemi di dati ed in questi casi le differenze tra i residui standardizzati e studentizzati saranno piccole.
Si riportano sedici osservazioni della viscosità di un polimero (y) e di due variabili di processo-temperatura di reazione (x1) e portata del catalizzatore (x2), a cui si vuole adattare un
modello di regressione multipla:
Impostate le matrici X ed y, si trovano le matrici X’X ed il vettore X’y e la stima ai minimi quadrati di
33
65MODELLI EMPIRICI
La tabella sottostante riporta alcuni output ottenuti con Minitab per accostamento del modello di regressione per l’esempio della viscosità.
The regression equation is
Viscosity = 1566 + 7.62 Temp (x1) + 8.58 Feed rat (x2)
Predictor Coef SE Coef T P
Constant 1566.08 61.59 25.43 0.000 Temp (x1) 7.6213 0.6184 12.32 0.000 Feed rat (x2) 8.585 2.439 3.52 0.004 S = 16.3586 R-Sq = 92.7% R-Sq(adj) = 91.6% Analysis of Variance Source DF SS MS F P Regression 2 44157 22079 82.50 0.000 Residual Error 13 3479 268 Total 15 47636 66 MODELLI EMPIRICI
REGRESSIONE LINEARE MULTIPLA
Il grafico 3D sottostante riporta i valori stimati dal modello di regressione (FITS) ovvero il piano di risposta che stima la viscosità in funzione delle combinazioni di temperatura di reazione (x1) e portata del catalizzatore (x2).
FITS 2250 2300 100 2350 2400 12 90 10 Temp (x1) 80 8 Feed rat (x2)
67
MODELLI EMPIRICI
Valori previsti, residui ed altri strumenti diagnostici.
Residual Pe rc en t 40 20 0 -20 -40 99 90 50 10 1 Fitted Value Re si du al 2400 2350 2300 2250 20 10 0 -10 -20 Residual Fr eq ue nc y 24 12 0 -12 -24 4.8 3.6 2.4 1.2 0.0 Observation Order Re si du al 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 20 10 0 -10 -20
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Residual Plots for Viscosity
REGRESSIONE LINEARE MULTIPLA
I grafici sulla diagnostica dei residui evidenziano delle problematiche in merito all’assunzione di normalità e di omoschedasticità degli errori (c’è una tendenza della varianza della viscosità osservata ad aumentare con valori crescenti di viscosità).
35
69MODELLI EMPIRICI
I grafici dei residui rispetto a x1(temperatura) e x2 (portata del catalizzatore) suggeriscono inoltre che la variabilità della viscosità tende ad aumentare al crescere della temperatura. Temp (x1) Re si d u a l 100 95 90 85 80 30 20 10 0 -10 -20
Residuals Versus Temp (x1)
(response is Viscosity) Feed rat (x2) Re si d u a l 13 12 11 10 9 8 30 20 10 0 -10 -20
Residuals Versus Feed rat (x2)
(response is Viscosity)
70
MODELLI EMPIRICI
REGRESSIONE LINEARE MULTIPLA
Consideriamo due esempi di applicazione della regressione lineare multipla a dati provenienti da uno studio sperimentale.
1. In uno studio sulle proprietà meccaniche di alcune miscele bituminose, si vuole stabilire se il modulo di rigidezza è legato al tipo di scheletro (SCHEL: A,B), e alle percentuali di cemento (CEM: 1,2,3) e di bitume (BIT: 2,3,4).
2. In uno studio sulle proprietà di alcuni calcestruzzi (Tipo Calc: normale, con ritardante, con fluidificante) si sono misurati valori di resistenza (lb/in^2) considerando anche la percentuale di acqua (% Acqua: 1, 2, 3%) e la percentuale di cemento (% Cem: 3, 4, 5%).
71
MODELLI EMPIRICI
ESEMPIO 1: Per la miscela con scheletro B è stata adattata ai dati sperimentali una opportuna superficie di risposta.
Estimated Regression Coeff. for Sm(MPa)
Term Coef SE Coef T P
Constant 5584.40 130.49 42.796 0.000 CEM 324.95 71.47 4.547 0.000 BIT 656.37 71.47 9.184 0.000 CEM^2 -6.63 123.79 -0.054 0.957 BIT^2 -500.99 123.79 -4.047 0.000 CEM*BIT -200.53 87.54 -2.291 0.024 S = 553.6 R-Sq = 60.1% R-Sq(adj) = 57.7% Sm (MPa) 4000 5000 1 2 CEM Sm (MPa) 6000 4 3 BIT 2 3
Surface Plot of Sm (MPa) vs BIT; CEM
CEM BIT 3.0 2.5 2.0 1.5 1.0 4.0 3.5 3.0 2.5 2.0 Sm (MPa) 4500 - 5000 5000 - 5500 5500 - 6000 > 6000 < 4000 4000 - 4500
Contour Plot of Sm (MPa) vs BIT; CEM
Residual Pe rc en t 2000 1000 0 -1000 -2000 99.9 99 90 50 10 1 0.1 Fitted Value Re si du al 6000 5500 5000 4500 4000 1000 0 -1000 -2000 Residual Fr eq ue nc y 1000 500 0 -500 -1000 -1500 -2000 20 15 10 5 0 Observation Order Re si du al 90 80 70 60 50 40 30 20 10 1 1000 0 -1000 -2000
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Dat
Residual Plots for Sm (MPa)
REGRESSIONE LINEARE MULTIPLA
ESEMPIO 2: per il calcestruzzo di tipo normale è stata adattata ai dati sperimentali una opportuna superficie di risposta.
Estimated Regression Coefficients for Rc [lb/in^2] Term Coef SE Coef T P Constant 4042.5 255.45 15.825 0.000 % Cem -149.9 34.76 -4.313 0.001 % Acqua -714.6 243.34 -2.937 0.011 % Acqua^2 197.4 60.21 3.279 0.005 S = 120.4 R-Sq = 70.8% R-Sq(adj) = 64.6% Analysis of Variance for Rc [lb/in^2]
Source DF Adj SS Adj MS F P Regression 3 493244 164415 11.34 0.000 Residual Error 14 203017 14501 Total 17 696261 Residual Pe rc en t 200 100 0 -100 -200 99 90 50 10 1 Fitted Value Re si du al 3200 3000 2800 2600 200 100 0 -100 -200 Fr eq ue nc y 200 100 0 -100 -200 4 3 2 1 0 Re si du al 18 16 14 12 10 8 6 4 2 200 100 0 -100 -200
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
37
73MODELLI EMPIRICI
ESEMPIO 2: per il calcestruzzo di tipo normale è stata adattata ai dati sperimentali una opportuna superficie di risposta. Rc 2600 2800 3 4 % Cem 3000 3200 1 5 3 2 % Acqua
Surface Plot of Rc [lb/in^2] vs % Acqua; % Cem
% Cem % A cq u a 5.0 4.5 4.0 3.5 3.0 3.0 2.5 2.0 1.5 1.0 Rc [lb/in^2] 2800 - 2900 2900 - 3000 3000 - 3100 3100 - 3200 > 3200 < 2700 2700 - 2800
Contour Plot of Rc [lb/in^2] vs % Acqua; % Cem
74
MODELLI EMPIRICI
Quando si considera l’applicazione di un modello lineare, se l’assunto della linearità viene a cadere anche approssimativamente, a volte è possibile trasformare nel modello di regressione sia le variabili indipendenti sia quella dipendente al fine di migliorarne la linearità.
Un'altra assunzione della regressione lineare è che la variabile dipendente dovrebbe variare almeno approssimativamente secondo una legge normale intorno al suo valore atteso, con la stessa varianza per ogni possibile valore atteso (questa proprietà è nota come omoschedasticità).
Sebbene la normalità non sia necessaria per ottenere le stime appropriate ai minimi quadrati dei parametri di regressione (teorema di Gauss-Markov) ...
75
MODELLI EMPIRICI
… intervalli di confidenza e test di ipotesi avranno le proprietà statistiche desiderate solo se la media condizionata rispetto alle variabili esplicative della variabile dipendente sarà almeno approssimativamente normale e con varianza costante.
Le trasformazioni logaritmo e radice quadrata sono comunemente utilizzate per i dati positivi, e la trasformazione inversa (reciproco) può essere utilizzato per dati non-zero.
La trasformazione di potenza è una famiglia di trasformazioni parametrizzate da un non negativo valore λ che include il logaritmo, radice quadrata, e il reciproco come casi particolari.
Per approcciare la questione della trasformazione dei dati in modo sistematico, è possibile utilizzare tecniche di stima statistica per stimare il parametro λ della trasformazione di potenza, in modo da identificare la trasformazione che è approssimativamente la più appropriata ad un dato contesto. Dal momento che la famiglia delle trasformazioni di potenza include anche la trasformazione identica, questo approccio può anche indicare se sarebbe preferibile analizzare i dati senza alcuna trasformazione. Nell'analisi di regressione, questo approccio è conosciuto come la tecnica di Box-Cox.
39
77MODELLI EMPIRICI
La regressione non lineare è una forma di regressione in cui i dati osservati sono modellati da una funzione che è una combinazione lineare dei parametri del modello e dipende da una o più variabili indipendenti. I parametri vengono stimati con algoritmi numerici basati su approssimazioni iterative.
A volte i modelli non lineari possono essere linearizzati mediante trasformazioni opportune. Consideriamo ad esempio il modello esponenziale (ignorando l’errore): Yi=β0eβ1Xi. Se applichiamo la trasformazione logaritmica ad entrambi i membri otteniamo
lnYi= lnβ0+β1Xi
il che suggerisce di stimare i parametri ignoti attraverso una regressione lineare di lnY su X.
78
MODELLI EMPIRICI
Il processo di stima per un modello non lineare, ma linearizzabile non richiede alcune ottimizzazione iterata. Tuttavia, l'utilizzo di una trasformazione lineare richiede cautela.
1
i i X iY
e
βγ
ε
α
−=
+
+
Un utile modellogenuinamente non lineare è il cosiddetto modello logistico a due o tre parametri: