ALGORITMI DI IDENTIFICAZIONE:
ANALISI E COMPLEMENTI
ANALISI ASINTOTICA DEI METODI P.E.M.
Ipotizziamo di avere N dati:
{ }
{
u u uNN}
y y
y
,..., ,
,..., ,
2 1
2 1
Scegliamo una famiglia di modelli (ARMAX) M(ϑ) con
ϑ ∈ ℜ
nϑ . I metodi P.E.M. calcolano ϑˆN minimizzando JN(ϑ).ÆϑˆN = argminϑ
{
JN(ϑ)}
con 21
)
; 1 (
)
(ϑ ε t ϑ
J N N
N = ∑t
=
Problema: ϑˆN calcolato in questo modo ci fornisce un “buon”
modello?
Prima di procedere con l’analisi, ipotizziamo che y(t),u(t),ε(t) siano processi ergodici (cioè possiamo calcolarne le proprietà probabilistiche a partire da medie nel tempo)
Consideriamo quindi J(ϑ) e prendiamo l’insieme ∆ dei suoi punti di minimo globale:
{ ϑ ϑ
≥ϑ
∀ϑ }
=
∆ | J( ) J( ),
Osservazioni:
- caso particolare: ∆ =ϑ (ovvero J(ϑ) ha un unico minimo globale) - dato che JN(ϑ) ⎯N⎯ →→⎯+∞ J(ϑ) ci aspettiamo che ϑˆN ⎯⎯ →N→⎯+∞ ∆
Supponiamo ora che S ∈M(ϑ)
Æ allora ∃M(ϑ0) = S (ϑ0 rappresenta il vettore vero dei parametri)
Problema: ϑ0 appartiene all’insieme dei minimi globali della cifra di merito ∆ ?
In caso di risposta affermativa si potrà affermare che un metodo P.E.M. è in grado di trovare la parametrizzazione vera del modello.
Dimostrazione:
Consideriamo il generico modello M(ϑ) e scriviamone l’errore di predizione: )ε(t,ϑ) = y(t)− yˆ(t/t−1,ϑ
Togliamo ad entrambi i membri la quantità yˆ(t/t−1,ϑ0), ovvero il predittore del modello vero (M(ϑ0) = S)
rumore bianco e(t) che alimenta il sistema vero
) , 1 / ( ˆ ) , 1 / ( ˆ ) ( )
, 1 / ( ˆ ) ,
( ϑ ϑ0 ϑ ϑ0
ε t − y t t − = y t − y t t − − y t t −
NB: L’errore di predizione ad un passo del modello vero è e(t):
) ) ( (
) ) (
1 ) (
( ) ) (
(
: e t
z A
z t C
z u A
z t B
y
S = − + con e(t)~WN(0,λ2)
Pertanto:
) , 1 / ( ˆ ) , 1 / ( ˆ ) ( ) ,
( ϑ ϑ0 ϑ
ε t = e t + y t t− − y t t −
Applichiamo l’operatore E
[ ] ( )
2 ad entrambi i membri dell’equazione:[
ε(t,ϑ)2]
= E[ (
e(t)+(
yˆ(t/t −1,ϑ0)− yˆ(t/t −1,ϑ)) )
2]
E
[ ] [ ( ) ]
( )
[
( ) ˆ( / 1, ) ˆ( / 1, )]
2
) , 1 / ˆ( ) , 1 / ˆ( )
( )
(
0
0 2 2
ϑ ϑ
ϑ ϑ
ϑ
−
−
−
⋅ +
+
−
−
− +
=
t t y t
t y t e E
t t y t
t y E t
e E J
( )
[
ˆ( / 1, ) ˆ( / 1, )]
0)
(ϑ = λ2 + E y t t − ϑ0 − y t t − ϑ 2 + J
( )
[
0 2]
2 ˆ( / 1, ) ˆ( / 1, )
)
(ϑ =λ + − ϑ − − ϑ
⇒ J E y t t y t t
ϑ
∀
≥ ,0 ; si annulla per ϑ = ϑ0
ϑ ϑ
λ
ϑ ≥ = ∀
⇒ J( ) 2 J( 0),
ϑ ϑ
ϑ ) ≥ ( ), ∀
( J
0J
Conclusione (fondamentale):
Se S∈ M(ϑ), un metodo P.E.M. è in grado di garantire che il modello stimato è quello vero.
Osservazione:
Abbiamo visto che:
Se S∈ M(ϑ) in corrispondenza di ϑ0, ε(t,ϑ0) = e(t) ≈WN
⇒ questa considerazione ci suggerisce un metodo per verificare a posteriori se il modello identificato è quello vero
Æ TEST DI BIANCHEZZA su ε(t,ϑˆN)
Osservazione:
Quando identifichiamo un modello M(ϑ) possono capitarci quattro diverse situazioni:
1] S∈ M(ϑ) e ∆ =ϑ ⇒ϑ =ϑ0 (caso ideale)
S = M(ϑ
0)
ˆ ) (
* Μ ϑ
NM(ϑ)
+∞
→ N
2] S∈ M(ϑ) ma ∆ è costituito da più valori
ˆ ) (
*Μ
ϑ
NM(ϑ)
{
Μ(ϑ
)|ϑ
∈∆}
S
+∞
→ N
3] S∉Μ(ϑ) ma ∆ =ϑ (un solo punto di minimo)
ˆ ) (
* Μ ϑ
N∆ M(ϑ)
ϑ =
+∞
→ N
S
4] S∉Μ(ϑ) e ∆ è costituito da più punti
M(ϑ)
{ Μ ( ϑ ) | ϑ ∈ ∆ }
+∞
→ N
S
TEST DI BIANCHEZZA [test di Anderson]
Abbiamo visto che se identifico il modello vero (cioè M(ϑ0) = S), il corrispondente errore di predizione (ε(t,ϑ0) = y(t)− yˆ(t/t −1,ϑ0) deve essere un rumore bianco.
Dopo aver stimato un modello M(ϑˆN ) possiamo quindi verificare se il modello stimato è quello vero attraverso un test di bianchezza di
ˆ ) , (t ϑN ε .
Procedimento completo:
– scegliamo una famiglia di modelli M(ϑ)
–stimiamo ϑˆ con un metodo P.E.M. N – calcoliamo ε(t,ϑˆN)
– facciamo il test di bianchezza su ε(t,ϑˆN)
OK
Fine
KO
Test di bianchezza di ε(t,ϑˆN):
Esistono tanti modi per effettuare un test di bianchezza.
Metodi intuitivi:
→ ) ˆ (
τ
γ
N In pratica…-π π -π π
In pratica…
→ ΓˆN(
ω
)Vediamo un test più raffinato, detto test di bianchezza di ANDERSON
Preso il segnale ε(t,ϑˆN)
se ne calcola la funzione di covarianza campionaria:
∑ + ≤ ≤ −
= − −
=
τε ε τ τ
τ τ
γ N
N t t t N
N1 1 ( ) ( ) , 0 1
) ˆ (
Si calcola poi la funzione di covarianza normalizzata:
) 0 ˆ (
) ˆ ( ) ( ˆ
N N
N γ
τ τ γ
ρ = ⇒ se ε(t) fosse bianco ⇒ 1 ρˆN(τ)
La funzione ρˆN (τ) è a sua volta una variabile casuale, che ha delle proprietà teoriche interessanti;
si dimostra infatti che:
1) N ⋅ρˆN (τ)⎯⎯ →N→⎯+∞ Ν(0,1) ; ∀τ ≠ 0 2) Ε
[
ρˆN (τ1)⋅ ρˆN (τ2)]
⎯⎯ →N→⎯+∞ 0 , ∀τ1 ≠τ2Queste due proprietà ci consentono di stimare la gaussianità di ρˆN(τ) avendo a disposizione una sola realizzazione di ε(t,ϑˆN).
Osservazione:
TEST di bianchezza su ε TEST di gaussianità su N ⋅ρˆN(τ)
Algoritmo per la verifica di gaussianità di N ⋅ρˆN(τ):
• Calcoliamo N ⋅ρˆN(τ) per τ =1,2,3,...,M (in generale M << N – 1)
• Scegliamo un livello di confidenza α
• Calcoliamo – usando la distribuzione N(0,1) - il valore β tale per cui l’area delle due code di N(0,1) sia pari ad α per valori < –β e
> β.
–β β
α = 0,05 ⇒ β = 1,96 2
2
2 ) 1
1 , 0 (
x
e
−=
Ν π
• Contiamo il numero P di punti di N ⋅ρˆN(τ) che stanno fuori dall’intervallo [–β, β]
Concludiamo che N ⋅ρˆN(τ) è distribuita come N(0,1), ovvero che )
ε(t è bianco con confidenza (1 – α)%, se ≤α M
P
IENTIFICABILITÀ DEI MODELLI [ARX]
Noti
{
y(1), y(2),..., y(N)}
e{
u(1),u(2),...,u(N)}
Consideriamo il generico modello ARX (m, p+1): )
) ( ( ) 1 1 ) (
( ) ) (
( e t
z t A
z u A
z t B
y = − + con e(t)~ WN(0,λ2)
p pz b z
b z
b b z
B( ) = 0 + 1 −1 + 2 −2 +...+ −
m mz a z
a z
a z
A( ) =1+ 1 −1 + 2 −2 +...+ −
La soluzione PEM trovata per la stima dei parametri del modello ARX:
⎟⎠
⎜ ⎞
⎝⎛ ∑
⎟⎠
⎜ ⎞
⎝⎛ ∑
= =
−
=
N t N
t
T
N t t y t t
1 1
1
) ( ) ( )
( )
ˆ ϕ( ϕ ϕ
ϑ
Problema (detto di “identificabilità”):
quando ϑˆ esiste ed è unico? ⇔ Quando ∑N ϕ(t)ϕT (t) è invertibile?
Definiamo:
= ∑
= N t
T t t
N S
1
) ( ) ( )
( ϕ ϕ
⇓
⎟⎠
⎜ ⎞
⎝⎛ ∑
= =
− N
t
N S N y t t
1
1 ( ) ( )
)
ˆ ( ϕ
ϑ
Definiamo:
= ∑
= =
N t
T t N t
N N S
N R
1
) ( ) 1 (
) 1 (
)
( ϕ ϕ
⇓
⎟⎠
⎜ ⎞
⎝⎛ ∑
= =
− N
N t y t t
N N R
1
1 1 ( ) ( )
)
ˆ ( ϕ
ϑ
Affinchè ϑˆN esista e sia unica è necessario che 0
) (N >
R (e non solo R(N) ≥ 0)
Analizziamo e studiamo la struttura del valore asintotico di R(N) R
N
R( )⎯N⎯→⎯→∞
(è difficile fare una analisi teorica per N “piccolo”)
Per un generico modello ARX(m, p+1),
R è una matrice quadrata di dimensione (m+ p+1)×(m+ p +1) con questa struttura
⎥ ⎦
⎢ ⎤
⎣
⎡
−
= −
u uy
yu y
R R
R R R
Questi quattro blocchi hanno le seguenti espressioni:
⎥ ⎥
⎥ ⎥
⎥ ⎥
⎥
⎦
⎤
⎢ ⎢
⎢ ⎢
⎢ ⎢
⎢
⎣
⎡
−
−
−
−
=
) 0 ( ...
...
...
...
) 1 (
...
...
...
...
...
...
...
...
) 0 ( )
1 ( )
2 ( ...
) 3 (
...
) 1 ( )
0 ( )
1 ( )
2 (
) 2 (
...
) 2 ( )
1 ( )
0 ( )
1 (
) 1 (
...
...
) 2 ( )
1 ( )
0 (
y y
y y
y
y y
y y
y
y y
y y
y
y y
y y
y
m
m m m
R
γ γ
γ γ
γ
γ γ
γ γ
γ
γ γ
γ γ
γ
γ γ
γ γ
⇒ E’ una matrice di dimensione m× m
⇒ E’ la matrice covarianza (di ordine m-1) di y(t),
⇒ La struttura della matrice è di Toepliz.
⎥ ⎥
⎥ ⎥
⎥ ⎥
⎥
⎦
⎤
⎢ ⎢
⎢ ⎢
⎢ ⎢
⎢
⎣
⎡
−
−
=
) 0 ( ...
...
...
...
) (
...
...
...
...
...
...
...
...
) 0 ( )
1 ( )
2 ( ...
) 2 (
...
) 1 ( )
0 ( )
1 ( )
2 (
) 1 (
...
) 2 ( )
1 ( )
0 ( )
1 (
) ( ...
...
) 2 ( )
1 ( )
0 (
u u
u u
u
u u
u u
u
u u
u u
u
u u
u u
u
p
p p
p
R
γ γ
γ γ
γ
γ γ
γ γ
γ
γ γ
γ γ
γ
γ γ
γ γ
⇒ E’ una matrice di dimensione (p+1) × (p+1)
⇒ E’ la matrice covarianza (di ordine p) di u(t),
⇒ La struttura della matrice è di Toepliz.
⎥ ⎥
⎥ ⎥
⎥ ⎥
⎥
⎦
⎤
⎢ ⎢
⎢ ⎢
⎢ ⎢
⎢
⎣
⎡
−
−
−
=
) 0 ( ...
...
...
...
) 1 (
...
...
...
...
...
...
...
...
) 0 ( )
1 ( )
2 ( ...
) 2 (
...
) 1 ( )
0 ( )
1 ( )
2 (
) 1 (
...
) 2 ( )
1 ( )
0 ( )
1 (
) ( ...
...
) 2 ( )
1 ( )
0 (
yu yu
yu yu
yu
yu yu
yu yu
yu
yu yu
yu yu
yu
yu yu
yu yu
yu
m
p p
p
R
γ γ
γ γ
γ
γ γ
γ γ
γ
γ γ
γ γ
γ
γ γ
γ γ
⇒ E’ una matrice rettangolare di dimensione m × (p+1)
⇒ E’ la matrice di correlazione u(t)↔y(t)
⇒ Ruy = RyuT
Cerchiamo una condizione significativa di invertibilità per R ,
Lemma di Schur.
data una matrice M con questa struttura
⎥⎦
⎢ ⎤
⎣
= ⎡
H K
K
M FT
con F e H simmetriche
condizione necessaria e sufficiente affinchè M > 0 è che - H > 0
- F −KH−1KT > 0
Ricordando che:
⎥ ⎦
⎢ ⎤
⎣
⎡
−
= −
u uy
yu y
R R
R R R
⇓
condizione necessaria per l’invertibilità di R è che Ru > 0.
Questa condizione è interessante perché riguarda solo il segnale u(t).
Detta:
⎥ ⎥
⎥ ⎥
⎦
⎤
⎢ ⎢
⎢ ⎢
⎣
⎡
−
−
−
=
) 0 ( ...
...
) 1 (
...
...
...
...
) 2 (
...
...
) 1 (
) 1 (
...
) 1 ( )
0 (
) (
u u
u u
u u
u
i u
i
i i R
γ γ
γ γ
γ γ
γ
La matrice di covarianza di u(t) di ordine i.
Si definisce il segnale u(t) “persistentemente eccitante di ordine n”
se:
- Ru(1) > 0,Ru(2) > 0,...,Ru(n) > 0 - Ru(n+1),Ru(n+2),Ru(n+3),... ≥ 0
Ovvero n è l’ordine massimo di Ru(i), per cui questa matrice è invertibile.
Possiamo quindi dire che condizione necessaria per l’identificabilità di un modello ARX è che il segnale u(t), usato per produrre i dati, sia
“persistentemente eccitante” di ordine pari almeno a p+1.
Osservazione
Consideriamo )u(t ~ WN(0,λ2) e osserviamo che in questo caso Ru(i) risulta essere
) ( 2
2 2
2 2
) (
0 0 0
0
0 ...
...
...
...
0 ...
0 0
0 ...
0 0
0 ...
0 0
i i
I
R λ
λ λ
λ λ
λ =
⎥⎥
⎥⎥
⎥⎥
⎦
⎤
⎢⎢
⎢⎢
⎢⎢
⎣
⎡
=
⇒ Un WN è un segnale persistentemente eccitante di ordine ∞.
⇒ Se usiamo un WN per “eccitare” il sistema siamo certi che è un segnale sufficientemente ricco di informazione per poter identificare il sistema.
Osservazione
La condizione vista è solo necessaria: anche con u(t)~ WN la R potrebbe non essere invertibile.
Affinchè un modello sia univocamente identificabile è necessario avere
1. identificabilità “strutturale”: il modello non deve essere sovra- parametrizzato rispetto al sistema;
2. identificabilità “sperimentale”: i dati devono contenere sufficiente informazione.
Il problema di non identificabilità più critico è quello sperimentale: se non abbiamo sufficiente informazione nei dati, non possiamo fare nulla (se non ripeter l’esperimento). La non identificabilità strutturale è, invece, facilmente risolvibile riducendo l’ordine del modello.
VALUTAZIONE DELL’INCERTEZZA NEGLI ALGORITMI DI IDENTIFICAZIONE PARAMETRICA
Supponiamo che:
∆
∈
⇒
∈M(ϑ) ϑ0
S
(∆= insieme di punti di minimo della cifra di merito)
In particolare supponiamo che:
∃
⇒
=
∆ ϑ un solo punto di minimo globale ⇒ ϑ =ϑ0
Ipotizziamo di avere un numero finito N di dati e di stimare ϑˆN:
{
( )}
min
ˆ arg ϑ
ϑN = ϑ JN con = ∑
= N
N t t
J N
1
)2
, 1 (
)
(ϑ ε ϑ
Osservazione:
ϑˆN e una variabile casuale.
Inoltre, dalle precedenti ipotesi (S ∈M(ϑ) e ϑ =ϑ0), E
[ ]
ϑˆ =ϑ0.Ci poniamo il problema di calcolare questa quantità (incertezza di stima parametrica):
[ ]
ˆN E[ (
ˆN 0)(
ˆN 0)
T]
varϑ = ϑ −ϑ ϑ −ϑ
Si dimostra che:
[ ] ˆ 1
2 1var = ⋅ C
−N
N λ
ϑ
dove
[ ] ( ) var [ ( ) ˆ ( / 1 , ) ]
var
02
ϑ
λ = e t = y t − y t t − ) , ( ϑ
0ε t
⎥ ⎥
⎦
⎤
⎢ ⎢
⎣
⎡ ⎟
⎠
⎜ ⎞
⎝
⎛
∂
⎟ ∂
⎠
⎜ ⎞
⎝
⎛
∂
= ∂
=
=
t
TE t C
0 0
) , ( )
, (
ϑ ϑ ϑ
ϑ
ϑ
ϑ ε
ϑ ϑ ε
Problema: Come stimiamo/calcoliamo in pratica λ2 e C ?
(
( ) ˆ( / 1, ˆ ))
( ˆ )1 2
1
N 2
N N N
t
J t
t y t
N y ϑ ϑ
λ ≈
∑
− − ==
∑
= = = ⎥⎥⎦
⎤
⎢⎢
⎣
⎡
⎟⎟⎠
⎜⎜ ⎞
⎝
⎛
∂
⎟⎟ ∂
⎠
⎜⎜ ⎞
⎝
⎛
∂
≈ N ∂
t
T
N N
t t
C N
1 ˆ ˆ
) , ( )
, ( 1
ϑ ϑ ϑ
ϑ ϑ
ϑ ε ϑ
ϑ ε
Osservazione:
Interpretazione di C
Ricordiamo che J(ϑ) = E
[
ε(t,ϑ)2]
⇒ ⎥⎦⎤
⎢⎣⎡
∂
= ∂
∂
∂
ϑ ϑ ϑ ε
ϑ ε
ϑ ( , )
) , ( ) 2
( t
t J E
⇒ ⎥⎦⎤
⎢⎣⎡
∂ + ∂
∂
⋅∂
∂
= ∂
∂
∂
2 2
2
2 ( , )
) , ( ) 2
, ( )
, 2 (
) (
ϑ ϑ ϑ ε
ϑ ε ϑ ε ϑ
ϑ ε ϑ
ϑ t
t t E t
J T
Notiamo che se 2
2
0 ( , )
) ( ) ,
( ϑ
ϑ ϑ ε
ε ϑ
ϑ ∂
⇒ ∂
=
⇒
= t
t e
t è funzione
dell’errore di predizione e pertanto dipende da e(t −1);e(t −2);...
⇒ in tal caso il termine ⎥⎦⎤
⎢⎣⎡
∂
∂
2
2 ( , )
) , (
2 ϑ
ϑ ϑ ε
ε t t
E si annulla.
Osserviamo che:
t C E t
J T
) 2 , ( )
, 2 (
) (
0 0 0
2
2 =
⎥⎥
⎦
⎤
⎢⎢
⎣
⎡ ⎟
⎠
⎜ ⎞
⎝
⎛
∂
⎟ ∂
⎠
⎜ ⎞
⎝
⎛
∂
= ∂
∂
∂
=
=ϑ ϑ=ϑ ϑ ϑ
ϑ ϑ
ϑ ε ϑ
ϑ ε ϑ
ϑ
Osservazioni conclusive:
[ ] ˆ 1
2 1var = C
−N
N λ
ϑ
– la varianza dell’errore di stima dei parametri decresce all’aumentare di N
– la varianza dell’errore di stima dei parametri aumenta con λ2
– la varianza dell’errore di stima dei parametri diminuisce all’aumentare della derivata seconda (Hessiano) della cifra di merito all’ottimo
) (ϑ JN
ϑ
λ2
ϑˆN
) (ϑ JN
ϑ
λ2
ϑˆN
stesso N stesso λ2
derivata seconda più
piccola derivata
seconda più grande
SCELTA DELLA COMPLESSITÀ DEL MODELLO
Scelta una classe di modelli M(ϑ), troviamo ϑˆN nel seguente modo:
{
( )}
min
ˆ arg ϑ
ϑN = ϑ JN
( )
∑ − −
= =
N
N t y t y t t
J N
1
) 2
1 / ( )
1 ( ) (ϑ
• Se )M(ϑ è un ARX: esiste una forma esplicita per ϑˆN
• Se )M(ϑ è un ARMAX: va risolto iterativamente un problema di ottimizzazione .
nϑ: dimensione di ϑ
Nel caso generale ARMAX è nϑ = m +n + p +1
⇒ Problema: scelta dell’ordine nϑ del modello
Osservazione
Il problema di stima dell’ordine del modello in realtà è un problema 2- dimensionale (ARX) o 3-dimensionale (ARMAX).
Per semplicità, poniamo nϑ = m +n + p +1 e assumiamo che p
n
m ≈ ≈ , ovvero assumiamo di mantenere “bilanciato” l’ordine del modello. In tal modo ci riconduciamo a gestire un solo parametro: nϑ. Es.
ARMAX(0,0,1) →nϑ =1 ARMAX(0,1,1) →nϑ = 2 ARMAX(1,1,1) →nϑ = 3
…
ARMAX(2,2,2) →nϑ = 6
….
NB: anche ARMAX(1,1,4) ha nϑ = 6
Osservazione
In generale, saremmo tentati di dire che il modello migliore è quello per cui JN (ϑˆN ) è minimo.
Questo indicatore però non va bene; infatti:
0 ˆ )
( ϑ
N⎯
n⎯ →
ϑ →⎯
∞J
NAl limite se N = nϑ si ha che JN(ϑˆN) = 0.
Quindi questo criterio non ci suggerisce quando dobbiamo “fermarci”.
Dobbiamo, quindi, trovare dei criteri oggettivi per “fermare” nϑ (molto) prima di arrivare a N .
Vediamo 3 metodi
In tutti i metodi che vederemo supponiamo che:
• Abbiamo a disposizione N dati
• L’ordine del modello è nϑ =1,2,3,4,...
Metodo #1: ricerca della discontinuità e test di bianchezza
Procedura:
• fissiamo un valore di nϑ
• troviamo ϑˆN
• calcoliamo JN(ϑˆN;nϑ )
• facciamo un test di bianchezza a ε(t;ϑˆN) = y(t)− yˆ(t/t −1;ϑˆN)
• ripetiamo la procedura per nϑ =1,2,3,4,...
Ci aspettiamo di trovare questo:
nϑ
) ˆ ;
( ϑ n
ϑJ
N NTest bianchezza KO Test bianchezza OK Ordine del sistema
L’ordine del sistema dovrebbe quindi essere facilmente trovato in corrispondenza di una “discontinuità”.
In realtà questo metodo funziona male:
• raramente la discontinuità è netta
• test di bianchezza non dà una risposta “esatta” (individua un
“range” di valori più che un valore ottimo)
nϑ
) ˆ ;
( ϑ n
ϑJ
N NTest bianchezza KO Test bianchezza OK
?
Metodo #2: cross validazione Supponendo di avere N dati, dividiamo in due sottoinsiemi:
1 2 N2 N2 + 1 N
Chiamiamo questo blocco di 2
N dati Φ I
(dati Identificazione)
Chiamiamo questo blocco di 2
N dati
Φ V
(dati Validazione)
Procedura:
• fissiamo un valore di nϑ
• troviamo ϑˆN minimizzando JN (ϑ,ΦI )
• calcoliamo JN (ϑˆN,ΦI ) e JN (ϑˆN,ΦV )
• ripetiamo la procedura per nϑ =1,2,3,4,...
(NB: omettiamo in JN (ϑˆN ,ΦI) e JN (ϑˆN ,ΦV ) la dipendenza esplicita da n )
Ci aspettiamo questo
nϑ
Under Fitting
Over Fitting
n
ϑ ottimo) ˆ ,
( N V JN
ϑ
Φ )ˆ ,
( N I JN
ϑ
Φ• Under-fitting: non riusciamo a cogliere tutta la dinamica del modello, contenuta nei dati
• Over-fitting: identifichiamo il rumore, ovvero qualcosa di intrinsecamente predicabile ⇒ il modello perde capacità generalizzante
La cross-validazione da’ una risposta molto nitida, facile da usare, anche per modelli non lineari.
Metodo #3: formule di stima della complessità ottima
Queste funzioni sono delle alternative a JN (ϑˆN ,ΦV ): hanno un punto di minimo (che indica l’ordine ottimo)
Vantaggio: non richiedono di usare solo N/2 dati per fare la identificazione del modello.
Sono formule che utilizzano: N,nϑ,JN (ϑˆϑ;nϑ ); le interpretiamo come funzioni di nϑ
NB: questi criteri sono stati ricavati teoricamente per modelli ARX; in pratica si usano anche per modelli ARMAX
“final prediction error” (FPE)
) ˆ ;
( )
(
ϑϑ
ϑ ϑ
J ϑ n
n N
n n N
FPE ⋅
N N−
= +
essendo
ϑ ϑ
n N
n N
−
+ crescente in nϑ e JN (ϑˆN;nϑ) decrescente in nϑ,
avremo un punto di minimo
nϑ
n
ϑ ottimo) ˆ ;
(ϑ nϑ JN N
) (nϑ FPE
“Akaike information criterion” (AIC)
( ( ˆ ; ) )
ln 2
)
(
ϑ ϑJ ϑ n
ϑN n n
AIC = +
N Nessendo N nϑ
2 crescente in nϑ e JN(ϑˆN;nϑ ) decrescente in nϑ, avremo un punto di minimo
“Minimum Description Lenght” (MDL)
( ( ˆ ; ) )
ln )
ln(
)
(
ϑ ϑJ ϑ n
ϑN N n
n
MDL = ⋅ +
N Nessendo n
N) ϑ
ln( crescente in n e J (ϑˆ ;n ) decrescente in n ,
⇒ Confronto FPE e AIC
( )
⎟⎟⎠ =⎜⎜ ⎞
⎝
⎛ ⋅
−
= ln + ( ˆ )
ln JN N
n N
n
FPE N ϑ
ϑ ϑ
raccogliamo N
⎟⎟ =
⎠
⎜⎜ ⎞
⎝
⎛ ⋅
−
= + ( ˆ )
1
ln 1 N N
N n
N n
J ϑ
ϑ ϑ
spezziamo i logaritmi
( )
=⎟ +
⎠
⎜ ⎞
⎝⎛ −
⎟ −
⎠
⎜ ⎞
⎝⎛ +
= ln 1 ln 1 ln JN( ˆN) N
n N
nϑ ϑ ϑ
ricordiamo che ln(1+ )x ≈ x per x ≈ 0 quindi, se nϑ << N , si ha che ≈ 0
N nϑ
(
( ˆ ))
ln )
ln( JN N
N n N
FPE nϑ ϑ ⎟ + ϑ
⎠
⎜ ⎞
⎝⎛−
−
≈
⇓
(
J)
AICN
FPE) ≈ 2n + ln N ( ˆN ) =
ln( ϑ ϑ
Concludiamo che,
sotto l’ipotesi nϑ << N (in pratica sempre verificata),
AIC FPE ) =
ln(
Osservazione:
Ci ricordiamo che se x0 è minimo della funzione f (x), allora f '(x0) = 0.
Applichiamo il ragionamento ai nostri termini
( )
( )
'( ) 0) ( ) 1
(
ln = ⋅ =
∂
∂ f x
x x f
x f per x = x0
⇓
) (
min arg )
( min
arg FPE AIC
n
nϑ = ϑ
⇓
I due criteri sono sostanzialmente equivalenti
⇒ Confronto tra AIC e MDL
(
( ˆ ))
ln
2 JN N
N
AIC = nϑ + ϑ
⇓⇑
(
( ˆ ))
ln )
ln( JN N
N N n
MDL = ⋅ ϑ + ϑ
notiamo che la differenza tra i due consiste solo nei termini 2 e ln(N . )
⇓
Se 2ln(N) > (ovvero abbiamo più di 8 dati…), la formula MDL suggerisce di usare modelli più parsimoniosi.
FPE / AIC ↔ MDL…?
Sappiamo che se il modello è ARX, e S ∈M(ϑ) (cioè se lo stimatore appartiene alla famiglia dei modelli), allora MDL stima correttamente il valore “vero” di nϑ.
Dato che S ∈M(ϑ) non è mai rigorosamente verificata, in pratica si preferisce usare AIC (FPE); preferiamo, cioè, sovrastimare