ALGORITMI DI IDENTIFICAZIONE: ANALISI E COMPLEMENTI

(1)

ALGORITMI DI IDENTIFICAZIONE:

ANALISI E COMPLEMENTI

(2)

ANALISI ASINTOTICA DEI METODI P.E.M.

Ipotizziamo di avere N dati:

{ }

{

û û û_N^N

}

y y

y

,..., ,

2 1

Scegliamo una famiglia di modelli (ARMAX) M(ϑ) con

ϑ ∈ ℜ

ⁿ^ϑ . I metodi P.E.M. calcolano ϑ^ˆ_N minimizzando J_N(ϑ).

Æ^ϑ^ˆN = ^arg^min_ϑ

{

JN⁽^ϑ⁾

}

con ²

1

)

; 1 (

)

(ϑ ε t ϑ

J N ^N

N = ∑t

=

Problema: ϑ^ˆ_N calcolato in questo modo ci fornisce un “buon”

modello?

Prima di procedere con l’analisi, ipotizziamo che y(t),u(t),ε(t) siano processi ergodici (cioè possiamo calcolarne le proprietà probabilistiche a partire da medie nel tempo)

(3)

Consideriamo quindi J(ϑ) e prendiamo l’insieme ∆ dei suoi punti di minimo globale:

{ ^ϑ ^ϑ

^≥

^ϑ

^∀

^ϑ }

=

∆ | J( ) J( ),

Osservazioni:

- caso particolare: ∆ =ϑ (ovvero J(ϑ) ha un unico minimo globale) - dato che JN(ϑ) ⎯N⎯ →→⎯+∞ J(ϑ) ci aspettiamo che ϑ^ˆN ⎯⎯ →N→⎯+∞ ∆

Supponiamo ora che S ∈M(ϑ)

Æ allora ∃M(ϑ⁰) = S (ϑ⁰ rappresenta il vettore vero dei parametri)

Problema: ϑ⁰ appartiene all’insieme dei minimi globali della cifra di merito ∆ ?

In caso di risposta affermativa si potrà affermare che un metodo P.E.M. è in grado di trovare la parametrizzazione vera del modello.

(4)

Dimostrazione:

Consideriamo il generico modello M(ϑ) e scriviamone l’errore di predizione: )ε(t,ϑ) = y(t)− yˆ(t/t−1,ϑ

Togliamo ad entrambi i membri la quantità yˆ(t/t−1,ϑ⁰), ovvero il predittore del modello vero (M(ϑ⁰) = S)

rumore bianco e(t) che alimenta il sistema vero

) , 1 / ( ˆ ) , 1 / ( ˆ ) ( )

, 1 / ( ˆ ) ,

( ϑ ϑ⁰ ϑ ϑ⁰

ε t − y t t − = y t − y t t − − y t t −

NB: L’errore di predizione ad un passo del modello vero è e(t):

) ) ( (

) ) (

1 ) (

( ) ) (

(

: e t

z A

z t C

z u A

z t B

y

S = − + con e(t)~WN(0,λ²)

Pertanto:

) , 1 / ( ˆ ) , 1 / ( ˆ ) ( ) ,

( ϑ ϑ⁰ ϑ

ε t = e t + y t t− − y t t −

(5)

Applichiamo l’operatore ^E

[ ] ( )

² ad entrambi i membri dell’equazione:

[

^ε⁽^t^,^ϑ⁾²

]

⁼ ^E

[ (

^e⁽^t⁾⁺

(

^y^ˆ⁽^t^/^t ⁻¹^,^ϑ⁰⁾⁻ ^y^ˆ⁽^t^/^t ⁻¹^,^ϑ⁾

) )

²

]

E

[ ] [ ( ) ]

( )

[

⁽ ⁾ ^ˆ⁽ ^/ ¹^, ⁾ ^ˆ⁽ ^/ ¹^, ⁾

]

2

) , 1 / ˆ( ) , 1 / ˆ( )

( )

(

0

0 2 2

ϑ ϑ

ϑ

−

⋅ +

+

−

− +

=

t t y t

t y t e E

t t y t

t y E t

e E J

( )

[

^ˆ⁽ ^/ ¹^, ⁾ ^ˆ⁽ ^/ ¹^, ⁾

]

⁰

)

(ϑ = λ² + E y t t − ϑ⁰ − y t t − ϑ ² + J

( )

[

⁰ ²

]

2 ˆ( / 1, ) ˆ( / 1, )

)

(ϑ =λ + − ϑ − − ϑ

⇒ J E y t t y t t

ϑ

∀

≥ ,0 ; si annulla per ϑ = ϑ⁰

ϑ ϑ

λ

ϑ ≥ = ∀

⇒ J( ) ² J( ⁰),

ϑ ϑ

ϑ ) ≥ ( ), ∀

( J

⁰

J

Conclusione (fondamentale):

Se S∈ M(ϑ), un metodo P.E.M. è in grado di garantire che il modello stimato è quello vero.

(6)

Osservazione:

Abbiamo visto che:

Se S∈ M(ϑ) in corrispondenza di ϑ⁰, ε(t,ϑ⁰) = e(t) ≈WN

⇒ questa considerazione ci suggerisce un metodo per verificare a posteriori se il modello identificato è quello vero

Æ TEST DI BIANCHEZZA su ε(t,ϑˆ_N)

(7)

Osservazione:

Quando identifichiamo un modello M(ϑ) possono capitarci quattro diverse situazioni:

1] S∈ M(ϑ) e ∆ =ϑ ⇒ϑ =ϑ⁰ (caso ideale)

S = M(ϑ

⁰

)

ˆ ) (

* Μ ϑ

_N

M(ϑ)

+∞

→ N

2] S∈ M(ϑ) ma ∆ è costituito da più valori

ˆ ) (

*Μ

ϑ

_N

M(ϑ)

{

^Μ(

ϑ

)|

ϑ

^∈^∆

}

S

+∞

→ N

(8)

3] S∉Μ(ϑ) ma ∆ =ϑ (un solo punto di minimo)

ˆ ) (

* Μ ϑ

_N

∆ M(ϑ)

ϑ =

+∞

→ N

S

4] S∉Μ(ϑ) e ∆ è costituito da più punti

M(ϑ)

{ ^Μ ⁽ ^ϑ ⁾ ^| ^ϑ ^∈ ^∆ }

+∞

→ N

S

(9)

TEST DI BIANCHEZZA [test di Anderson]

Abbiamo visto che se identifico il modello vero (cioè M(ϑ⁰) = S), il corrispondente errore di predizione (ε(t,ϑ⁰) = y(t)− yˆ(t/t −1,ϑ⁰) deve essere un rumore bianco.

Dopo aver stimato un modello M(ϑˆ_N ) possiamo quindi verificare se il modello stimato è quello vero attraverso un test di bianchezza di

ˆ ) , (t ϑ_N ε .

Procedimento completo:

– scegliamo una famiglia di modelli M(ϑ)

–stimiamo ϑˆ con un metodo P.E.M. _N – calcoliamo ε(t,ϑˆ_N)

– facciamo il test di bianchezza su ε(t,ϑˆ_N)

OK

Fine

KO

(10)

Test di bianchezza di ε(t,ϑˆ_N):

Esistono tanti modi per effettuare un test di bianchezza.

Metodi intuitivi:

→ ) ˆ (

τ

γ

_N In pratica…

-π π -π π

In pratica…

→ Γˆ_N(

ω

)

(11)

Vediamo un test più raffinato, detto test di bianchezza di ANDERSON

Preso il segnale ε(t,ϑˆ_N)

se ne calcola la funzione di covarianza campionaria:

∑ + ≤ ≤ −

= − ⁻

=

τε ε τ τ

τ τ

γ ^N

N t t t N

N1 ¹ ( ) ( ) , 0 1

) ˆ (

Si calcola poi la funzione di covarianza normalizzata:

) 0 ˆ (

) ˆ ( ) ( ˆ

N N

N γ

τ τ γ

ρ = ⇒ se ε(t) fosse bianco ⇒ ¹ ^ρ^ˆ^N⁽^τ⁾

(12)

La funzione ρˆ_N (τ) è a sua volta una variabile casuale, che ha delle proprietà teoriche interessanti;

si dimostra infatti che:

1) N ⋅ρˆ_N (τ)⎯⎯ →_N_→⎯_+∞ Ν(0,1) ; ∀τ ≠ 0 2) ^Ε

[

^ρ^ˆ_N ⁽^τ₁⁾^⋅ ^ρ^ˆ_N ⁽^τ₂⁾

]

^⎯^{⎯ →}_N_→^⎯_+∞ ⁰ ^, ^∀^τ₁ ^≠^τ₂

Queste due proprietà ci consentono di stimare la gaussianità di ρˆ_N(τ) avendo a disposizione una sola realizzazione di ε(t,ϑˆ_N).

Osservazione:

TEST di bianchezza su ε TEST di gaussianità su N ⋅ρˆ_N(τ)

(13)

Algoritmo per la verifica di gaussianità di N ⋅ρˆ_N(τ):

• Calcoliamo N ⋅ρˆ_N(τ) per τ =1,2,3,...,M (in generale M << N – 1)

• Scegliamo un livello di confidenza α

• Calcoliamo – usando la distribuzione N(0,1) - il valore β tale per cui l’area delle due code di N(0,1) sia pari ad α per valori < –β e

> β.

–β β

α = 0,05 ⇒ β = 1,96 ²

2

2 ) 1

1 , 0 (

x

e

⁻

=

Ν π

• Contiamo il numero P di punti di N ⋅ρˆ_N(τ) che stanno fuori dall’intervallo [–β, β]

Concludiamo che N ⋅ρˆ_N(τ) è distribuita come N(0,1), ovvero che )

ε(t è bianco con confidenza (1 – α)%, se ≤α M

P

(14)

IENTIFICABILITÀ DEI MODELLI [ARX]

Noti

{

^y⁽¹^), ^y⁽²^),..., ^y⁽^N⁾

}

^e

{

û⁽¹^),û⁽²^),...,û⁽^N⁾

}

Consideriamo il generico modello ARX (m, p+1): )

) ( ( ) 1 1 ) (

( ) ) (

( e t

z t A

z u A

z t B

y = − + con e(t)~ WN(0,λ²)

p pz b z

b z

b b z

B( ) = ₀ + ₁ ⁻¹ + ₂ ⁻² +...+ ⁻

m mz a z

a z

A( ) =1+ ₁ ⁻¹ + ₂ ⁻² +...+ ⁻

La soluzione PEM trovata per la stima dei parametri del modello ARX:

⎟⎠

⎜ ⎞

⎝⎛ ∑

⎟⎠

⎜ ⎞

⎝⎛ ∑

= =

−

=

N t N

t

T

N t t y t t

1 1

1

) ( ) ( )

( )

ˆ ϕ( ϕ ϕ

ϑ

Problema (detto di “identificabilità”):

quando ϑ^ˆ esiste ed è unico? ⇔ Quando _∑^N ϕ(t)ϕ^T (t) è invertibile?

(15)

Definiamo:

= ∑

= N t

T t t

N S

1

) ( ) ( )

( ϕ ϕ

⇓

⎟⎠

⎜ ⎞

⎝⎛ ∑

= =

− N

t

N S N y t t

1

1 ( ) ( )

)

ˆ ( ϕ

ϑ

Definiamo:

= ∑

= =

N t

T t N t

N N S

N R

1

) ( ) 1 (

) 1 (

)

( ϕ ϕ

⇓

⎟⎠

⎜ ⎞

⎝⎛ ∑

= =

− N

N t y t t

N N R

1

1 1 ( ) ( )

)

ˆ ( ϕ

ϑ

Affinchè ϑ^ˆ_N esista e sia unica è necessario che 0

) (N >

R (e non solo R(N) ≥ 0)

Analizziamo e studiamo la struttura del valore asintotico di R(N) R

N

R( )⎯N⎯→⎯→∞

(è difficile fare una analisi teorica per N “piccolo”)

(16)

Per un generico modello ARX(m, p+1),

R è una matrice quadrata di dimensione (m+ p+1)×(m+ p +1) con questa struttura

⎥ ⎦

⎢ ⎤

⎣

⎡

−

= −

u uy

yu y

R R

R R R

Questi quattro blocchi hanno le seguenti espressioni:

(17)

⎥ ⎥

⎥

⎦

⎤

⎢ ⎢

⎢

⎣

⎡

−

=

) 0 ( ...

...

) 1 (

...

) 0 ( )

1 ( )

2 ( ...

) 3 (

...

) 1 ( )

0 ( )

1 ( )

2 (

) 2 (

...

) 2 ( )

1 ( )

0 ( )

1 (

) 1 (

...

) 2 ( )

1 ( )

0 (

y y

y

y y

y

y y

y

y y

y

m

m m m

R

γ γ

γ

γ γ

γ

γ γ

γ

γ γ

⇒ E’ una matrice di dimensione m× m

⇒ E’ la matrice covarianza (di ordine m-1) di y(t),

⇒ La struttura della matrice è di Toepliz.

(18)

⎥ ⎥

⎥

⎦

⎤

⎢ ⎢

⎢

⎣

⎡

−

=

) 0 ( ...

...

) (

...

) 0 ( )

1 ( )

2 ( ...

) 2 (

...

) 1 ( )

0 ( )

1 ( )

2 (

) 1 (

...

) 2 ( )

1 ( )

0 ( )

1 (

) ( ...

...

) 2 ( )

1 ( )

0 (

u u

u

u u

u

u u

u

u u

u

p

p p

p

R

γ γ

γ

γ γ

γ

γ γ

γ

γ γ

⇒ E’ una matrice di dimensione (p+1) × (p+1)

⇒ E’ la matrice covarianza (di ordine p) di u(t),

⇒ La struttura della matrice è di Toepliz.

(19)

⎥ ⎥

⎥

⎦

⎤

⎢ ⎢

⎢

⎣

⎡

−

=

) 0 ( ...

...

) 1 (

...

) 0 ( )

1 ( )

2 ( ...

) 2 (

...

) 1 ( )

0 ( )

1 ( )

2 (

) 1 (

...

) 2 ( )

1 ( )

0 ( )

1 (

) ( ...

...

) 2 ( )

1 ( )

0 (

yu yu

yu

yu yu

yu

yu yu

yu

yu yu

yu

m

p p

p

R

γ γ

γ

γ γ

γ

γ γ

γ

γ γ

⇒ E’ una matrice rettangolare di dimensione m × (p+1)

⇒ E’ la matrice di correlazione u(t)↔y(t)

⇒ R_uy = R_yu^T

Cerchiamo una condizione significativa di invertibilità per R ,

(20)

Lemma di Schur.

data una matrice M con questa struttura

⎥⎦

⎢ ⎤

⎣

= ⎡

H K

K

M F_T

con F e H simmetriche

condizione necessaria e sufficiente affinchè M > 0 è che - H > 0

- F −KH⁻¹K^T > 0

Ricordando che:

⎥ ⎦

⎢ ⎤

⎣

⎡

−

= −

u uy

yu y

R R

R R R

⇓

condizione necessaria per l’invertibilità di R è che R_u > 0.

Questa condizione è interessante perché riguarda solo il segnale u(t).

(21)

Detta:

⎥ ⎥

⎦

⎤

⎢ ⎢

⎣

⎡

−

=

) 0 ( ...

...

) 1 (

...

) 2 (

...

) 1 (

...

) 1 ( )

0 (

) (

u u

u

i u

i

i i R

γ γ

γ

La matrice di covarianza di u(t) di ordine i.

Si definisce il segnale u(t) “persistentemente eccitante di ordine n”

se:

- R_u⁽¹⁾ > 0,R_u⁽²⁾ > 0,...,R_u⁽ⁿ⁾ > 0 - R_u⁽ⁿ⁺¹⁾,R_u⁽ⁿ⁺²⁾,R_u⁽ⁿ⁺³⁾,... ≥ 0

Ovvero n è l’ordine massimo di R_u⁽ⁱ⁾, per cui questa matrice è invertibile.

Possiamo quindi dire che condizione necessaria per l’identificabilità di un modello ARX è che il segnale u(t), usato per produrre i dati, sia

“persistentemente eccitante” di ordine pari almeno a p+1.

(22)

Osservazione

Consideriamo )u(t ~ WN(0,λ²) e osserviamo che in questo caso R_u⁽ⁱ⁾ risulta essere

) ( 2

2 2

) (

0 0 0

0

0 ...

...

0 ...

0 0

0 ...

0 0

0 ...

0 0

i i

I

R λ

λ λ

λ =

⎥⎥

⎦

⎤

⎢⎢

⎣

⎡

=

⇒ Un WN è un segnale persistentemente eccitante di ordine ∞.

⇒ Se usiamo un WN per “eccitare” il sistema siamo certi che è un segnale sufficientemente ricco di informazione per poter identificare il sistema.

(23)

Osservazione

La condizione vista è solo necessaria: anche con u(t)~ WN la R potrebbe non essere invertibile.

Affinchè un modello sia univocamente identificabile è necessario avere

1. identificabilità “strutturale”: il modello non deve essere sovra- parametrizzato rispetto al sistema;

2. identificabilità “sperimentale”: i dati devono contenere sufficiente informazione.

Il problema di non identificabilità più critico è quello sperimentale: se non abbiamo sufficiente informazione nei dati, non possiamo fare nulla (se non ripeter l’esperimento). La non identificabilità strutturale è, invece, facilmente risolvibile riducendo l’ordine del modello.

(24)

VALUTAZIONE DELL’INCERTEZZA NEGLI ALGORITMI DI IDENTIFICAZIONE PARAMETRICA

Supponiamo che:

∆

∈

⇒

∈M(ϑ) ϑ⁰

S

(∆= insieme di punti di minimo della cifra di merito)

In particolare supponiamo che:

∃

⇒

=

∆ ϑ un solo punto di minimo globale ⇒ ϑ =ϑ⁰

Ipotizziamo di avere un numero finito N di dati e di stimare ϑ^ˆ_N:

{

⁽ ⁾

}

min

ˆ arg ϑ

ϑN = ϑ JN con = _∑

= N

N t t

J N

1

)2

, 1 (

)

(ϑ ε ϑ

Osservazione:

ϑ^ˆN e una variabile casuale.

Inoltre, dalle precedenti ipotesi (S ∈M(ϑ) e ϑ =ϑ⁰), ^E

[ ]

^ϑ^ˆ ⁼^ϑ⁰^.

(25)

Ci poniamo il problema di calcolare questa quantità (incertezza di stima parametrica):

[ ]

^ˆ^N ^E

[ (

^ˆ^N ⁰

)(

^ˆ^N ⁰

)

^T

]

varϑ = ϑ −ϑ ϑ −ϑ

Si dimostra che:

[ ] ^ˆ ¹

² ¹

var = ⋅ C

⁻

N

N λ

ϑ

dove

[ ] ⁽ ⁾ ^var [ ⁽ ⁾ ^ˆ ⁽ ^/ ¹ ^, ⁾ ]

var

⁰

2

ϑ

λ = e t = y t − y t t − ) , ( ϑ

⁰

ε t

⎥ ⎥

⎦

⎤

⎢ ⎢

⎣

⎡ ⎟

⎠

⎜ ⎞

⎝

⎛

∂

⎟ ∂

⎠

⎜ ⎞

⎝

⎛

∂

= ∂

=

t

T

E t C

0 0

) , ( )

, (

ϑ ϑ ϑ

ϑ

ϑ ε

ϑ ϑ ε

Problema: Come stimiamo/calcoliamo in pratica λ² e C ?

(

⁽ ⁾ ^ˆ⁽ ^/ ¹^, ^ˆ ⁾

)

⁽ ^ˆ ⁾

1 ²

1

N 2

N N N

t

J t

t y t

N y ϑ ϑ

λ ≈

∑

− − =

=

∑

= = = ⎥⎥

⎦

⎤

⎢⎢

⎣

⎡

⎟⎟⎠

⎜⎜ ⎞

⎝

⎛

∂

⎟⎟ ∂

⎠

⎜⎜ ⎞

⎝

⎛

∂

≈ ^N ∂

t

T

N N

t t

C N

1 ˆ ˆ

) , ( )

, ( 1

ϑ ϑ ϑ

ϑ ϑ

ϑ ε ϑ

ϑ ε

(26)

Osservazione:

Interpretazione di C

Ricordiamo che ^J⁽^ϑ⁾ ⁼ ^E

[

^ε⁽^t^,^ϑ⁾²

]

⇒ ⎥⎦⎤

⎢⎣⎡

∂

= ∂

∂

ϑ ϑ ϑ ε

ϑ ε

ϑ ( , )

) , ( ) 2

( t

t J E

⇒ ⎥⎦⎤

⎢⎣⎡

∂ + ∂

∂

⋅∂

∂

= ∂

∂

2 2

2

2 ( , )

) , ( ) 2

, ( )

, 2 (

) (

ϑ ϑ ϑ ε

ϑ ε ϑ ε ϑ

ϑ ε ϑ

ϑ t

t t E t

J ^T

Notiamo che se ₂

2

0 ( , )

) ( ) ,

( ϑ

ϑ ϑ ε

ε ϑ

ϑ ∂

⇒ ∂

=

⇒

= t

t e

t è funzione

dell’errore di predizione e pertanto dipende da e(t −1);e(t −2);...

⇒ in tal caso il termine ⎥⎦⎤

⎢⎣⎡

∂

2

2 ( , )

) , (

2 ϑ

ϑ ϑ ε

ε t ^t

E si annulla.

Osserviamo che:

t C E t

J ^T

) 2 , ( )

, 2 (

) (

0 0 0

2

2 =

⎥⎥

⎦

⎤

⎢⎢

⎣

⎡ ⎟

⎠

⎜ ⎞

⎝

⎛

∂

⎟ ∂

⎠

⎜ ⎞

⎝

⎛

∂

= ∂

∂

=

=ϑ ϑ=ϑ ϑ ϑ

ϑ ϑ

ϑ ε ϑ

ϑ

(27)

Osservazioni conclusive:

[ ] ^ˆ ¹

² ¹

var = C

⁻

N

N λ

ϑ

– la varianza dell’errore di stima dei parametri decresce all’aumentare di N

– la varianza dell’errore di stima dei parametri aumenta con λ²

– la varianza dell’errore di stima dei parametri diminuisce all’aumentare della derivata seconda (Hessiano) della cifra di merito all’ottimo

) (ϑ JN

ϑ

λ2

ϑ^ˆN

) (ϑ JN

ϑ

λ2

ϑ^ˆN

stesso N stesso λ²

derivata seconda più

piccola derivata

seconda più grande

(28)

SCELTA DELLA COMPLESSITÀ DEL MODELLO

Scelta una classe di modelli M(ϑ), troviamo ϑ^ˆ_N nel seguente modo:

{

⁽ ⁾

}

min

ˆ arg ϑ

ϑ^N = ϑ J^N

( )

∑ − −

= =

N

N t y t y t t

J N

1

) 2

1 / ( )

1 ( ) (ϑ

• Se )M(ϑ è un ARX: esiste una forma esplicita per ϑ^ˆ_N

• Se )M(ϑ è un ARMAX: va risolto iterativamente un problema di ottimizzazione .

nϑ: dimensione di ϑ

Nel caso generale ARMAX è n_ϑ = m +n + p +1

⇒ Problema: scelta dell’ordine n_ϑ del modello

(29)

Osservazione

Il problema di stima dell’ordine del modello in realtà è un problema 2- dimensionale (ARX) o 3-dimensionale (ARMAX).

Per semplicità, poniamo n_ϑ = m +n + p +1 e assumiamo che p

n

m ≈ ≈ , ovvero assumiamo di mantenere “bilanciato” l’ordine del modello. In tal modo ci riconduciamo a gestire un solo parametro: n_ϑ. Es.

ARMAX(0,0,1) →n_ϑ =1 ARMAX(0,1,1) →n_ϑ = 2 ARMAX(1,1,1) →n_ϑ = 3

…

ARMAX(2,2,2) →n_ϑ = 6

….

NB: anche ARMAX(1,1,4) ha n_ϑ = 6

(30)

Osservazione

In generale, saremmo tentati di dire che il modello migliore è quello per cui J_N (ϑˆ_N ) è minimo.

Questo indicatore però non va bene; infatti:

0 ˆ )

( ϑ

_N

⎯

ⁿ

⎯ →

^ϑ ^→

⎯

^∞

J

N

Al limite se N = n_ϑ si ha che J_N(ϑˆ_N) = 0.

Quindi questo criterio non ci suggerisce quando dobbiamo “fermarci”.

Dobbiamo, quindi, trovare dei criteri oggettivi per “fermare” n_ϑ (molto) prima di arrivare a N .

Vediamo 3 metodi

In tutti i metodi che vederemo supponiamo che:

• Abbiamo a disposizione N dati

• L’ordine del modello è n_ϑ =1,2,3,4,...

(31)

Metodo #1: ricerca della discontinuità e test di bianchezza

Procedura:

• fissiamo un valore di n_ϑ

• troviamo ϑ^ˆ_N

• calcoliamo J_N(ϑˆ_N;n_ϑ )

• facciamo un test di bianchezza a ε(t;ϑˆ_N) = y(t)− yˆ(t/t −1;ϑˆ_N)

• ripetiamo la procedura per n_ϑ =1,2,3,4,...

(32)

Ci aspettiamo di trovare questo:

nϑ

) ˆ ;

( ϑ n

_ϑ

J

_N _N

Test bianchezza KO Test bianchezza OK Ordine del sistema

L’ordine del sistema dovrebbe quindi essere facilmente trovato in corrispondenza di una “discontinuità”.

(33)

In realtà questo metodo funziona male:

• raramente la discontinuità è netta

• test di bianchezza non dà una risposta “esatta” (individua un

“range” di valori più che un valore ottimo)

nϑ

) ˆ ;

( ϑ n

_ϑ

J

_N _N

Test bianchezza KO Test bianchezza OK

?

(34)

Metodo #2: cross validazione Supponendo di avere N dati, dividiamo in due sottoinsiemi:

1 2 ^N₂ ^N₂ + 1 N

Chiamiamo questo blocco di 2

N dati Φ I

(dati Identificazione)

Chiamiamo questo blocco di 2

N dati

Φ V

(dati Validazione)

Procedura:

• fissiamo un valore di n_ϑ

• troviamo ϑ^ˆ_N minimizzando J_N (ϑ,Φ_I )

• calcoliamo J_N (ϑˆ_N,Φ_I ) e J_N (ϑˆ_N,Φ_V )

• ripetiamo la procedura per n_ϑ =1,2,3,4,...

(NB: omettiamo in J_N (ϑˆ_N ,Φ_I) e J_N (ϑˆ_N ,Φ_V ) la dipendenza esplicita da n )

(35)

Ci aspettiamo questo

nϑ

Under Fitting

Over Fitting

n

ϑ ^ottimo

) ˆ ,

( _N _V JN

ϑ

Φ )

ˆ ,

( _N _I JN

ϑ

Φ

• Under-fitting: non riusciamo a cogliere tutta la dinamica del modello, contenuta nei dati

• Over-fitting: identifichiamo il rumore, ovvero qualcosa di intrinsecamente predicabile ⇒ il modello perde capacità generalizzante

La cross-validazione da’ una risposta molto nitida, facile da usare, anche per modelli non lineari.

(36)

Metodo #3: formule di stima della complessità ottima

Queste funzioni sono delle alternative a J_N (ϑˆ_N ,Φ_V ): hanno un punto di minimo (che indica l’ordine ottimo)

Vantaggio: non richiedono di usare solo N/2 dati per fare la identificazione del modello.

Sono formule che utilizzano: N,n_ϑ,J_N (ϑˆ_ϑ;n_ϑ ); le interpretiamo come funzioni di n_ϑ

NB: questi criteri sono stati ricavati teoricamente per modelli ARX; in pratica si usano anche per modelli ARMAX

(37)

“final prediction error” (FPE)

) ˆ ;

( )

(

_ϑ

ϑ

ϑ ϑ

^J ϑ ⁿ

n N

n n N

FPE ⋅

_N _N

−

= +

essendo

ϑ ϑ

n N

−

+ crescente in n_ϑ e J_N (ϑˆ_N;n_ϑ) decrescente in n_ϑ,

avremo un punto di minimo

nϑ

n

ϑ ^ottimo

) ˆ ;

(ϑ n_ϑ J_N _N

) (n_ϑ FPE

(38)

“Akaike information criterion” (AIC)

( ⁽ ^ˆ ^; ⁾ )

ln 2

)

(

_ϑ ^ϑ

J ϑ n

_ϑ

N n n

AIC = +

_N _N

essendo N n_ϑ

2 crescente in n_ϑ e J_N(ϑˆ_N;n_ϑ ) decrescente in n_ϑ, avremo un punto di minimo

“Minimum Description Lenght” (MDL)

( ⁽ ^ˆ ^; ⁾ )

ln )

ln(

)

(

_ϑ ^ϑ

J ϑ n

_ϑ

N N n

n

MDL = ⋅ +

_N _N

essendo n

N) ^ϑ

ln( crescente in n e J (ϑˆ ;n ) decrescente in n ,

(39)

⇒ Confronto FPE e AIC

( )

⎟⎟⎠ =

⎜⎜ ⎞

⎝

⎛ ⋅

−

= ln + ( ˆ )

ln J_N _N

n N

n

FPE N ϑ

ϑ ϑ

raccogliamo N

⎟⎟ =

⎠

⎜⎜ ⎞

⎝

⎛ ⋅

−

= + ( ˆ )

1

ln 1 _N _N

N n

J ϑ

ϑ ϑ

spezziamo i logaritmi

( )

⁼

⎟ +

⎠

⎜ ⎞

⎝⎛ −

⎟ −

⎠

⎜ ⎞

⎝⎛ +

= ln 1 ln 1 ln J_N( ˆ_N) N

n N

n^ϑ ^ϑ ϑ

ricordiamo che ln(1+ )x ≈ x per x ≈ 0 quindi, se n_ϑ << N , si ha che ≈ 0

N n_ϑ

(

⁽ ^ˆ ⁾

)

ln )

ln( J_N _N

N n N

FPE n^ϑ ^ϑ ⎟ + ϑ

⎠

⎜ ⎞

⎝⎛−

−

≈

⇓

(

^J

)

^AIC

N

FPE) ≈ 2n + ln _N ( ˆ_N ) =

ln( ^ϑ ϑ

(40)

Concludiamo che,

sotto l’ipotesi n_ϑ << N (in pratica sempre verificata),

AIC FPE ) =

ln(

Osservazione:

Ci ricordiamo che se x₀ è minimo della funzione f (x), allora f '(x₀) = 0.

Applichiamo il ragionamento ai nostri termini

( )

^'⁽ ⁾ ⁰

) ( ) 1

(

ln = ⋅ =

∂

∂ f x

x x f

x f per x = x₀

⇓

) (

min arg )

( min

arg FPE AIC

n

n_ϑ = _ϑ

⇓

I due criteri sono sostanzialmente equivalenti

(41)

⇒ Confronto tra AIC e MDL

(

⁽ ^ˆ ⁾

)

ln

2 J_N _N

N

AIC = n^ϑ + ϑ

⇓⇑

(

⁽ ^ˆ ⁾

)

ln )

ln( J_N _N

N N n

MDL = ⋅ ^ϑ + ϑ

notiamo che la differenza tra i due consiste solo nei termini 2 e ln(N . )

⇓

Se 2ln(N) > (ovvero abbiamo più di 8 dati…), la formula MDL suggerisce di usare modelli più parsimoniosi.

FPE / AIC ↔ MDL…?

Sappiamo che se il modello è ARX, e S ∈M(ϑ) (cioè se lo stimatore appartiene alla famiglia dei modelli), allora MDL stima correttamente il valore “vero” di n_ϑ.

Dato che S ∈M(ϑ) non è mai rigorosamente verificata, in pratica si preferisce usare AIC (FPE); preferiamo, cioè, sovrastimare

ALGORITMI DI IDENTIFICAZIONE: ANALISI E COMPLEMENTI