• Non ci sono risultati.

ALGORITMI DI IDENTIFICAZIONE: ANALISI E COMPLEMENTI

N/A
N/A
Protected

Academic year: 2022

Condividi "ALGORITMI DI IDENTIFICAZIONE: ANALISI E COMPLEMENTI"

Copied!
41
0
0

Testo completo

(1)

ALGORITMI DI IDENTIFICAZIONE:

ANALISI E COMPLEMENTI

(2)

ANALISI ASINTOTICA DEI METODI P.E.M.

Ipotizziamo di avere N dati:

{ }

{

u u uNN

}

y y

y

,..., ,

,..., ,

2 1

2 1

Scegliamo una famiglia di modelli (ARMAX) M(ϑ) con

ϑ ∈ ℜ

nϑ . I metodi P.E.M. calcolano ϑˆN minimizzando JN(ϑ).

ÆϑˆN = argminϑ

{

JN(ϑ)

}

con 2

1

)

; 1 (

)

(ϑ ε t ϑ

J N N

N = ∑t

=

Problema: ϑˆN calcolato in questo modo ci fornisce un “buon”

modello?

Prima di procedere con l’analisi, ipotizziamo che y(t),u(t),ε(t) siano processi ergodici (cioè possiamo calcolarne le proprietà probabilistiche a partire da medie nel tempo)

(3)

Consideriamo quindi J(ϑ) e prendiamo l’insieme ∆ dei suoi punti di minimo globale:

{ ϑ ϑ

ϑ

ϑ }

=

∆ | J( ) J( ),

Osservazioni:

- caso particolare: ∆ =ϑ (ovvero J(ϑ) ha un unico minimo globale) - dato che JN(ϑ) ⎯N⎯ →+∞ J(ϑ) ci aspettiamo che ϑˆN ⎯⎯ →N+∞

Supponiamo ora che SM(ϑ)

Æ allora ∃M0) = S0 rappresenta il vettore vero dei parametri)

Problema: ϑ0 appartiene all’insieme dei minimi globali della cifra di merito ∆ ?

In caso di risposta affermativa si potrà affermare che un metodo P.E.M. è in grado di trovare la parametrizzazione vera del modello.

(4)

Dimostrazione:

Consideriamo il generico modello M(ϑ) e scriviamone l’errore di predizione: )ε(t,ϑ) = y(t)− yˆ(t/t−1,ϑ

Togliamo ad entrambi i membri la quantità yˆ(t/t−1,ϑ0), ovvero il predittore del modello vero (M(ϑ0) = S)

rumore bianco e(t) che alimenta il sistema vero

) , 1 / ( ˆ ) , 1 / ( ˆ ) ( )

, 1 / ( ˆ ) ,

( ϑ ϑ0 ϑ ϑ0

ε ty t t − = y ty t t − − y t t

NB: L’errore di predizione ad un passo del modello vero è e(t):

) ) ( (

) ) (

1 ) (

( ) ) (

(

: e t

z A

z t C

z u A

z t B

y

S = − + con e(t)~WN(0,λ2)

Pertanto:

) , 1 / ( ˆ ) , 1 / ( ˆ ) ( ) ,

( ϑ ϑ0 ϑ

ε t = e t + y t t− − y t t

(5)

Applichiamo l’operatore E

[ ] ( )

2 ad entrambi i membri dell’equazione:

[

ε(t,ϑ)2

]

= E

[ (

e(t)+

(

yˆ(t/t 1,ϑ0) yˆ(t/t 1,ϑ)

) )

2

]

E

[ ] [ ( ) ]

( )

[

( ) ˆ( / 1, ) ˆ( / 1, )

]

2

) , 1 / ˆ( ) , 1 / ˆ( )

( )

(

0

0 2 2

ϑ ϑ

ϑ ϑ

ϑ

⋅ +

+

− +

=

t t y t

t y t e E

t t y t

t y E t

e E J

( )

[

ˆ( / 1, ) ˆ( / 1, )

]

0

)

(ϑ = λ2 + E y t t − ϑ0y t t − ϑ 2 + J

( )

[

0 2

]

2 ˆ( / 1, ) ˆ( / 1, )

)

(ϑ =λ + − ϑ − − ϑ

J E y t t y t t

ϑ

≥ ,0 ; si annulla per ϑ = ϑ0

ϑ ϑ

λ

ϑ ≥ = ∀

J( ) 2 J( 0),

ϑ ϑ

ϑ ) ≥ ( ), ∀

( J

0

J

Conclusione (fondamentale):

Se S M(ϑ), un metodo P.E.M. è in grado di garantire che il modello stimato è quello vero.

(6)

Osservazione:

Abbiamo visto che:

Se S M(ϑ) in corrispondenza di ϑ0, ε(t0) = e(t) ≈WN

⇒ questa considerazione ci suggerisce un metodo per verificare a posteriori se il modello identificato è quello vero

Æ TEST DI BIANCHEZZA su ε(t,ϑˆN)

(7)

Osservazione:

Quando identifichiamo un modello M(ϑ) possono capitarci quattro diverse situazioni:

1] S M(ϑ) e ∆ =ϑ ⇒ϑ =ϑ0 (caso ideale)

S = M(ϑ

0

)

ˆ ) (

* Μ ϑ

N

M(ϑ)

+∞

N

2] S M(ϑ) ma ∆ è costituito da più valori

ˆ ) (

ϑ

N

M(ϑ)

{

Μ(

ϑ

)|

ϑ

}

S

+∞

N

(8)

3] S∉Μ(ϑ) ma ∆ =ϑ (un solo punto di minimo)

ˆ ) (

* Μ ϑ

N

∆ M(ϑ)

ϑ =

+∞

N

S

4] S∉Μ(ϑ) e ∆ è costituito da più punti

M(ϑ)

{ Μ ( ϑ ) | ϑ }

+∞

N

S

(9)

TEST DI BIANCHEZZA [test di Anderson]

Abbiamo visto che se identifico il modello vero (cioè M0) = S), il corrispondente errore di predizione (ε(t0) = y(t)− yˆ(t/t −1,ϑ0) deve essere un rumore bianco.

Dopo aver stimato un modello M(ϑˆN ) possiamo quindi verificare se il modello stimato è quello vero attraverso un test di bianchezza di

ˆ ) , (t ϑN ε .

Procedimento completo:

– scegliamo una famiglia di modelli M(ϑ)

–stimiamo ϑˆ con un metodo P.E.M. N – calcoliamo ε(t,ϑˆN)

– facciamo il test di bianchezza su ε(t,ϑˆN)

OK

Fine

KO

(10)

Test di bianchezza di ε(t,ϑˆN):

Esistono tanti modi per effettuare un test di bianchezza.

Metodi intuitivi:

→ ) ˆ (

τ

γ

N In pratica…

π π

In pratica…

→ ΓˆN(

ω

)

(11)

Vediamo un test più raffinato, detto test di bianchezza di ANDERSON

Preso il segnale ε(t,ϑˆN)

se ne calcola la funzione di covarianza campionaria:

∑ + ≤ ≤ −

= −

=

τε ε τ τ

τ τ

γ N

N t t t N

N1 1 ( ) ( ) , 0 1

) ˆ (

Si calcola poi la funzione di covarianza normalizzata:

) 0 ˆ (

) ˆ ( ) ( ˆ

N N

N γ

τ τ γ

ρ = ⇒ se ε(t) fosse bianco ⇒ 1 ρˆN(τ)

(12)

La funzione ρˆN (τ) è a sua volta una variabile casuale, che ha delle proprietà teoriche interessanti;

si dimostra infatti che:

1) N ⋅ρˆN (τ)⎯⎯ →N+∞ Ν(0,1) ; ∀τ ≠ 0 2) Ε

[

ρˆN (τ1) ρˆN (τ2)

]

⎯ →N+∞ 0 , τ1 τ2

Queste due proprietà ci consentono di stimare la gaussianità di ρˆN(τ) avendo a disposizione una sola realizzazione di ε(t,ϑˆN).

Osservazione:

TEST di bianchezza su ε TEST di gaussianità su N ρˆN(τ)

(13)

Algoritmo per la verifica di gaussianità di N ⋅ρˆN(τ):

• Calcoliamo N ⋅ρˆN(τ) per τ =1,2,3,...,M (in generale M << N – 1)

• Scegliamo un livello di confidenza α

• Calcoliamo – usando la distribuzione N(0,1) - il valore β tale per cui l’area delle due code di N(0,1) sia pari ad α per valori < –β e

> β.

–β β

α = 0,05 ⇒ β = 1,96 2

2

2 ) 1

1 , 0 (

x

e

=

Ν π

• Contiamo il numero P di punti di N ⋅ρˆN(τ) che stanno fuori dall’intervallo [–β, β]

Concludiamo che N ⋅ρˆN(τ) è distribuita come N(0,1), ovvero che )

ε(t è bianco con confidenza (1 – α)%, se ≤α M

P

(14)

IENTIFICABILITÀ DEI MODELLI [ARX]

Noti

{

y(1), y(2),..., y(N)

}

e

{

u(1),u(2),...,u(N)

}

Consideriamo il generico modello ARX (m, p+1): )

) ( ( ) 1 1 ) (

( ) ) (

( e t

z t A

z u A

z t B

y = − + con e(t)~ WN(0,λ2)

p pz b z

b z

b b z

B( ) = 0 + 1 1 + 2 2 +...+

m mz a z

a z

a z

A( ) =1+ 1 1 + 2 2 +...+

La soluzione PEM trovata per la stima dei parametri del modello ARX:

⎟⎠

⎜ ⎞

⎝⎛ ∑

⎟⎠

⎜ ⎞

⎝⎛ ∑

= =

=

N t N

t

T

N t t y t t

1 1

1

) ( ) ( )

( )

ˆ ϕ( ϕ ϕ

ϑ

Problema (detto di “identificabilità”):

quando ϑˆ esiste ed è unico? ⇔ Quando N ϕ(tT (t) è invertibile?

(15)

Definiamo:

= ∑

= N t

T t t

N S

1

) ( ) ( )

( ϕ ϕ

⎟⎠

⎜ ⎞

⎝⎛ ∑

= =

N

t

N S N y t t

1

1 ( ) ( )

)

ˆ ( ϕ

ϑ

Definiamo:

= ∑

= =

N t

T t N t

N N S

N R

1

) ( ) 1 (

) 1 (

)

( ϕ ϕ

⎟⎠

⎜ ⎞

⎝⎛ ∑

= =

N

N t y t t

N N R

1

1 1 ( ) ( )

)

ˆ ( ϕ

ϑ

Affinchè ϑˆN esista e sia unica è necessario che 0

) (N >

R (e non solo R(N) ≥ 0)

Analizziamo e studiamo la struttura del valore asintotico di R(N) R

N

R( )⎯N⎯→⎯

(è difficile fare una analisi teorica per N “piccolo”)

(16)

Per un generico modello ARX(m, p+1),

R è una matrice quadrata di dimensione (m+ p+1)×(m+ p +1) con questa struttura

⎥ ⎦

⎢ ⎤

= −

u uy

yu y

R R

R R R

Questi quattro blocchi hanno le seguenti espressioni:

(17)

⎥ ⎥

⎥ ⎥

⎥ ⎥

⎢ ⎢

⎢ ⎢

⎢ ⎢

=

) 0 ( ...

...

...

...

) 1 (

...

...

...

...

...

...

...

...

) 0 ( )

1 ( )

2 ( ...

) 3 (

...

) 1 ( )

0 ( )

1 ( )

2 (

) 2 (

...

) 2 ( )

1 ( )

0 ( )

1 (

) 1 (

...

...

) 2 ( )

1 ( )

0 (

y y

y y

y

y y

y y

y

y y

y y

y

y y

y y

y

m

m m m

R

γ γ

γ γ

γ

γ γ

γ γ

γ

γ γ

γ γ

γ

γ γ

γ γ

⇒ E’ una matrice di dimensione m× m

⇒ E’ la matrice covarianza (di ordine m-1) di y(t),

⇒ La struttura della matrice è di Toepliz.

(18)

⎥ ⎥

⎥ ⎥

⎥ ⎥

⎢ ⎢

⎢ ⎢

⎢ ⎢

=

) 0 ( ...

...

...

...

) (

...

...

...

...

...

...

...

...

) 0 ( )

1 ( )

2 ( ...

) 2 (

...

) 1 ( )

0 ( )

1 ( )

2 (

) 1 (

...

) 2 ( )

1 ( )

0 ( )

1 (

) ( ...

...

) 2 ( )

1 ( )

0 (

u u

u u

u

u u

u u

u

u u

u u

u

u u

u u

u

p

p p

p

R

γ γ

γ γ

γ

γ γ

γ γ

γ

γ γ

γ γ

γ

γ γ

γ γ

⇒ E’ una matrice di dimensione (p+1) × (p+1)

⇒ E’ la matrice covarianza (di ordine p) di u(t),

⇒ La struttura della matrice è di Toepliz.

(19)

⎥ ⎥

⎥ ⎥

⎥ ⎥

⎢ ⎢

⎢ ⎢

⎢ ⎢

=

) 0 ( ...

...

...

...

) 1 (

...

...

...

...

...

...

...

...

) 0 ( )

1 ( )

2 ( ...

) 2 (

...

) 1 ( )

0 ( )

1 ( )

2 (

) 1 (

...

) 2 ( )

1 ( )

0 ( )

1 (

) ( ...

...

) 2 ( )

1 ( )

0 (

yu yu

yu yu

yu

yu yu

yu yu

yu

yu yu

yu yu

yu

yu yu

yu yu

yu

m

p p

p

R

γ γ

γ γ

γ

γ γ

γ γ

γ

γ γ

γ γ

γ

γ γ

γ γ

⇒ E’ una matrice rettangolare di dimensione m × (p+1)

⇒ E’ la matrice di correlazione u(t)↔y(t)

Ruy = RyuT

Cerchiamo una condizione significativa di invertibilità per R ,

(20)

Lemma di Schur.

data una matrice M con questa struttura

⎥⎦

⎢ ⎤

= ⎡

H K

K

M FT

con F e H simmetriche

condizione necessaria e sufficiente affinchè M > 0 è che - H > 0

- FKH1KT > 0

Ricordando che:

⎥ ⎦

⎢ ⎤

= −

u uy

yu y

R R

R R R

condizione necessaria per l’invertibilità di R è che Ru > 0.

Questa condizione è interessante perché riguarda solo il segnale u(t).

(21)

Detta:

⎥ ⎥

⎥ ⎥

⎢ ⎢

⎢ ⎢

=

) 0 ( ...

...

) 1 (

...

...

...

...

) 2 (

...

...

) 1 (

) 1 (

...

) 1 ( )

0 (

) (

u u

u u

u u

u

i u

i

i i R

γ γ

γ γ

γ γ

γ

La matrice di covarianza di u(t) di ordine i.

Si definisce il segnale u(t) “persistentemente eccitante di ordine n”

se:

- Ru(1) > 0,Ru(2) > 0,...,Ru(n) > 0 - Ru(n+1),Ru(n+2),Ru(n+3),... ≥ 0

Ovvero n è l’ordine massimo di Ru(i), per cui questa matrice è invertibile.

Possiamo quindi dire che condizione necessaria per l’identificabilità di un modello ARX è che il segnale u(t), usato per produrre i dati, sia

“persistentemente eccitante” di ordine pari almeno a p+1.

(22)

Osservazione

Consideriamo )u(t ~ WN(0,λ2) e osserviamo che in questo caso Ru(i) risulta essere

) ( 2

2 2

2 2

) (

0 0 0

0

0 ...

...

...

...

0 ...

0 0

0 ...

0 0

0 ...

0 0

i i

I

R λ

λ λ

λ λ

λ =

⎥⎥

⎥⎥

⎥⎥

⎢⎢

⎢⎢

⎢⎢

=

⇒ Un WN è un segnale persistentemente eccitante di ordine ∞.

⇒ Se usiamo un WN per “eccitare” il sistema siamo certi che è un segnale sufficientemente ricco di informazione per poter identificare il sistema.

(23)

Osservazione

La condizione vista è solo necessaria: anche con u(t)~ WN la R potrebbe non essere invertibile.

Affinchè un modello sia univocamente identificabile è necessario avere

1. identificabilità “strutturale”: il modello non deve essere sovra- parametrizzato rispetto al sistema;

2. identificabilità “sperimentale”: i dati devono contenere sufficiente informazione.

Il problema di non identificabilità più critico è quello sperimentale: se non abbiamo sufficiente informazione nei dati, non possiamo fare nulla (se non ripeter l’esperimento). La non identificabilità strutturale è, invece, facilmente risolvibile riducendo l’ordine del modello.

(24)

VALUTAZIONE DELL’INCERTEZZA NEGLI ALGORITMI DI IDENTIFICAZIONE PARAMETRICA

Supponiamo che:

M(ϑ) ϑ0

S

(∆= insieme di punti di minimo della cifra di merito)

In particolare supponiamo che:

=

∆ ϑ un solo punto di minimo globale ⇒ ϑ =ϑ0

Ipotizziamo di avere un numero finito N di dati e di stimare ϑˆN:

{

( )

}

min

ˆ arg ϑ

ϑN = ϑ JN con =

= N

N t t

J N

1

)2

, 1 (

)

(ϑ ε ϑ

Osservazione:

ϑˆN e una variabile casuale.

Inoltre, dalle precedenti ipotesi (SM(ϑ) e ϑ =ϑ0), E

[ ]

ϑˆ =ϑ0.

(25)

Ci poniamo il problema di calcolare questa quantità (incertezza di stima parametrica):

[ ]

ˆN E

[ (

ˆN 0

)(

ˆN 0

)

T

]

varϑ = ϑ −ϑ ϑ −ϑ

Si dimostra che:

[ ] ˆ 1

2 1

var = ⋅ C

N

N λ

ϑ

dove

[ ] ( ) var [ ( ) ˆ ( / 1 , ) ]

var

0

2

ϑ

λ = e t = y ty t t − ) , ( ϑ

0

ε t

⎥ ⎥

⎢ ⎢

⎡ ⎟

⎜ ⎞

⎟ ∂

⎜ ⎞

= ∂

=

=

t

T

E t C

0 0

) , ( )

, (

ϑ ϑ ϑ

ϑ

ϑ

ϑ ε

ϑ ϑ ε

Problema: Come stimiamo/calcoliamo in pratica λ2 e C ?

(

( ) ˆ( / 1, ˆ )

)

( ˆ )

1 2

1

N 2

N N N

t

J t

t y t

N y ϑ ϑ

λ ≈

− − =

=

= = = ⎥⎥

⎢⎢

⎟⎟⎠

⎜⎜ ⎞

⎟⎟ ∂

⎜⎜ ⎞

N

t

T

N N

t t

C N

1 ˆ ˆ

) , ( )

, ( 1

ϑ ϑ ϑ

ϑ ϑ

ϑ ε ϑ

ϑ ε

(26)

Osservazione:

Interpretazione di C

Ricordiamo che J(ϑ) = E

[

ε(t,ϑ)2

]

⇒ ⎥⎦⎤

⎢⎣⎡

= ∂

ϑ ϑ ϑ ε

ϑ ε

ϑ ( , )

) , ( ) 2

( t

t J E

⇒ ⎥⎦⎤

⎢⎣⎡

∂ + ∂

⋅∂

= ∂

2 2

2

2 ( , )

) , ( ) 2

, ( )

, 2 (

) (

ϑ ϑ ϑ ε

ϑ ε ϑ ε ϑ

ϑ ε ϑ

ϑ t

t t E t

J T

Notiamo che se 2

2

0 ( , )

) ( ) ,

( ϑ

ϑ ϑ ε

ε ϑ

ϑ ∂

⇒ ∂

=

= t

t e

t è funzione

dell’errore di predizione e pertanto dipende da e(t −1);e(t −2);...

⇒ in tal caso il termine ⎥⎦⎤

⎢⎣⎡

2

2 ( , )

) , (

2 ϑ

ϑ ϑ ε

ε t t

E si annulla.

Osserviamo che:

t C E t

J T

) 2 , ( )

, 2 (

) (

0 0 0

2

2 =

⎥⎥

⎢⎢

⎡ ⎟

⎜ ⎞

⎟ ∂

⎜ ⎞

= ∂

=

=ϑ ϑ=ϑ ϑ ϑ

ϑ ϑ

ϑ ε ϑ

ϑ ε ϑ

ϑ

(27)

Osservazioni conclusive:

[ ] ˆ 1

2 1

var = C

N

N λ

ϑ

– la varianza dell’errore di stima dei parametri decresce all’aumentare di N

– la varianza dell’errore di stima dei parametri aumenta con λ2

– la varianza dell’errore di stima dei parametri diminuisce all’aumentare della derivata seconda (Hessiano) della cifra di merito all’ottimo

) (ϑ JN

ϑ

λ2

ϑˆN

) (ϑ JN

ϑ

λ2

ϑˆN

stesso N stesso λ2

derivata seconda più

piccola derivata

seconda più grande

(28)

SCELTA DELLA COMPLESSITÀ DEL MODELLO

Scelta una classe di modelli M(ϑ), troviamo ϑˆN nel seguente modo:

{

( )

}

min

ˆ arg ϑ

ϑN = ϑ JN

( )

∑ − −

= =

N

N t y t y t t

J N

1

) 2

1 / ( )

1 ( ) (ϑ

• Se )M(ϑ è un ARX: esiste una forma esplicita per ϑˆN

• Se )M(ϑ è un ARMAX: va risolto iterativamente un problema di ottimizzazione .

nϑ: dimensione di ϑ

Nel caso generale ARMAX è nϑ = m +n + p +1

⇒ Problema: scelta dell’ordine nϑ del modello

(29)

Osservazione

Il problema di stima dell’ordine del modello in realtà è un problema 2- dimensionale (ARX) o 3-dimensionale (ARMAX).

Per semplicità, poniamo nϑ = m +n + p +1 e assumiamo che p

n

m ≈ ≈ , ovvero assumiamo di mantenere “bilanciato” l’ordine del modello. In tal modo ci riconduciamo a gestire un solo parametro: nϑ. Es.

ARMAX(0,0,1) →nϑ =1 ARMAX(0,1,1) →nϑ = 2 ARMAX(1,1,1) →nϑ = 3

ARMAX(2,2,2) →nϑ = 6

….

NB: anche ARMAX(1,1,4) ha nϑ = 6

(30)

Osservazione

In generale, saremmo tentati di dire che il modello migliore è quello per cui JN (ϑˆN ) è minimo.

Questo indicatore però non va bene; infatti:

0 ˆ )

( ϑ

N

n

⎯ →

ϑ

J

N

Al limite se N = nϑ si ha che JN(ϑˆN) = 0.

Quindi questo criterio non ci suggerisce quando dobbiamo “fermarci”.

Dobbiamo, quindi, trovare dei criteri oggettivi per “fermare” nϑ (molto) prima di arrivare a N .

Vediamo 3 metodi

In tutti i metodi che vederemo supponiamo che:

• Abbiamo a disposizione N dati

• L’ordine del modello è nϑ =1,2,3,4,...

(31)

Metodo #1: ricerca della discontinuità e test di bianchezza

Procedura:

• fissiamo un valore di nϑ

• troviamo ϑˆN

• calcoliamo JN(ϑˆN;nϑ )

• facciamo un test di bianchezza a ε(t;ϑˆN) = y(t)− yˆ(t/t −1;ϑˆN)

• ripetiamo la procedura per nϑ =1,2,3,4,...

(32)

Ci aspettiamo di trovare questo:

nϑ

) ˆ ;

( ϑ n

ϑ

J

N N

Test bianchezza KO Test bianchezza OK Ordine del sistema

L’ordine del sistema dovrebbe quindi essere facilmente trovato in corrispondenza di una “discontinuità”.

(33)

In realtà questo metodo funziona male:

raramente la discontinuità è netta

test di bianchezza non dà una risposta “esatta” (individua un

“range” di valori più che un valore ottimo)

nϑ

) ˆ ;

( ϑ n

ϑ

J

N N

Test bianchezza KO Test bianchezza OK

?

(34)

Metodo #2: cross validazione Supponendo di avere N dati, dividiamo in due sottoinsiemi:

1 2 N2 N2 + 1 N

Chiamiamo questo blocco di 2

N dati Φ I

(dati Identificazione)

Chiamiamo questo blocco di 2

N dati

Φ V

(dati Validazione)

Procedura:

• fissiamo un valore di nϑ

• troviamo ϑˆN minimizzando JN (ϑ,ΦI )

• calcoliamo JN (ϑˆNI ) e JN (ϑˆNV )

• ripetiamo la procedura per nϑ =1,2,3,4,...

(NB: omettiamo in JN (ϑˆNI) e JN (ϑˆNV ) la dipendenza esplicita da n )

(35)

Ci aspettiamo questo

nϑ

Under Fitting

Over Fitting

n

ϑ ottimo

) ˆ ,

( N V JN

ϑ

Φ )

ˆ ,

( N I JN

ϑ

Φ

• Under-fitting: non riusciamo a cogliere tutta la dinamica del modello, contenuta nei dati

• Over-fitting: identifichiamo il rumore, ovvero qualcosa di intrinsecamente predicabile ⇒ il modello perde capacità generalizzante

La cross-validazione da’ una risposta molto nitida, facile da usare, anche per modelli non lineari.

(36)

Metodo #3: formule di stima della complessità ottima

Queste funzioni sono delle alternative a JN (ϑˆNV ): hanno un punto di minimo (che indica l’ordine ottimo)

Vantaggio: non richiedono di usare solo N/2 dati per fare la identificazione del modello.

Sono formule che utilizzano: N,nϑ,JN (ϑˆϑ;nϑ ); le interpretiamo come funzioni di nϑ

NB: questi criteri sono stati ricavati teoricamente per modelli ARX; in pratica si usano anche per modelli ARMAX

(37)

“final prediction error” (FPE)

) ˆ ;

( )

(

ϑ

ϑ

ϑ ϑ

J ϑ n

n N

n n N

FPE

N N

= +

essendo

ϑ ϑ

n N

n N

+ crescente in nϑ e JN (ϑˆN;nϑ) decrescente in nϑ,

avremo un punto di minimo

nϑ

n

ϑ ottimo

) ˆ ;

nϑ JN N

) (nϑ FPE

(38)

“Akaike information criterion” (AIC)

( ( ˆ ; ) )

ln 2

)

(

ϑ ϑ

J ϑ n

ϑ

N n n

AIC = +

N N

essendo N nϑ

2 crescente in nϑ e JN(ϑˆN;nϑ ) decrescente in nϑ, avremo un punto di minimo

“Minimum Description Lenght” (MDL)

( ( ˆ ; ) )

ln )

ln(

)

(

ϑ ϑ

J ϑ n

ϑ

N N n

n

MDL = ⋅ +

N N

essendo n

N) ϑ

ln( crescente in n e J (ϑˆ ;n ) decrescente in n ,

(39)

⇒ Confronto FPE e AIC

( )

⎟⎟⎠ =

⎜⎜ ⎞

⎛ ⋅

= ln + ( ˆ )

ln JN N

n N

n

FPE N ϑ

ϑ ϑ

raccogliamo N

⎟⎟ =

⎜⎜ ⎞

⎛ ⋅

= + ( ˆ )

1

ln 1 N N

N n

N n

J ϑ

ϑ ϑ

spezziamo i logaritmi

( )

=

⎟ +

⎜ ⎞

⎝⎛ −

⎟ −

⎜ ⎞

⎝⎛ +

= ln 1 ln 1 ln JN( ˆN) N

n N

nϑ ϑ ϑ

ricordiamo che ln(1+ )xx per x ≈ 0 quindi, se nϑ << N , si ha che ≈ 0

N nϑ

(

( ˆ )

)

ln )

ln( JN N

N n N

FPE nϑ ϑ ⎟ + ϑ

⎜ ⎞

⎝⎛−

(

J

)

AIC

N

FPE) ≈ 2n + ln N ( ˆN ) =

ln( ϑ ϑ

(40)

Concludiamo che,

sotto l’ipotesi nϑ << N (in pratica sempre verificata),

AIC FPE ) =

ln(

Osservazione:

Ci ricordiamo che se x0 è minimo della funzione f (x), allora f '(x0) = 0.

Applichiamo il ragionamento ai nostri termini

( )

( )

'( ) 0

) ( ) 1

(

ln = ⋅ =

f x

x x f

x f per x = x0

) (

min arg )

( min

arg FPE AIC

n

nϑ = ϑ

I due criteri sono sostanzialmente equivalenti

(41)

⇒ Confronto tra AIC e MDL

(

( ˆ )

)

ln

2 JN N

N

AIC = nϑ + ϑ

⇓⇑

(

( ˆ )

)

ln )

ln( JN N

N N n

MDL = ⋅ ϑ + ϑ

notiamo che la differenza tra i due consiste solo nei termini 2 e ln(N . )

Se 2ln(N) > (ovvero abbiamo più di 8 dati…), la formula MDL suggerisce di usare modelli più parsimoniosi.

FPE / AIC ↔ MDL…?

Sappiamo che se il modello è ARX, e SM(ϑ) (cioè se lo stimatore appartiene alla famiglia dei modelli), allora MDL stima correttamente il valore “vero” di nϑ.

Dato che SM(ϑ) non è mai rigorosamente verificata, in pratica si preferisce usare AIC (FPE); preferiamo, cioè, sovrastimare

Riferimenti

Documenti correlati

«Oggi questa compagnia fa parte di me ogni giorno». Un’affermazione del genere non dipende dal fatto che le nostre emozioni durino; il punto è che certi fatti sono testardi e non

Io sono con voi tutti i giorni, fino alla fine del mondo (Mt 28,20) Quanto più una persona è potente, come certezza di coscienza, tanto più il suo sguardo, anche nel modo abituale

(7 anni, peso: 26 kg) è condotto in PS per aver presentato cefalea, vertigine, vomito e dolore addominale in seguito al consumo di carne grigliata, cotta utilizzando

«che c’ent nzi ha fatto ne chiamato scondere q a dei fatti q ripercorren ll’antifascis e del secolo Anni percors di oggi. Breve. ne d’amore

In realtà la teoria degli universi paralleli ipotizza che per ogni misurazione di una proprietà di uno stato quantistico si abbia come conseguenza la divisione della storia

Maugis, hanno realizzato pi` u serie d’esperimenti su tali basi, cercando di capire come evolvesse la frattura sotto opportune condizioni iniziali, in par- ticolare come fosse legata

«In tema di affidamento di figli minori, qualora un genitore denunci comportamenti dell'altro genitore, affidatario o collocatario, di allontanamento morale e

Alto Magro Divertente Puzzolente Stretto Corto Dolce Liscio Caldo Pulito Ordinato Silenzioso Luminoso Veloce Forte Calmo Buono Lontano.. Grasso Debole Basso Largo Lento Buio Lungo