1.1 Prime de…nizioni

(1)

Introduzione ai Processi Stocastici

1.1 Prime de…nizioni

1.1.1 Processi stocastici

Ricordiamo che uno spazio di probabilità è una terna ( ; F; P ) dove è un insieme, F è una -algebra di parti di , P è una misura di probabilità su ( ; F); la coppia ( ; F) è chiamata spazio misurabile. In uno spazio topologico E indicheremo con B (E) la -algebra dei boreliani (la più piccola -algebra che contiene gli aperti). Una variabile aleatoria Y su ( ; F) a valori in uno spazio misurabile (E; E) è una funzione Y : ! E misurabile da ( ; F) in (E; E), cioè tale che f! 2 : Y (!) 2 Bg 2 F per ogni B 2 E.

Una variabile aleatoria reale Y su ( ; F) è una variabile aleatoria su ( ; F) a valori in (R; B (R)).

Sia T un insieme non vuoto. L’insieme T sarà l’insieme dei parametri del processo stocastico. A livello interpretativo, può essere ad esempio un insieme di tempi, oppure di posizioni spaziali o di spazio-tempo. In alcuni momenti sarà necessario supporre di avere uno spazio misurabile (T; T ) ed in altri uno spazio topologico T , con T = B (T );

altrimenti T è del tutto arbitrario. Tutto ciò …no al momento in cui introdurremo le

…ltrazioni; con l’introduzione del concetto di …ltrazione, restringeremo l’attenzione al caso in sia T [0; 1), T = B (T ) ed interpreteremo T come insieme dei tempi. Tutti gli sviluppi avanzati del corso riguarderanno il caso T = [0; 1) (o T = [0; t

⁰

]) per cui avrebbe senso restringersi …n da ora a quel caso. Però può essere concettualmente interessante osservare che questi primi paragra… hanno carattere più generale, per cui per ora supporremo solo che T sia un insieme, non vuoto.

Siano dati, oltre a T , uno spazio di probabilità ( ; F; P ) ed uno spazio misurabile (E; E) (detto spazio degli stati). Un processo stocastico X = (X

^t

)

_t2T

, de…nito su ( ; F; P ) a valori in (E; E) è una funzione X de…nita su T a valori in E, tale che per ogni t 2 T la funzione ! 7 ! X

^t

(!) sia misurabile da ( ; F) in (E; E). Ne segue

1

(2)

che, dati t

1

< ::: < t

n

2 T , la funzione

! 7 ! (X

^t1

(!) ; :::; X

_t_n

(!))

è misurabile da ( ; F) in (E

ⁿ

;

ⁿ

E). Le leggi di probabilità di questi vettori (leggi immagine di P rispetto a queste applicazioni) si chiamano distribuzioni di dimensione

…nita del processo.

Le funzioni t 7 ! X

^t

(!) da T in E (ad ! …ssato) si dicono realizzazioni o traiettorie del processo stocastico. Il termine traiettoria va forse riservato al caso in cui sia T [0; 1).

Due processi stocastici X = (X

t

)

_t2T

e Y = (Y

t

)

_t2T

si dicono equivalenti se hanno le stesse distribuzioni di dimensione …nita. Si dicono modi…cazione (o versione) uno dell’altro se per ogni t 2 T vale

P (X

_t

= Y

_t

) = 1:

Si dicono indistinguibili se

P (X

_t

= Y

_t

per ogni t 2 T ) = 1:

Due processi indistinguibili sono modi…cazione uno dell’altro. Due processi che sono modi…cazione uno dell’altro sono equivalenti. Si veda l’esercizio 1. Si noti che, a di¤erenza delle altre due, la de…nizione di processi equivalenti non richiede che essi siano de…niti sullo stesso spazio ( ; F; P ).

Supponiamo che T ed E siano spazi topologici e siano T = B (T ), E = B (E).

Un processo si dice continuo se le sue realizzazioni sono funzioni continue; si dice q.c.

continuo se ciò avviene per P -quasi ogni realizzazione.

Quando T [0; 1), le de…nizioni di continuo a destra e/o a sinistra, costante a tratti ed altre della stessa natura sono simili. Un processo si dice càdlàg (continue à droite, limite à gauche) se le sue traiettorie sono continue a destra ed hanno limite

…nito a sinistra.

Se (T; T ) è uno spazio misurabile, possiamo dare la seguente de…nizione. Un processo si dice misurabile se l’applicazione (t; !) 7 ! X

^t

(!) è misurabile da (T ; T F) in (E; E).

Elenchiamo anche alcune nozioni che si usano soprattutto nella cosiddetta teoria della correlazione dei processi stazionari, per noi marginale ma toccata almeno nel caso dei processi gaussiani. Supponiamo che sia (E; E) = (R; B (R)). Indichiamo con E [ ] la speranza matematica su ( ; F; P ) (E [Y ] = R

Y dP , per ogni Y v.a. reale ( ; F; P ) integrabile), con V ar [ ] la varianza (V ar [Y ] = E (Y E [Y ])

²

quando Y è di quadrato integrabile), con Cov ( ; ) la covarianza (Cov (Y; Z) = E [(Y E [Y ]) (Z E [Z])] se Y e Z sono v.a. di quadrato integrabile). Sia X un processo stocastico a valori in (R; B (R)), su ( ; F; P ). Se E [jX

^t

j] < 1 per ogni t 2 T , chiamiamo m (t) = E [X

^t

], t 2 T , funzione valor medio del processo X. Se E [X

t²

] < 1 per ogni t 2 T , chiamiamo

2

(t) = V ar [X

_t

] , t 2 T , funzione varianza di X e chiamiamo C (t; s) = Cov (X

^t

; X

_s

),

t; s 2 T , funzione covarianza di X.

(3)

Esercizio 1 Costruire due processi equivalenti che non siano modi…cazione uno del- l’altro e due processi modi…cazione uno dell’altro che non siano indistinguibili.

1.1.2 Legge di un processo

Sia E

^T

lo spazio di tutte le funzioni f : T ! E. Indichiamo con S l’insieme di tutte le n-ple ordinate = (t

₁

; :::; t

_n

) di elementi di T tali che t

i

6= t

^j

per ogni i 6= j, i; j = 1; :::; n . Indichiamo con E

ⁿ

la -algebra prodotto di n copie di E.

Presa = (t

1

; :::; t

n

) 2 S e preso B 2 E

ⁿ

consideriamo l’insieme C ( ; B) E

^T

di tutte le funzioni f : T ! E tali che

(f (t

₁

) ; :::; f (t

_n

)) 2 B:

Lo chiameremo insieme cilindrico (con base B e coordinate t

1

; :::; t

_n

). Sia A la famiglia di tutti gli insiemi cilindrici C ( ; B), con n 2 N, = (t

₁

; :::; t

_n

) 2 S e B 2 E

ⁿ

. La famiglia A è un’algebra di parti di E

^T

: contiene E

^T

; il complementare di un insieme della forma f(f (t

¹

) ; :::; f (t

_n

)) 2 Bg è l’insieme cilindrico f(f (t

¹

) ; :::; f (t

_n

)) 2 B

^c

g; è chiusa per intersezione …nita. Quest’ultima proprietà è noiosa da scrivere in generale ma è ovvia se si pensa ad esempio al caso particolare dei due insiemi cilindrici ff (t

¹

) 2 B

¹

g, ff (t

²

) 2 B

²

g, con = (t

¹

; t

₂

), B

1

; B

₂

2 E, la cui intersezione è l’insieme f(f (t

¹

) ; f (t

₂

)) 2 B

¹

B

₂

g che appartiene ad A.

Sia E

^T

la più piccola -algebra di parti di E

^T

che contiene gli insiemi cilindrici.

Dato un processo stocastico X = (X

t

)

_t2T

de…nito su uno spazio di probabilità ( ; F; P ) a valori in uno spazio misurabile (E; E) consideriamo l’applicazione

! 7 ! X (!)

da ( ; F) in E

^T

; E

^T

. Essa è misurabile. Infatti, preso un insieme cilindrico C ( ; B),

= (t

₁

; :::; t

_n

) 2 S, B 2 E

ⁿ

, la sua controimmagine è l’insieme f(X

^t1

; :::; X

_t_n

) 2 Bg

e questo insieme sappiamo essere misurabile, un elemento di F. Rammentiamo che per veri…care la misurabilità di un’applicazione basta farlo su una famiglia generante la -algebra in arrivo (in simboli generali, se X : ( ; F) ! (E; E) soddisfa X

¹

(B) 2 F per ogni B 2 G, dove G E ed E = (G), allora X è misurabile; infatti, si prenda la famiglia H P (E) degli insiemi B E tali che X

¹

(B) 2 F; si veri…ca che H è una

-algebra e contiene G, quindi contiene (G)).

Possiamo quindi considerare la legge dell’applicazione (misura immagine di P attraverso ). Si chiamerà legge del processo. E’una misura di probabilità su E

^T

; E

^T

. Indichiamola col simbolo P

X

. Vale

P

_X

(C ( ; B)) = P ((X

_t₁

; :::; X

_t_n

) 2 B)

(4)

per ogni = (t

1

; :::; t

n

) 2 S e B 2 E

ⁿ

.

Proposizione 1 Due processi X ed X

⁰

, de…niti rispettivamente su ( ; F; P ) e (

⁰

; F

⁰

; P

⁰

) a valori in (E; E), sono equivalenti se e solo se hanno la stessa legge su E

^T

; E

^T

. Proof. Se hanno la stessa legge allora, presi = (t

₁

; :::; t

n

) 2 S e B 2 E

ⁿ

, vale

P ((X

_t₁

; :::; X

_t_n

) 2 B) = P

^X

(C ( ; B)) = P

_X⁰₀

(C ( ; B))

= P

⁰

X

_t⁰

1

; :::; X

_t⁰_n

2 B quindi hanno le stesse distribuzioni di dimensione …nita.

Viceversa, se hanno le stesse distribuzioni di dimensione …nita, vale P

_X

(C ( ; B)) = P ((X

_t₁

; :::; X

_t_n

) 2 B) = P

⁰

X

_t⁰₁

; :::; X

_t⁰_n

2 B

= P

_X⁰ 0

(C ( ; B))

quindi le misure di probabilità P

X

e P

_X⁰ 0

, misure su E

^T

; E

^T

, coincidono sugli insiemi cilindrici. La famiglia A di tali insiemi genera E

^T

ed è chiusa per intersezione …nita e quindi, per un noto teorema di Caratheodory, le due misure coincidono su tutta E

^T

. La dimostrazione è completa.

1.1.3 Legge nello spazio delle funzioni continue

Esaminiamo adesso un problema più delicato. Supponiamo che X sia continuo. Per capire bene il problema senza complicazioni topologiche collaterali, iniziamo discutendo il caso in cui

T = R

⁺

:= [0; 1); E = R

ⁿ

(1.1)

e le -algebre sono quelle dei boreliani. Indichiamo con C

0

l’insieme C (R

⁺

; R

ⁿ

) delle funzioni continue da R

⁺

in R

ⁿ

, munito della topologia della convergenza uniforme sui compatti.

L’insieme ( ) non è solo un sottoinsieme di E

^R⁺

ma anche di C

0

. E’naturale pen- sare che de…nisca una misura immagine su (C

0

; B (C

⁰

)). Purtroppo si può dimostrare che C

0

2 B (E) =

^R⁺

(omettiamo la dimostrazione) e questo non permette facilmente di

“restringere” la legge del processo, precedentemente de…nita su E

^R⁺

; B (E)

^R⁺

, ad una legge su (C

0

; B (C

⁰

)) (in realtà anche questa strada è percorribile con opportune considerazioni basate sulla misura esterna, applicabili dopo aver veri…cato che la misura esterna dell’insieme non misurabile C

0

è pari ad 1).

Per aggirare questo ostacolo basta dimostrare il risultato seguente.

Proposizione 2 Se X = (X

t

)

_{t 0}

è un processo continuo a valori reali, allora è

misurabile da ( ; F) in (C

⁰

; B (C

⁰

)). Possiamo quindi considerare la misura immagine

di P attraverso , su (C

0

; B (C

⁰

)), che chiameremo legge del processo X su (C

₀

; B (C

⁰

)).

(5)

Proof. La -algebra B (C

⁰

) è generata dagli insiemi della forma B (f

₀

; n; R) = f 2 C

⁰

: max

t2[0;n]

jf (t) f

₀

(t) j R

al variare di f

0

2 C

⁰

, n 2 N, R > 0. Sia ft

^j

g R

⁺

una successione che conta i razionali non negativi. Indichiamo con n

t

⁽ⁿ⁾_j

o

la sotto-successione composta dai t

j

che appartengono a [0; n]; n

t

⁽ⁿ⁾_j

o

è densa in [0; n]. Vale B (f

₀

; n; R) = n

f 2 C

⁰

: f t

⁽ⁿ⁾_j

f

₀

t

⁽ⁿ⁾_j

R; 8 j 2 N o : Poniamo inoltre

B (f

0

; n; N; R) = n

f 2 C

⁰

: f t

⁽ⁿ⁾_j

f

0

t

⁽ⁿ⁾_j

R; 8 j N o

per ciascun N 2 N. La controimmagine di B (f

⁰

; n; N; R) attraverso è l’insieme n

! 2 : X

_t(n) j

(!) f

₀

t

⁽ⁿ⁾_j

R; 8 j N o

che appartiene ad F (è anche la controimmagine di un insieme cilindrico). Vale inoltre B (f

₀

; n; R) = \

N 2N

B (f

₀

; n; N; R) :

La controimmagine di questo insieme è intersezione numerabile di elementi di F, quindi è elemento di F. Siccome questi insiemi, come detto sopra, generano B (C

⁰

), è misurabile tra le -algebre indicate. La dimostrazione è completa.

Osservazione 1 Con ragionamenti non molto diversi si dimostra che due processi continui con le stesse distribuzioni di dimensione …nita, hanno la stessa legge su (C

₀

; B (C

⁰

)).

Se un processo X è solamente q.c. continuo, de…nisce ugualmente una misura di probabilità su (C

0

; B (C

⁰

)) del tutto analoga al caso precedente, che continueremo a chiamare misura immagine di P attraverso su (C

0

; B (C

⁰

)). Infatti, esiste un insieme

0

2 F di P -misura 1 tale che (

⁰

) C

₀

. Consideriamo lo spazio probabilizzato (

⁰

; F

⁰

; P

⁰

) dove F

⁰

= F \

⁰

e P

⁰

è la restrizione di P ad F

⁰

. Ora :

⁰

! C

⁰

è ben de…nita e induce una misura di probabilità su (C

0

; B (C

⁰

)). Si veri…ca facilmente che essa non dipende dalla scelta di

⁰

con le proprietà precedenti.

Le considerazioni illustrate sopra si estendono a varie situazioni più generali. Una

molto simile è quella in cui T è uno spazio metrico, unione numerabile di compatti

(spazio metrico -compatto) ed E è uno spazio metrico separabile.

(6)

1.2 Teorema di estensione di Kolmogorov

Abbiamo visto che, dato un processo X = (X

t

)

_t2T

, questo de…nisce una misura di probabilità su E

^T

; E

^T

. Quando vale il viceversa, cioè per quali misure di probabilità su E

^T

; E

^T

esiste un processo che ha come legge? Per tutte: basta prendere il processo canonico, = E

^T

, F = E

^T

, X

t

(!) = ! (t). Meno banale è il problema di inversione che ora descriveremo.

Data una misura di probabilità su E

^T

; E

^T

, de…niamo le sue distribuzioni di dimensione …nita nel seguente modo. Presa = (t

₁

; :::; t

_n

) 2 S, indichiamo con : E

^T

! E

ⁿ

l’applicazione (f ) = (f (t

₁

) ; :::; f (t

_n

)) . E’misurabile, rispetto a E

^T

e E

ⁿ

(preso B 2 E

ⁿ

la sua controimmagine è l’insieme cilindrico f 2 E

^T

: (f (t

₁

) ; :::; f (t

_n

)) 2 B , che appartiene ad E

^T

): La distribuzione di dimensione n di relativa a è la legge immagine di attraverso :

(B) = f 2 E

^T

: (f (t

₁

) ; :::; f (t

_n

)) 2 B ; B 2 E

ⁿ

:

Se = P

_X

, essa è la legge del vettore aleatorio (X

t1

; :::; X

_t_n

) e f ; 2 Sg è la famiglia delle distribuzione di dimensione …nita del processo X.

Il problema di inversione è il seguente: data una famiglia di misure di probabilità f ; 2 Sg (si sottintende che se = (t

₁

; :::; t

_n

) 2 S, allora è una misura di proba- bilità su (E

ⁿ

; E

ⁿ

)), esiste una misura di probabilità su E

^T

; E

^T

di cui f ; 2 Sg sia la famiglia delle distribuzioni di dimensione …nita? Siccome l’esistenza di un processo con legge è ovvia, il problema è equivalente a: data una famiglia di misure di prob- abilità f ; 2 Sg, esiste uno spazio probabilizzato ( ; F; P ) ed un processo X su ( ; F; P ) che abbia f ; 2 Sg come famiglia delle distribuzioni di dimensione …nita?

Osservazione 2 Alla base dei seguenti ragionamenti c’è il fatto che un insieme cilindrico non ha una sola rappresentazione. Ad esempio, dati t

1

; :::; t

_n

; t

_n+1

2 T , B 2 E

ⁿ

, vale

f 2 E

^T

: (f (t

₁

) ; :::; f (t

_n

)) 2 B = f 2 E

^T

: (f (t

₁

) ; :::; f (t

_n

) ; f (t

_n+1

)) 2 B E oppure, dati t

1

; t

2

2 T , B

¹

; B

2

2 E, vale

f 2 E

^T

: (f (t

₁

) ; f (t

₂

)) 2 B

¹

B

₂

= f 2 E

^T

: (f (t

₂

) ; f (t

₁

)) 2 B

²

B

₁

: Servono due ingredienti: una proprietà di compatibilità tra le ed un po’ di regolarità dello spazio (E; E). La proprietà di compatibilità tra le si intuisce facilmente a posteriori, quando esse sono le distribuzioni di dimensione …nita di . Si tratta di due condizioni, che a parole potremmo chiamare “invarianza sotto permu- tazioni degli indici” e “invarianza sotto contrazioni degli indici”. Vediamo la prima.

Se = (t

₁

; :::; t

_n

) 2 S e se (i

¹

; :::; i

_n

) è una permutazione di (1; :::; n), indicata con

(7)

P

_(i₁_;:::;i_n₎

: E

ⁿ

! E

ⁿ

l’applicazione che manda la generica sequenza (x

1

; :::; x

n

) nella (x

_i₁

; :::; x

_i_n

), deve valere (per le distribuzioni di dimensione …nita di un processo)

(t1;:::;tn)

(B) = (

^ti1;:::;t_in

) P

⁽ⁱ¹^;:::;iⁿ⁾

(B) : (1.2) Vediamo ora la seconda. Data = (t

₁

; :::; t

_n

) 2 S, indichiamo con

nb

la sequenza

n_b

= (t

₁

; :::; t

_{n 1}

) (la sequenza ottenuta omettendo t

n

dalla ), le misure e

b

n

sono legate dalla proiezione

n_b

: E

ⁿ

! E

^{n 1}

che manda una generica sequenza (x

₁

; :::; x

_n

) 2 E

ⁿ

nella sequenza (x

1

; :::; x

_{n 1}

) 2 E

^{n 1}

(la sequenza ottenuta omettendo l’ultima componente di (x

1

; :::; x

_n

)). Vale

b

n

=

_n_b

( ) (1.3)

nel senso che

_n_b

è la legge immagine di attraverso

n_b

, ovvero esplicitamente

b

n

(B) = (

_bn

2 B) per ogni B 2 E

^{n 1}

.

Si può veri…care facilmente che è equivalente richiedere queste condizioni per insiemi B di tipo rettangolare, rispetto a cui esse si scrivono più agevolmente. Possiamo richiedere che

(t1;:::;tn)

(B

₁

B

_n

) = (

^ti1;:::;t_in

) (B

ⁱ¹

B

_i_n

)

(t1;:::;tn)

(B

₁

E) =

_(t₁_;:::;t_n ₁₎

(B

₁

B

_{n 1}

) per ogni n 2 N, (t

¹

; :::; t

_n

) 2 S, B

¹

; :::; B

_n

2 E.

De…nizione 1 Sia f ; 2 Sg una famiglia di misure di probabilità (sempre sottin- tendendo che se = ft

¹

; :::; t

_n

g 2 S, sia una misura di probabilità su (E

ⁿ

; E

ⁿ

)).

Quando valgono (1.2)-(1.3) per ogni scelta di n 2 N, = (t

₁

; :::; t

_n

) 2 S, i = 1; :::; n, diciamo che la famiglia f ; 2 Sg è consistente.

Ricordiamo che uno spazio metrico E si dice -compatto se è unione numerabile di compatti di E. Un risultato di teoria della misura dice che su uno spazio metrico E si dice -compatto, se è una misura di probabilità de…nita sui boreliani B (E), allora per ogni B 2 B (E) ed " > 0 esiste un compatto K B tale che (B nK) < ".

Useremo questo risultato nella dimostrazione del seguente teorema.

Teorema 1 Se f ; 2 Sg è una famiglia consistente, E è uno spazio metrico - compatto, E = B (E), allora esiste una ed una sola misura di probabilità su E

^T

; E

^T

di cui f ; 2 Sg sia la famiglia delle distribuzioni di dimensione …nita.

Proof. Passo 1 (preparazione). L’unicità è del tutto analoga a quella della Propo-

sizione 1: due misure con le stesse distribuzioni di dimensione …nita coincidono su una

classe chiusa per intersezione …nita e generante la -algebra E

^T

, quindi coincidono su

tutta E

^T

.

(8)

Per l’esistenza, ricordiamo il seguente teorema di Charateodory: dato uno spazio misurabile ( ; G) ed un’algebra A che genera G, se è una misura …nitamente additiva su ( ; A), continua in ? (cioè tale che, se fA

ⁿ

g è una successione di eventi di A decrescente con intersezione vuota allora lim

n!1

(A

n

) = 0), allora si estende univocamente ad una misura numerabilmente additiva su ( ; G).

Prendiamo l’algebra A di tutti gli insiemi cilindrici C ( ; B), con n 2 N, = ft

¹

; :::; t

_n

g 2 S e B 2 E

ⁿ

. L’algebra A genera E

^T

. Basta de…nire una misura su A con le proprietà del teorema di Charateodory ed avente f ; 2 Sg come famiglia delle distribuzioni di dimensione …nita, ed il teorema è dimostrato.

Preso un insieme cilindrico C 2 A, esistono in…nite sue rappresentazioni nella forma C = C ( ; B) con = (t

₁

; :::; t

_n

) e B 2 E

ⁿ

. Presa una di tali rappresentazioni, possiamo calcolare (B) e porre

(C) = (B) :

Ma la de…nizione è ben data solo se non dipende dalla rappresentazione di C. Qui interviene l’ipotesi di consistenza della famiglia. Se C (

⁰

; B

⁰

) e C (

⁰⁰

; B

⁰⁰

) sono due rappresentazioni dello stesso insieme cilindrico C, abbiamo

0

(B

⁰

) =

00

(B

⁰⁰

). La dimostrazione è elementare ma un po’ laboriosa da scrivere, per cui la isoliamo nel Lemma 1.

La veri…ca che , così de…nita, è …nitamente additiva su A, si esegue nel seguente modo: presi degli insiemi disgiunti C

1

; :::; C

_k

2 A, c’è una sequenza = (t

₁

; :::; t

_n

) tale che tutti gli insiemi C

i

possono essere rappresentati tramite , cioè esistono B

₁

; :::; B

_k

2 E

ⁿ

, oltretutto disgiunti, tali che C

j

= C ( ; B

_j

), j = 1; :::; k. Vale

[

k j=1

C

_j

= C ; [

k j=1

B

_j

!

per cui

[

k j=1

C

_j

!

=

[

k j=1

B

_j

!

= X

k

j=1

(B

_j

) = X

k

j=1

(C

_j

)

dove il passaggio intermedio si basa sull’additività di su E

ⁿ

. L’additività su A si riconduce cioè a quella di un’opportuna distribuzione di dimensione …nita.

Passo 2 (continuità della misura). Dobbiamo in…ne dimostrare la continuità in ?.

Sia fC

ⁿ

g è una successione di eventi di A decrescente con intersezione vuota. Dobbiamo dimostrare che lim

_n!1

(C

_n

) = 0.

Facciamo una piccola digressione che può aiutare a capire la dimostrazione. Ci sono

alcune famiglie di successioni fC

ⁿ

g per cui la dimostrazione è facile. Gli esercizi 2 e

3 illustrano esempi in cui ci si può ricondurre ad usare una singola distribuzione di

dimensione …nita, un po’come nella veri…ca fatta sopra dell’additività. In questi casi,

la dimostrazione che lim

_n!1

(C

_n

) = 0 è facile. Se ci si potesse restringere ad insiemi

cilindrici come quelli descritti agli esercizi 2 e 3, non ci sarebbe bisogno dell’ipotesi di

regolarità dello spazio E.

(9)

Ma le famiglie di insiemi cilindrici descritte da tali esercizi non sono algebre. Tra le successioni di insiemi cilindrici esistono esempi, come quello dell’esercizio 4, in cui non si vede come ricondursi ad usare una singola distribuzione di dimensione …nita.

Facendo però riferimento a concetti topologici, precisamente alla compattezza, c’è un’altra classe in cui la dimostrazione che lim

_n!1

(C

_n

) = 0 si riesce a completare facilmente. Supponiamo che la successione fC

ⁿ

g di eventi di A decrescente con intersezione vuota abbia la forma C

n

= C (

n

; K

n

) con K

n

insieme compatto (per inciso, se E non è compatto, questa rappresentazione è unica, quando esiste). Allora gli insiemi K

_n

non possono essere tutti diversi dal vuoto. Rimandiamo la veri…ca al Lemma 2.

Ma allora, se per un certo n

0

l’insieme K

n0

è vuoto, vale (C

_n₀

) = 0, da cui discende (per monotonia) (C

_n

) = 0 per ogni n n

₀

e quindi anche lim

_n!1

(C

_n

) = 0.

L’idea della dimostrazione allora è la seguente: data una rappresentazione C

n

= C (

_n

; B

_n

) degli insiemi cilindrici della successione, …ssato " > 0, usando la proprietà di regolarità dello spazio E si può trovare una successione di compatti fK

ⁿ

g, K

ⁿ

B

_n

tali che, detto D

n

l’insieme cilindrico di base K

n

(invece che B

n

) e coordinate

n

, insieme che veri…ca D

n

C

_n

, vale

(C

_n

) (D

_n

) = (C

_n

nD

ⁿ

) ":

Se riusciamo a trovare fK

ⁿ

g in modo che fD

ⁿ

g sia anche decrescente, allora per il Lemma 2, lim

_n!1

(D

_n

) = 0. Questo implica che esiste n

0

0 tale che per ogni n n

₀

, (C

_n

) ". Per l’arbitrarietà di " si ottiene lim

_n!1

(C

_n

) = 0.

L’unico punto che richiede un attimo di lavoro è fare in modo che fD

ⁿ

g sia decrescente. Sia quindi, …ssato " > 0, fK

1⁰

g una successione di compatti, K

n⁰

B

_n

, tali che

n

(B

_n

nK

n⁰

) <

₂^"n

(essi esistono per la regolarità di E). Indichiamo con fD

⁰n

g la successione degli insiemi cilindrici di base K

_n⁰

e coordinate

n

; D

_n⁰

C

_n

in quanto K

_n⁰

B

_n

, ma non sappiamo se fD

n⁰

g è decrescente. Poniamo D

ⁿ

= D

₁⁰

\ ::: \ D

n⁰

. Sicuramente fD

ⁿ

g è una successione di insiemi cilindrici decrescente. Mostriamo che esistono dei compatti K

n

B

_n

, tali che D

n

ha base K

n

e coordinate

n

; e (C

_n

nD

ⁿ

) ".

Gli insiemi D

n

hanno la forma

D

_n

= f j

1

2 K

1⁰

; :::; f j

n

2 K

n⁰

:

Si immagini l’esempio D

2

= f j

^(t1;t2)

2 K

1⁰

; f j

^(t2;t3)

2 K

2⁰

. Si può descrivere nella forma

D

₂

= f j

^(t1;t2;t3)

2 K

1⁰

E; f j

^(t1;t2;t3)

2 E K

₂⁰

= f j

^(t1;t2;t3)

2 K

1⁰

E \ E K

₂⁰

e l’insieme (K

₁⁰

E) \ (E K

₂⁰

) è compatto. Il caso generale si scrive con fatica ma è identico. Quindi esiste K

n

B

_n

, tali che D

n

ha base K

n

e coordinate

n

.

Vale poi (si osservi che D

⁰_k

C

_k

C

_n

; si scriva inoltre C

n

nD

ⁿ

= C

_n

\(D

⁰1

\ ::: \ D

n⁰

)

^c

) C

_n

nD

ⁿ

= C

_n

nD

⁰1

[ C

ⁿ

nD

2⁰

[ ::: [ C

ⁿ

nD

n⁰

C

1

nD

⁰1

[ C

²

nD

⁰2

[ ::: [ C

ⁿ

nD

⁰n

(10)

da cui

(C

_n

nD

ⁿ

) X

n k=1

C

_k

nD

k⁰

X

n k=1

"

2

^k

":

La dimostrazione è completa.

Nella dimostrazione del seguente lemma usiamo la notazione j j per la cardinalità di 2 S. Se = (t

₁

; :::; t

_n

) , vale j j = n.

Lemma 1 Se C (

⁰

; B

⁰

) e C (

⁰⁰

; B

⁰⁰

) sono due rappresentazioni dello stesso insieme cilindrico C, abbiamo

0

(B

⁰

) =

00

(B

⁰⁰

).

Proof. Se vale

⁰

=

⁰⁰

, si può riconoscere che vale anche B

⁰

= B

⁰⁰

. In questo caso la tesi è ovvia. Se

⁰⁰

è ottenuta da

⁰

tramite una permutazione degli indici (i

1

; :::; i

_n

), allora B

⁰⁰

= P

_(i₁_;:::;i_n₎

(B

⁰

) e l’invarianza della de…nizione di è garantita dalla proprietà (1.2).

Se, cosiderando

⁰

e

⁰⁰

come insiemi non oridinati, vale

⁰ ⁰⁰

, a meno di permutazione delle coordinate risulta B

⁰⁰

è della forma B

⁰

E

^j ⁰⁰^{j j} ⁰^j

. Quando j

⁰⁰

j j

⁰

j = 1 basta applicare la proprietà (1.3); quando j

⁰⁰

j j

⁰

j > 1 si agisce in j

⁰⁰

j j

⁰

j passi sempre con la proprietà (1.3).

Se

⁰

e

⁰⁰

, cosiderate come insiemi non oridinati, non sono contenute una nell’altra, si consideri =

⁰

\

⁰⁰

. Esiste B tale che C ( ; B) è una terza rappresentazione; B è la proiezione lungo le coordinate di B

⁰

o di B

⁰⁰

. Per capire che è così, si pensi al caso

0

= (t

₁

; t

₂

),

⁰⁰

= (t

₂

; t

₃

) (il caso generale è solo notazionalmente più faticoso): vale f 2 E

^T

: (f (t

₁

) ; f (t

₂

)) 2 B

⁰

= f 2 E

^T

: (f (t

₂

) ; f (t

₃

)) 2 B

⁰⁰

ovvero

f(f (t

¹

) ; f (t

₂

) ; f (t

₃

)) 2 B

⁰

E g = f(f (t

¹

) ; f (t

₂

) ; f (t

₃

)) 2 E B

⁰⁰

g :

Questo implica che gli insiemi di E

³

dati da B

⁰

E e E B

⁰⁰

coincidono. Questo è compatibile solo con la struttura E B E.

Vale allora C (

⁰

; B

⁰

) = C ( ; B) ma

⁰

, quindi

0

(B

⁰

) = (B). Lo stesso si può dire per C (

⁰⁰

; B

⁰⁰

) e quindi

0

(B

⁰

) =

00

(B

⁰⁰

). La dimostrazione è completa.

Lemma 2 Sia fC

ⁿ

g A decrescente con intersezione vuota, della forma C

ⁿ

= C (

_n

; K

_n

) con K

n

insieme compatto. Allora gli insiemi K

n

non possono essere tutti diversi dal vuoto.

Esercizio 2 Sia ft

ⁿ

g T una successione data e sia fC

ⁿ

g A della forma C

_n

= ff (t

¹

) 2 B

^1;n

; :::; f (t

_n

) 2 B

^n;n

g

dove la famiglia a due indici interi positivi fB

^k;n

g E soddisfa B

_k;n+1

B

_k;n

per ogni k; n 2 N. Quindi fC

ⁿ

g è decrescente. Mostrare in questo caso che, se

fC

ⁿ

g ha intersezione vuota, allora lim

n!1

(C

_n

) = 0.

(11)

Esercizio 3 Sia ft

ⁿ

g T una successione data e sia fC

ⁿ

g A decrescente. Supponi- amo che esista k

0

2 N tale che, per n k

₀

, f

^k0

C

_n

g E sia una successione decrescente con intersezione vuota. Qui

k0

: E

^T

! E è la proiezione f 7 !

^k0

(f ) = f (t

_k₀

).

Allora fC

ⁿ

g ha intersezione vuota e lim

n!1

(C

n

) = 0.

Esercizio 4 Sia ft

ⁿ

g T una successione data. Veri…care che gli insiemi C

_n

= f (t

_{k 1}

) < f (t

_k

) < f (t

_{k 1}

) + 1

n ; k = 2; 3; :::; n

non rientrano nei casi trattati dagli esercizi precedenti ma formano una successione decrescente con intersezione vuota.

Esercizio 5 Data una misura di probabilità sui boreliani di uno spazio metrico (X; d), diciamo che essa è tight se per ogni " > 0 esiste un compatto K

_"

tale che (K

_"

) > 1 ". Mostrare che il teorema di costruzione dei processi di Kolmogorov continua a valere se, invece di supporre che lo spazio metrico E sia -compatto, si suppone che sia metrico e che ogni distribuzione di dimensione …nita , 2 S, sia tight.

[Presa 2 S e la corrispondente misura su E

ⁿ

, esiste un boreliano X

n

E

ⁿ

che è uno spazio metrico -compatto e può essere ristretta ad una misura di probabilità su X

n

. Il resto della dimostrazione del teorema di Kolmogorov è inalterata.]

Osservazione 3 Ogni misura di probabilità sui boreliani uno spazio metrico completo e separabile (polacco) è tight. La proprietà di essere polacco passa al prodotto cartesiano …nito. Allora il teorema di Kolmogorov vale se, invece di supporre che lo spazio metrico E sia -compatto, si suppone che sia polacco.

1.2.1 Processi gaussiani

Ricordiamo che la densità gaussiana standard è la funzione f (x) =

^p¹₂

exp ( x

²

=2) e la densità gaussiana N ( ;

²

) è la funzione

f (x) = 1

p 2

²

exp (x )

²

2

²

! :

Inoltre, un vettore aleatorio Z = (Z

1

; :::; Z

_n

) è gaussiano standard se ha densità congiunta

f (x

₁

; :::; x

_n

) = Y

n i=1

p 1

2 exp x

²_i

2 = (2 )

ⁿ⁼²

exp x

²₁

+ ::: + x

²_n

2 (questo equivale a chiedere che le componenti Z

1

; :::; Z

_n

siano gaussiane standard in-

dipendenti), mentre un vettore Y = (Y

1

; :::; Y

_m

) si dice gaussiano se si può rappre-

sentare nella forma Y = AZ + b con A matrice n m, Z vettore gaussiano standard,

(12)

b 2 R

^m

. Tra le equivalenze con coi si può riscrivere questa de…nizione, ricordiamo la seguente: un vettore Y = (Y

1

; :::; Y

_m

) è gaussiano se e solo se la v.a. P

m

i=1 i

Y

_i

è gaussiana per ogni scelta di (

1

; :::;

_m

) 2 R

^m

. Segue subito da queste de…nizioni che se Y = (Y

1

; :::; Y

m

) è un vettore gaussiano, B è una matrice m k e c 2 R

^k

, allora il vettore aleatorio BY + c è un vettore gaussiano (in R

^k

).

Ricordiamo inoltre che per matrice di covarianza di un vettore Y = (Y

1

; :::; Y

_m

) si intende la matrice Q 2 R

^{m m}

de…nita da

Q

_ij

= Cov (Y

_i

; Y

_j

) ; i; j = 1; :::; m:

E’simmetrica e semi-de…nita positiva. La media (o vettore dei valori medi) è il vettore di coordinate E [Y

i

], i = 1; :::; m. Un vettore gaussiano standard Z = (Z

1

; :::; Z

_n

) ha media nulla e covarianza pari all’identità di R

ⁿ

. Un vettore gaussiano della forma Y = AZ + b come sopra, ha media b e matrice di covarianza Q = AA

^T

. Più in generale, ricordiamo la seguente proposizione:

Proposizione 3 Se Y = (Y

1

; :::; Y

_m

) è un vettore gaussiano di media

_Y

e covarianza Q

_Y

, B è una matrice m k e c 2 R

^k

, allora il vettore aleatorio BY + c è un vettore gaussiano di media B

_Y

+ c e covarianza

Q = AQ

_Y

A

^T

:

Sia Y = (Y

1

; :::; Y

_m

) un vettore gaussiano di media e covarianza Q. Quando det Q 6= 0, Y ha densità di probabilità congiunta (la sua legge è assolutamente continua rispetto alla misura di Lebesgue di R

^m

), data da

f (x) = 1

p (2 )

ⁿ

det Q exp hQ

¹

(x ) ; (x ) i 2

dove x = (x

1

; :::; x

_n

). Altrimenti, se det Q = 0, la legge di Y è singolare rispetto alla misura di Lebesgue di R

^m

ed è concentrata su un sottospazio proprio (precisamente una varietà a¢ ne, di codimensione maggiore di zero).

Chiameremo gaussiana ogni misura di probabilità su (R

ⁿ

; B (R

ⁿ

)) che sia legge di una v.a. gaussiana. Equivalentemente, una misura di probabilità su (R

ⁿ

; B (R

ⁿ

)) è gaussiana se la sua legge immagine su (R; B (R)) attraverso qualsiasi proiezione uni- dimensionale è una misura con densità gaussiana o una delta di Dirac. Ricordiamo che vale il seguente risultato:

Proposizione 4 Dati un vettore b 2 R

ⁿ

ed una matrice Q 2 R

^{n n}

simmetrica e semide…nita positiva, esiste una ed una sola misura gaussiana su (R

ⁿ

; B (R)

ⁿ

) che ha b come vettore delle medie e Q come matrice di covarianza.

Fatte queste premesse sui vettori gaussiani, possiamo de…nire ed analizzare i processi

gaussiani. Osserviamo che anche in questo paragrafo l’insieme T è qualsiasi.

(13)

De…nizione 2 Un processo a valori reali X = (X

t

)

_t2T

si dice gaussiano se tutte le sue marginali di dimensione …nita (X

t1

; :::; X

_t_n

) sono vettori gaussiani. Analogamente, una misura di probabilità su R

^T

; B (R)

^T

si dice gaussiana se tutte le sue distribuzioni di dimensione …nita sono gaussiane.

Un processo reale è quindi gaussiano se e solo se la sua legge su R

^T

; B (R)

^T

è gaussiana.

Se T è un sottoinsieme di uno spazio euclideo, unione numerabile di compatti, diciamo che una misura su (C (T; E) ; B (C (T; E))) è gaussiana se tutte le sue distribuzioni di dimensione …nita sono gaussiane.

Un processo gaussiano ha la legge caratterizzata da poche funzioni: la funzione valor medio m (t) = E [X

t

] , t 2 T e la funzione di covarianza C (t; s) = Cov (X

^t

; X

_s

), t; s 2 T .

Proposizione 5 Se due processi gaussiani hanno le stesse funzioni m (t) e C (t; s), allora hanno la stessa legge.

Proof. La legge è identi…cata dalle distribuzioni di dimensione …nita. Le leggi dei due processi sono misure gaussiane, con distribuzioni di dimensione …nita gaussiane. Tali gaussiane, diciamo in R

ⁿ

, sono univocamente determinate dai loro vettori medi e dalle matrici di covarianza, che però a loro volta hanno come componenti le valutazioni delle funzioni m (t) e C (t; s) in opportuni punti, quindi coincidono.

Ancor più economica è la descrizione nel caso di processi stazionari. Supponiamo che sull’insieme T sia de…nita un’operazione di somma +, cioè t + s 2 T se t; s 2 T . Ad esempio si possono considerare T = R

ⁿ

o T = [0; 1) con l’usuale somma euclidea.

De…nizione 3 Un processo stocastico X = (X

t

)

_t2T

a valori in (E; E) si dice stazionario in senso stretto se, per ogni = (t

₁

; :::; t

_n

) 2 S le leggi di (X

^t1

; :::; X

_t_n

) e (X

_t₁_+h

; :::; X

_t_n_+h

) coincidono per ogni h 2 T .

De…nizione 4 Un processo reale X = (X

t

)

_t2T

, con E [X

_t²

] < 1 per ogni t 2 T , si dice stazionario in senso lato o debole se

m (t + h) = m (t) C (t + h; s + h) = C (t; s) per ogni h; s; t 2 T .

Nel caso di un processo reale, la stazionarietà in senso stretto implica quella in

senso lato, ma non viceversa (non possiamo risalire alle leggi dai momenti di ordine

uno e due).

(14)

Proposizione 6 Se un processo gaussiano è stazionario in senso lato allora è anche stazionario in senso stretto.

Proof. Dati = (t

₁

; :::; t

_n

) 2 S e h 2 T , le leggi di (X

^t1

; :::; X

_t_n

) e (X

t1+h

; :::; X

_t_n_+h

), essendo gaussiane, sono identi…cate dai vettori medi di componenti E [X

tk

] e E [X

tk+h

], che coincidono essendo m (t

k

+ h) = m (t

_k

), k = 1; :::; n, e dalle matrici di covarianza di componenti Cov X

ti

; X

_t_j

e Cov X

ti+h

; X

_t_j_+h

, che coincidono essendo C (t

i

+ h; t

_j

+ h) = C (t

_i

; t

_j

). Quindi le leggi di (X

t1

; :::; X

_t_n

) e (X

t1+h

; :::; X

_t_n_+h

) coincidono ed abbiamo la stazionarietà in senso stretto.

Supponiamo che T sia un gruppo rispetto alla somma + e sia 0 l’elemento neutro.

In questo caso la stazionarietà in senso lato permette di descrivere la legge del processo gaussiano in modo estremamente economico.

Proposizione 7 Se un processo gaussiano è stazionario in senso lato allora la sua legge è identi…cata dal numero m := E [X

t

] e dalla funzione di una variabile

C (t) := Cov (X

_t

; X

₀

) ; t 2 T:

Proof. Le distribuzioni di dimensione …nita sono identi…cate dalle funzioni m (t) e C (t; s) ma queste, a loro volta, per la stazionarietà in senso lato sono l’una costante, m (t) = m, l’altra identi…cata dai suoi valori nei punti (t; s) della forma (r; 0), in quanto

C (t s; 0) = C (t; s) (h = s nella de…nizione di stazionarietà).

Concludiamo con un risultato di esistenza.

Proposizione 8 Date due funzioni m (t) e C (t; s), t; s 2 T , se C (t; s) = C (s; t) e

vale X

n

i;j=1

C (t

_i

; t

_j

)

_{i j}

0 per ogni n 2 N, (t

¹

; :::; t

n

) 2 T

ⁿ

, (

₁

; :::;

_n

) 2 R

ⁿ

, allora esiste un processo gaussiano che ha queste funzioni come media e covarianza.

Proof. Basta costruire una misura gaussiana su R

^T

; B (R)

^T

e prendere il processo

canonico. Per il teorema di costruzione di Kolmogorov ((E; E) = (R; B (R)) soddis-

fa l’ipotesi del teorema), basta costruire una famiglia consistente f ; 2 Sg di dis-

tribuzioni di dimensione …nita, che siano gaussiane (quindi la misura ed il processo

saranno gaussiani) e tali che valga la seguente proprietà: presa = (t

₁

; :::; t

_n

) 2 S, se

(X

_t₁

; :::; X

_t_n

) è un vettore aleatorio di legge , quindi gaussiano, valga E [X

t_k

] = m (t

_k

)

e Cov X

ti

; X

_t_j

= C (t

_i

; t

_j

) per ogni k; i; j = 1; :::; n.

(15)

Dato = (t

1

; :::; t

n

) 2 S, sia la misura gaussiana su R

ⁿ

avente vettore medio di componenti m (t

k

) e matrice di covarianza di componenti C (t

i

; t

_j

), per ogni k; i; j = 1; :::; n. Un tale misura esiste ed è unica. Infatti la matrice di componenti C (t

i

; t

_j

) è semide…nita positiva, per ipotesi, ed abbiamo ricordato sopra che un vettore ed una matrice semide…nita positiva de…niscono univocamente una misura gaussiana. La va- lidità della proprietà detta poco sopra (E [X

tk

] = m (t

_k

) e Cov X

ti

; X

_t_j

= C (t

_i

; t

_j

), se (X

t1

; :::; X

tn

) ha legge ) è assicurata per de…nizione. Resta da veri…care la consistenza. Omettiamo, per non appesantire la trattazione, la veri…ca della proprietà (1.2) e limitiamoci alla (1.3).

Con le notazioni usate in precedenza, = (t

₁

; :::; t

_n

) 2 S,

nb

= (t

₁

; :::; t

_{n 1}

),

b

n

: E

ⁿ

! E

^{n 1}

che manda la generica sequenza (x

1

; :::; x

_n

) 2 E

ⁿ

nella sequenza (x

₁

; :::; x

_{n 1}

) 2 E

^{n 1}

, dobbiamo dimostrare che

b

n

=

_n_b

( ) :

La trasformazione

_bn

è lineare e quindi i vettori delle medie m

_n_b

e m di

_b_n

e rispettivamente sono legati dalla relazione m

_n_b

=

n_b

m , le matrici di covarianza Q

_n_b

e Q di

b

n

e rispettivamente sono legate dalla relazione Q

_b_n

=

_b_n

Q

^T_n_b

(usando la notazione

_bn

anche per la matrice associata alla trasformazione nella base canonica). Il vettore m ha componenti m (t

k

), k = 1; :::; n, quindi

_bn

m è il vettore (m (t

₁

) ; :::; m (t

_{n 1}

)) 2 E

^{n 1}

, che è proprio il vettore delle medie di

b n

.

La veri…ca della proprietà Q

_b_n

=

_b_n

Q

^T_n_b

è elementare ma noiosa da scrivere. Per completezza la riportiamo. La matrice

_bn

ha componenti (

n_b

)

_j;

=

_j;

, per j = 0; :::; n 1, = 1; :::; n. Quindi la matrice

^T_n;i

ha componenti

^T_n_b _;k

= (

_n_b

)

_k;

=

_k;

, per k = 0; :::; n 1, = 1; :::; n. Quindi, dall’identità

b

n

Q

^T_b_{n jk}

= X

n

; =1

(

_n_b

)

_j;

(Q )

_; ^T_n_b _;k

si deduce, per j; k = 0; :::; n 1,

= X

n

; =1

j;

C (t ; t )

_k;

= C (t

_j

; t

_k

) :

Questa è la matrice Q

_b_n

. La dimostrazione è completa.

Esercizio 6 Costruire un processo X con T = [0; 1] che si annulli in t = 0 e t = 1

q.c., ed invece X

t

abbia densità di probabilità strettamente positiva per ogni t 2 (0; 1)

(un “ponte” stocastico).

(16)

1.2.2 Filtrazioni

A partire da questo paragrafo supponiamo che T sia un intervallo di R, o più precisamente per …ssare le idee

T = [0; 1):

Si intuisce che si possa svolgere una teoria più generale ma gli esempi che tratteremo nel corso non la motivano.

Chiamiamo …ltrazione su ( ; F; P ) una famiglia (F

^t

)

_t2T

di -algebre di insiemi di , F

^t

F per ogni t 2 T , che sia crescente: F

^s

F

^t

se s < t 2 T .

Un processo X = (X

t

)

_t2T

de…nito su ( ; F; P ) a valori in (E; E) si dice adattato alla

…ltrazione (F

^t

)

_t2T

se per ogni t 2 T la funzione X

^t

è misurabile da ( ; F

^t

) in (E; E).

Supponiamo T = [0; 1); se T è un intervallo che contiene 0 la de…nizione è analoga.

Il processo X si dice progressivamente misurabile se per ogni t 0 l’applicazione (s; !) 7 ! X

^s

(!) da ([0; t] ; B ([0; t]) F

^t

) in (E; E) è misurabile.

Se X è progressivamente misurabile, allora è misurabile ed adattato. Viceversa, vale ad esempio il seguente risultato.

Proposizione 9 Sia E uno spazio topologico, E = B (E). Se X è adattato e q.c.

continuo a destra (oppure q.c. continuo a sinistra) allora è progressivamente misurabile.

Proof. Sia G una -algebra su . Il seguente criterio di misurabilità è noto: se una funzione f : [a; b] ! E è continua a destra ed ! 7 ! f (t; !) è misurabile da ( ; G) in (E; E) per ogni t 2 [a; b], allora (t; !) 7 ! f (t; !) è misurabile da ([a; b] ; B ([a; b]) G) in (E; E). La dimostrazione si fa ad esempio approssimando f con funzioni continue a destra e costanti a tratti in t.

Basta allora applicare questo criterio ad ogni restrizione di X ad insiemi della forma [0; t] . La dimostrazione è completa.

Un insieme N è trascurabile rispetto a ( ; F; P ) se P (N) = 0 dove P (A) = inf fP (B) ; B 2 F; A B g. Quindi N è trascurabile se inf fP (B) ; B 2 F; N B g = 0 . Indichiamo con N l’insieme degli insiemi trascurabili rispetto a ( ; F; P ). Una …l- trazione (F

^t

)

_t2T

è completa se ogni F

^t

contiene N . E’equivalente che F

⁰

contenga N . [Una -algebra G si dice completa quando contiene gli insiemi trascurabili rispetto a ( ; G; P ). Quindi il chiedere che F

⁰

contenga N - famiglia degli insiemi trascurabili rispetto a ( ; F; P ) - o che sia completa sono a¤ermazioni di¤erenti.]

E’ comodo che tutte le -algebre di una …ltrazione contengano N . Altrimenti si creano tante piccole complicazioni un po’innaturali; ad esempio se Y è modi…cazione di un processo adattato X e la …ltrazione non è completa, non si può concludere che anche Y sia adattato. Infatti, preso B 2 E e t 2 T , l’evento fY

^t

2 Bg può di¤erire da fX

^t

2 Bg per un insieme di N , ma tale insieme potrebbe non appartenere a F

^t

, quindi la proprietà fX

^t

2 Bg 2 F

^t

può non implicare fY

^t

2 Bg 2 F

^t

. Invece, vale:

Osservazione 4 Se (F

^t

)

_t2T

è completa, X è adattato ed Y è una modi…cazione di X,

allora Y è adattato.

(17)

Una …ltrazione (F

^t

)

_t2T

si dice continua a destra se per ogni t 2 T F

^t

= \

">0

F

^t+"

:

Questa condizione interviene ogni tanto nei teoremi successivi, e la completezza ancora di più, per cui spesso per uni…care gli enunciati di una teoria si assume sin dall’inizio che la …ltrazione di riferimento della teoria sia completa a continua a destra. Diremo che una …ltrazione soddisfa le condizioni abituali se è completa e continua a destra.

Si ricordi che l’intersezione (arbitraria) di -algebre è una -algebra, quindi \

">0

F

^t+"

è sempre una -algebra. Invece l’unione no; indicheremo col simbolo F _G la più piccola -algebra che contiene F [ G; per cui scriveremo ad esempio _

t 0

F

^t

per la più piccola -algebra che contiene ogni F

^t

, denotata con F

1

.

Dato un processo stocastico X, ad esso è associata la …ltrazione generata da X de…nita da

F

t⁰⁰

= fX

^s

; s 2 T; s t g

A livello interpretativo, gli eventi di F

t⁰⁰

sono gli eventi conoscibili al tempo t se osserviamo il processo X. La notazione F

t⁰⁰

non è universale ed è usata qui solo per distinguere questa …ltrazione dalle seguenti.

Essendo comodo che la …ltrazione di riferimento sia completa, si introduce la …l- trazione (F

t⁰

)

_t2T

de…nita da F

t⁰

= fF

t⁰⁰

[ N g. La …ltrazione (F

t⁰

)

_t2T

è il completa- mento della …ltrazione (F

t⁰⁰

)

_t2T

(naturalmente questo procedimento si può applicare a qualsiasi …ltrazione).

Volendo richiedere che la …ltrazione sia anche continua a destra, poniamo F

^t

= \

">0

F

t+"⁰

:

Osservazione 5 Questa …ltrazione è continua a destra: F

^t

= \

">0

F

^t+"

. Infatti, F

t⁰

F

^t

(per ogni t 2 T ) per monotonia di (F

t⁰

)

_t2T

e de…nizione di F

^t

, quindi \

">0

F

t+"⁰

\

">0

F

^t+"

, per cui F

^t

\

">0

F

^t+"

per de…nizione di F

^t

. Viceversa, F

^t+"

F

t+2"⁰

per ogni t 2 T ed " > 0, per de…nizione di F

^t

, quindi \

">0

F

^t+"

\

">0

F

t+2"⁰

= F

^t

.

La …ltrazione così costruita è la più piccola che soddis… le condizioni abituali e

rispetto a cui il processo sia adattato.

(18)

1.3 Speranza condizionale e probabilità condizionale

1.3.1 Speranza condizionale

Teorema 2 Data una v.a. X a valori reali, integrabile su ( ; F; P ) ed una -algebra G F, esiste una v.a. G-misurabile X

⁰

tale che

Z

B

XdP = Z

B

X

⁰

dP per ogni B 2 G. Inoltre è unica a meno di P -equivalenze.

La dimostrazione dell’esistenza si basa sul teorema di Radon-Nikodym, l’unicità su un semplice argomento prendendo l’evento B = fX

⁰

> X

⁰⁰

g, se X

⁰

; X

⁰⁰

soddisfano le stesse condizioni.

De…nizione 5 Sia X una v.a. integrabile su ( ; F; P ) e sia G una -algebra, G F. Chiamiamo speranza condizionale di X rispetto a G ogni variabile aleatoria G- misurabile X

⁰

tale che Z

B

XdP = Z

B

X

⁰

dP

per ogni B 2 G. Chiameremo con lo stesso nome anche la classe di P -equivalenza di tali variabili. La speranza condizionale di X rispetto a G viene indicata con E [XjG].

Quando scriveremo uguaglianze tra diverse speranze condizonali o tra una speranza condizionale ed una v.a., si intenderà sempre l’uguaglianza come classi di equivalenza, o P -q.c.

L’intuizione è che, avendo a disposizione il grado di informazione fornito da G, la nostra attesa circa il valore di X è più precisa della semplice E [X] (attesa incon- dizionata), dipende da ciò che si avvera nei limiti della …nezza di G, quindi è una v.a.

G-misurabile. Inoltre, se B è un atomo di G con P (B) > 0, per cui X

⁰

deve essere costante su B, l’identità della de…nizione dice che

X

⁰

j

^B

= 1 P (B)

Z

B

XdP

cioè X

⁰

è una sorta di media locale di X; per un B generale l’identità stabilisce una generalizzazione di tale proprietà. Si risolva il seguente esercizio, per aiutare ulteriormente l’intuizione.

Esercizio 7 Sia G generata da una partizione misurabile fB

¹

; :::; B

_n

g. Allora E [XjG] = P

n

i=1 1 P (Bi)

R

Bi

XdP 1

_B_i

. In altre parole, E [XjG] è costante su ciascun B

ⁱ

e lì vale la media di X su B

i

,

_{P (B}¹

i)

R

Bi

XdP .

(19)

Proof. La v.a. X

⁰

= P

n i=1

1 P (Bi)

R

Bi

XdP 1

_B_i

è G-misurabile. Prendiamo Y = 1

^B1

. Vale

E [XY ] = Z

B1

XdP

E [X

⁰

Y ] = X

n

i=1

1 P (B

_i

)

Z

Bi

XdP E [1

_B_i

1

_B₁

]

= X

n

i=1

1 P (B

i

)

Z

Bi

XdP

_i1

P (B

₁

) = Z

B1

XdP e quindi sono uguali.

Osservazione 6 La de…nizione data sopra equivale a chiedere che X

⁰

sia G-misurabile e valga

E [XY ] = E [X

⁰

Y ]

per ogni v.a. Y limitata G-misurabile. Un’implicazione è ovvia (prendendo Y della forma 1

B

con B 2 G). Per l’altra, dalla de…nizione, che si riscrive E [X1

^B

] = E [X

⁰

1

_B

], discende che E [XY ] = E [X

⁰

Y ] per Y della forma Y = P

y

_i

1

_B_i

, y

i

2 R, B

ⁱ

2 G. Con variabili di quel tipo possiamo approssimare dal basso puntualmente ogni Y limitata G-misurabile e passare al limite per convergenza monotona.

Proposizione 10 Siano X, Y , fX

ⁿ

g integrabili, G una sotto -algebra di F. Valgono le seguenti a¤ermazioni:

i) Se G

⁰

G F allora E [E [XjG] jG

⁰

] = E [X jG

⁰

]; in particolare ( G

⁰

= f?; g), E [E [X jG]] = E [X]

ii) Se X è G-misurabile ed XY è integrabile, allora E [XY jG] = XE [Y jG]

iii) Se X è indipendente da G allora E [XjG] = E [X]

iv) E [aX + bY + cjG] = aE [XjG] + bE [Y jG] + c

v) Se fX

ⁿ

g è una successione di v.a. monotona non decrescente, con X = lim

n!1

X

_n

integrabile, allora E [X

n

jG] ! E [XjG] q.c.

La veri…ca di queste proprietà è un utile esercizio; rimandiamo comunque ai corsi di base di Probabilità. Utile tecnicamente è la seguente generalizzazione delle proprietà (ii)-(iii). Si noti che ' è G

⁰

-misurabile nel suo secondo argomento, X è G-misurabile, e G, G

⁰

sono -algebre indipendenti.

Proposizione 11 Dato uno spazio probabilizzato ( ; F; P ) ed uno spazio misurabile (E; E), siano G F e G

⁰

F due -algebre indipendenti. Sia ' : (E ; E G

⁰

) ! (R; B (R)) misurabile limitata e sia X : ( ; G) ! (E; E) misurabile. Allora

E [' (X; ) jG] = (X) dove è de…nita da

(x) := E [' (x; )] ; x 2 E:

(20)

Proof. Supponiamo ' a variabili separate, ' (x; !) = '

₁

(x) '

₂

(!), con '

₁

: (E; E) ! (R; B (R)), '

2

: ( ; G

⁰

) ! (R; B (R)) misurabili limitate. Allora

E [' (X; ) jG] = E ['

1

(X) '

₂

( ) jG] = '

1

(X) E ['

₂

( )]

(X) = E [' (x; )]

_x=X

= E ['

₁

(x) '

₂

( )]

_x=X

= '

₁

(X) E ['

₂

( )]

quindi la formula è veri…cata. Per linearità, vale per combinazioni lineari di funzioni ' della forma ' (x; !) = '

₁

(x) '

₂

(!). Si passa al caso generale per convergenza monotona, usando la stabilità della speranza condizionale rispetto a tale convergenza.

Apparentemente potrebbe sembrare che, rimuovendo l’ipotesi che G

⁰

sia indipendente da G, ovvero prendendo una qualsiasi funzione ' : (E ; E F) ! (R; B (R)) misurabile limitata, valga l’identità

E [' (X; ) jG] = E [' (x; ) jG] j

^x=X

di cui quella della proposizione è un caso particolare. Qui però si pone un problema di versioni: per ogni x la speranza condizionale E [' (x; ) jG] è de…nita a meno di insiemi di misura nulla e quindi la sostituzione E [' (x; ) jG] j

^x=X

non ha un senso ovvio.

Tra i risultati rilevanti citiamo anche il seguente. Se X è di quadrato integrabile, E [XjG] è la proiezione ortogonale di X sul sottospazio chiuso L

²

( ; G; P ) di L

²

( ; F; P ) (funzioni di quadrato integrabile misurabili rispetto a G e F rispettivamente).

1.3.2 Probabilità condizionale

Sia ( ; F; P ) uno spazio probabilizzato. Dati due eventi A; B 2 F con P (B) > 0, chiamiamo probabilità condizionale di A sapendo B il numero

P (A jB) := P (A \ B) P (B) :

Data una partizione misurabile fB

¹

; :::; B

_n

g di , possiamo de…nire in numeri P (A jB

ⁱ

) per tutti gli i = 1; :::; n tali che P (B

i

) > 0. Potremmo dire che la famiglia di numeri fP (AjB

ⁱ

) g è la probabilità di A condizionata alla partizione fB

¹

; :::; B

n

g. In analogia col caso della speranza condizionale, potremmo codi…care questa informazione nella funzione

X

n i=1

P (A jB

ⁱ

) 1

_B_i

(se per un certo i vale P (B

i

) = 0, la funzione 1

Bi

è equivalente a quella nulla e quindi possiamo de…nire P (AjB

ⁱ

) arbitrariamente). C’è quindi una funzione G-misurabile, P (A jG) := P

n

i=1

P (A jB

ⁱ

) 1

_B_i

, che racchiude le informazioni utili circa la probabilità

(21)

condizionale di A rispetto ai vari elementi della partizione fB

¹

; :::; B

n

g e quindi delle informazioni contenute nella -algebra G.

Tra l’altro, si noti che, sempre nel caso particolare di G generata da fB

¹

; :::; B

_n

g, vale

E [1

_A

jG] = P (AjG) in quanto R

Bi

1

_A

dP = P (A \ B

ⁱ

). Inoltre,

P (A) = E [P (A jG)]

o più in generale

P (A \ B) = Z

B

P (A jG) dP

per ogni B 2 G (si veri…chino queste due identità). Queste ultime formule sono una riscrittura compatta dell’utilissima formula di fattorizzazione (o delle probabilità totali)

P (A) = X

n

i=1

P (A jB

ⁱ

) P (B

_i

)

e sua generalizazione a P (A \ B).

Possiamo estendere queste de…nizioni e proprietà al caso di una -algebra G F più generale, raggiungendo due livelli di generalizzazione.

Innanzi tutto, data G F qualsiasi, poniamo P (A jG) := E [1

^A

jG]

detta probabilità condizionale di A rispetto alla -algebra G. Quindi P (AjG), de…nita a meno di P -equivalenza (o come classe di equivalenza), è una v.a. G-misurabile tale

che Z

B

P (A jG) dP = Z

B

1

_A

dP = P (A \ B)

per ogni B 2 G. Questa identità, data ora per de…nizione, è una versione generalizzata della formula di fattorizzazione. La probabilità condizionale di A rispetto ad una - algebra G è de…nita tramite la formula di fattorizzazione; o in altre parole, è quella v.a. che fa funzionare la formula di fattorizzazione anche nel caso non …nito (cioè di una -algebra generale invece che generata da una partizione …nita). Questo è il primo livello.

C’è poi un secondo livello, più complesso. Nasce dalla seguente domanda natu-

rale. Per ogni A 2 F, P (AjG) è una classe di equivalenza, o comunque è de…nita a

meno di insiemi trascurabili. Non ha senso …ssare ! 2 e considerare la funzione

A 7 ! P (AjG) (!). Possiamo scegliere un rappresentante ^ P (A jG) da ciascuna classe

di equivalenza in modo che la funzione d’insieme A 7 ! ^ P (A jG) (!) sia una misura di

(22)

probabilità? Se prendiamo degli insiemi disgiunti A

1

; A

2

; ::: 2 F, nel senso delle classi di equivalenza (oppure quasi certamente per ogni scelta di rappresentanti) vale

P [

i

A

i

jG

!

= X

i

P (A

i

jG) :

Ma non possiamo sperare che valga per ^ P ( jG) (!), con ! …ssato, senza operare una scelta molto oculata e non banale dei rappresentanti.

De…nizione 6 Dati ( ; F; P ) e G F, chiamiamo versione regolare della probabilità condizionale rispetto a G una funzione (A; !) 7 ! P

G

(A; !), de…nita su F , con le seguenti proprietà:

i) per P -q.o. !, la funzione d’insieme A 7 ! P

G

(A; !) è una misura di probabilità su ( ; F)

ii) per ogni A 2 F, la funzione ! 7 ! P

G

(A; !) è misurabile ed appartiene alla classe di equivalenza P (AjG).

Vale il seguente teorema non banale:

Teorema 3 Se ( ; d) è uno spazio metrico completo e separabile (spazio polacco) ed F = B ( ), esiste sempre versione regolare della probabilità condizionale rispetto ad ogni G B ( ).

Per la versione regolare valgono, come sopra, P

_G

(A; ) = E [1

A

jG]

Z

B

P

_G

(A; ) dP = P (A \ B)

per ogni A 2 F, B 2 G. In più però, possiamo de…nire integrali del tipo Z

X (!

⁰

) P

_G

(d!

⁰

; !)

con ! …ssato ed X ad esempio limitata misurabile. Si può allora dimostrare che vale Z

X (!

⁰

) P

_G

(d!

⁰

; ) = E [X jG]

(nel senso che l’integrale a sinistra è un elemento della classe di equivalenza a destra).

Questo inverte il procedimento visto sopra: a livello uno si può de…nire la probabil-

ità condizionale a partire dalla speranza condizionale; a livello due si può de…nire la

speranza condizionale a partire da una versione regolare della probabilità condizionale.