Introduzione ai Processi Stocastici
1.1 Prime de…nizioni
1.1.1 Processi stocastici
Ricordiamo che uno spazio di probabilità è una terna ( ; F; P ) dove è un insieme, F è una -algebra di parti di , P è una misura di probabilità su ( ; F); la coppia ( ; F) è chiamata spazio misurabile. In uno spazio topologico E indicheremo con B (E) la -algebra dei boreliani (la più piccola -algebra che contiene gli aperti). Una variabile aleatoria Y su ( ; F) a valori in uno spazio misurabile (E; E) è una funzione Y : ! E misurabile da ( ; F) in (E; E), cioè tale che f! 2 : Y (!) 2 Bg 2 F per ogni B 2 E.
Una variabile aleatoria reale Y su ( ; F) è una variabile aleatoria su ( ; F) a valori in (R; B (R)).
Sia T un insieme non vuoto. L’insieme T sarà l’insieme dei parametri del processo stocastico. A livello interpretativo, può essere ad esempio un insieme di tempi, oppure di posizioni spaziali o di spazio-tempo. In alcuni momenti sarà necessario supporre di avere uno spazio misurabile (T; T ) ed in altri uno spazio topologico T , con T = B (T );
altrimenti T è del tutto arbitrario. Tutto ciò …no al momento in cui introdurremo le
…ltrazioni; con l’introduzione del concetto di …ltrazione, restringeremo l’attenzione al caso in sia T [0; 1), T = B (T ) ed interpreteremo T come insieme dei tempi. Tutti gli sviluppi avanzati del corso riguarderanno il caso T = [0; 1) (o T = [0; t
0]) per cui avrebbe senso restringersi …n da ora a quel caso. Però può essere concettualmente interessante osservare che questi primi paragra… hanno carattere più generale, per cui per ora supporremo solo che T sia un insieme, non vuoto.
Siano dati, oltre a T , uno spazio di probabilità ( ; F; P ) ed uno spazio misurabile (E; E) (detto spazio degli stati). Un processo stocastico X = (X
t)
t2T, de…nito su ( ; F; P ) a valori in (E; E) è una funzione X de…nita su T a valori in E, tale che per ogni t 2 T la funzione ! 7 ! X
t(!) sia misurabile da ( ; F) in (E; E). Ne segue
1
che, dati t
1< ::: < t
n2 T , la funzione
! 7 ! (X
t1(!) ; :::; X
tn(!))
è misurabile da ( ; F) in (E
n;
nE). Le leggi di probabilità di questi vettori (leggi immagine di P rispetto a queste applicazioni) si chiamano distribuzioni di dimensione
…nita del processo.
Le funzioni t 7 ! X
t(!) da T in E (ad ! …ssato) si dicono realizzazioni o traiettorie del processo stocastico. Il termine traiettoria va forse riservato al caso in cui sia T [0; 1).
Due processi stocastici X = (X
t)
t2Te Y = (Y
t)
t2Tsi dicono equivalenti se hanno le stesse distribuzioni di dimensione …nita. Si dicono modi…cazione (o versione) uno dell’altro se per ogni t 2 T vale
P (X
t= Y
t) = 1:
Si dicono indistinguibili se
P (X
t= Y
tper ogni t 2 T ) = 1:
Due processi indistinguibili sono modi…cazione uno dell’altro. Due processi che sono modi…cazione uno dell’altro sono equivalenti. Si veda l’esercizio 1. Si noti che, a di¤erenza delle altre due, la de…nizione di processi equivalenti non richiede che essi siano de…niti sullo stesso spazio ( ; F; P ).
Supponiamo che T ed E siano spazi topologici e siano T = B (T ), E = B (E).
Un processo si dice continuo se le sue realizzazioni sono funzioni continue; si dice q.c.
continuo se ciò avviene per P -quasi ogni realizzazione.
Quando T [0; 1), le de…nizioni di continuo a destra e/o a sinistra, costante a tratti ed altre della stessa natura sono simili. Un processo si dice càdlàg (continue à droite, limite à gauche) se le sue traiettorie sono continue a destra ed hanno limite
…nito a sinistra.
Se (T; T ) è uno spazio misurabile, possiamo dare la seguente de…nizione. Un proces- so si dice misurabile se l’applicazione (t; !) 7 ! X
t(!) è misurabile da (T ; T F) in (E; E).
Elenchiamo anche alcune nozioni che si usano soprattutto nella cosiddetta teoria della correlazione dei processi stazionari, per noi marginale ma toccata almeno nel caso dei processi gaussiani. Supponiamo che sia (E; E) = (R; B (R)). Indichiamo con E [ ] la speranza matematica su ( ; F; P ) (E [Y ] = R
Y dP , per ogni Y v.a. reale ( ; F; P ) in- tegrabile), con V ar [ ] la varianza (V ar [Y ] = E (Y E [Y ])
2quando Y è di quadrato integrabile), con Cov ( ; ) la covarianza (Cov (Y; Z) = E [(Y E [Y ]) (Z E [Z])] se Y e Z sono v.a. di quadrato integrabile). Sia X un processo stocastico a valori in (R; B (R)), su ( ; F; P ). Se E [jX
tj] < 1 per ogni t 2 T , chiamiamo m (t) = E [X
t], t 2 T , funzione valor medio del processo X. Se E [X
t2] < 1 per ogni t 2 T , chiamiamo
2
(t) = V ar [X
t] , t 2 T , funzione varianza di X e chiamiamo C (t; s) = Cov (X
t; X
s),
t; s 2 T , funzione covarianza di X.
Esercizio 1 Costruire due processi equivalenti che non siano modi…cazione uno del- l’altro e due processi modi…cazione uno dell’altro che non siano indistinguibili.
1.1.2 Legge di un processo
Sia E
Tlo spazio di tutte le funzioni f : T ! E. Indichiamo con S l’insieme di tutte le n-ple ordinate = (t
1; :::; t
n) di elementi di T tali che t
i6= t
jper ogni i 6= j, i; j = 1; :::; n . Indichiamo con E
nla -algebra prodotto di n copie di E.
Presa = (t
1; :::; t
n) 2 S e preso B 2 E
nconsideriamo l’insieme C ( ; B) E
Tdi tutte le funzioni f : T ! E tali che
(f (t
1) ; :::; f (t
n)) 2 B:
Lo chiameremo insieme cilindrico (con base B e coordinate t
1; :::; t
n). Sia A la famiglia di tutti gli insiemi cilindrici C ( ; B), con n 2 N, = (t
1; :::; t
n) 2 S e B 2 E
n. La famiglia A è un’algebra di parti di E
T: contiene E
T; il complementare di un insieme della forma f(f (t
1) ; :::; f (t
n)) 2 Bg è l’insieme cilindrico f(f (t
1) ; :::; f (t
n)) 2 B
cg; è chiusa per intersezione …nita. Quest’ultima proprietà è noiosa da scrivere in gen- erale ma è ovvia se si pensa ad esempio al caso particolare dei due insiemi cilindrici ff (t
1) 2 B
1g, ff (t
2) 2 B
2g, con = (t
1; t
2), B
1; B
22 E, la cui intersezione è l’insieme f(f (t
1) ; f (t
2)) 2 B
1B
2g che appartiene ad A.
Sia E
Tla più piccola -algebra di parti di E
Tche contiene gli insiemi cilindrici.
Dato un processo stocastico X = (X
t)
t2Tde…nito su uno spazio di probabilità ( ; F; P ) a valori in uno spazio misurabile (E; E) consideriamo l’applicazione
! 7 ! X (!)
da ( ; F) in E
T; E
T. Essa è misurabile. Infatti, preso un insieme cilindrico C ( ; B),
= (t
1; :::; t
n) 2 S, B 2 E
n, la sua controimmagine è l’insieme f(X
t1; :::; X
tn) 2 Bg
e questo insieme sappiamo essere misurabile, un elemento di F. Rammentiamo che per veri…care la misurabilità di un’applicazione basta farlo su una famiglia generante la -algebra in arrivo (in simboli generali, se X : ( ; F) ! (E; E) soddisfa X
1(B) 2 F per ogni B 2 G, dove G E ed E = (G), allora X è misurabile; infatti, si prenda la famiglia H P (E) degli insiemi B E tali che X
1(B) 2 F; si veri…ca che H è una
-algebra e contiene G, quindi contiene (G)).
Possiamo quindi considerare la legge dell’applicazione (misura immagine di P attraverso ). Si chiamerà legge del processo. E’una misura di probabilità su E
T; E
T. Indichiamola col simbolo P
X. Vale
P
X(C ( ; B)) = P ((X
t1; :::; X
tn) 2 B)
per ogni = (t
1; :::; t
n) 2 S e B 2 E
n.
Proposizione 1 Due processi X ed X
0, de…niti rispettivamente su ( ; F; P ) e (
0; F
0; P
0) a valori in (E; E), sono equivalenti se e solo se hanno la stessa legge su E
T; E
T. Proof. Se hanno la stessa legge allora, presi = (t
1; :::; t
n) 2 S e B 2 E
n, vale
P ((X
t1; :::; X
tn) 2 B) = P
X(C ( ; B)) = P
X00(C ( ; B))
= P
0X
t01
; :::; X
t0n2 B quindi hanno le stesse distribuzioni di dimensione …nita.
Viceversa, se hanno le stesse distribuzioni di dimensione …nita, vale P
X(C ( ; B)) = P ((X
t1; :::; X
tn) 2 B) = P
0X
t01; :::; X
t0n2 B
= P
X0 0(C ( ; B))
quindi le misure di probabilità P
Xe P
X0 0, misure su E
T; E
T, coincidono sugli insiemi cilindrici. La famiglia A di tali insiemi genera E
Ted è chiusa per intersezione …nita e quindi, per un noto teorema di Caratheodory, le due misure coincidono su tutta E
T. La dimostrazione è completa.
1.1.3 Legge nello spazio delle funzioni continue
Esaminiamo adesso un problema più delicato. Supponiamo che X sia continuo. Per capire bene il problema senza complicazioni topologiche collaterali, iniziamo discutendo il caso in cui
T = R
+:= [0; 1); E = R
n(1.1)
e le -algebre sono quelle dei boreliani. Indichiamo con C
0l’insieme C (R
+; R
n) delle funzioni continue da R
+in R
n, munito della topologia della convergenza uniforme sui compatti.
L’insieme ( ) non è solo un sottoinsieme di E
R+ma anche di C
0. E’naturale pen- sare che de…nisca una misura immagine su (C
0; B (C
0)). Purtroppo si può dimostrare che C
02 B (E) =
R+(omettiamo la dimostrazione) e questo non permette facilmente di
“restringere” la legge del processo, precedentemente de…nita su E
R+; B (E)
R+, ad una legge su (C
0; B (C
0)) (in realtà anche questa strada è percorribile con opportune considerazioni basate sulla misura esterna, applicabili dopo aver veri…cato che la misura esterna dell’insieme non misurabile C
0è pari ad 1).
Per aggirare questo ostacolo basta dimostrare il risultato seguente.
Proposizione 2 Se X = (X
t)
t 0è un processo continuo a valori reali, allora è
misurabile da ( ; F) in (C
0; B (C
0)). Possiamo quindi considerare la misura immagine
di P attraverso , su (C
0; B (C
0)), che chiameremo legge del processo X su (C
0; B (C
0)).
Proof. La -algebra B (C
0) è generata dagli insiemi della forma B (f
0; n; R) = f 2 C
0: max
t2[0;n]
jf (t) f
0(t) j R
al variare di f
02 C
0, n 2 N, R > 0. Sia ft
jg R
+una successione che conta i razionali non negativi. Indichiamo con n
t
(n)jo
la sotto-successione composta dai t
jche appartengono a [0; n]; n
t
(n)jo
è densa in [0; n]. Vale B (f
0; n; R) = n
f 2 C
0: f t
(n)jf
0t
(n)jR; 8 j 2 N o : Poniamo inoltre
B (f
0; n; N; R) = n
f 2 C
0: f t
(n)jf
0t
(n)jR; 8 j N o
per ciascun N 2 N. La controimmagine di B (f
0; n; N; R) attraverso è l’insieme n
! 2 : X
t(n) j(!) f
0t
(n)jR; 8 j N o
che appartiene ad F (è anche la controimmagine di un insieme cilindrico). Vale inoltre B (f
0; n; R) = \
N 2N
B (f
0; n; N; R) :
La controimmagine di questo insieme è intersezione numerabile di elementi di F, quindi è elemento di F. Siccome questi insiemi, come detto sopra, generano B (C
0), è misurabile tra le -algebre indicate. La dimostrazione è completa.
Osservazione 1 Con ragionamenti non molto diversi si dimostra che due proces- si continui con le stesse distribuzioni di dimensione …nita, hanno la stessa legge su (C
0; B (C
0)).
Se un processo X è solamente q.c. continuo, de…nisce ugualmente una misura di probabilità su (C
0; B (C
0)) del tutto analoga al caso precedente, che continueremo a chiamare misura immagine di P attraverso su (C
0; B (C
0)). Infatti, esiste un insieme
0
2 F di P -misura 1 tale che (
0) C
0. Consideriamo lo spazio probabilizzato (
0; F
0; P
0) dove F
0= F \
0e P
0è la restrizione di P ad F
0. Ora :
0! C
0è ben de…nita e induce una misura di probabilità su (C
0; B (C
0)). Si veri…ca facilmente che essa non dipende dalla scelta di
0con le proprietà precedenti.
Le considerazioni illustrate sopra si estendono a varie situazioni più generali. Una
molto simile è quella in cui T è uno spazio metrico, unione numerabile di compatti
(spazio metrico -compatto) ed E è uno spazio metrico separabile.
1.2 Teorema di estensione di Kolmogorov
Abbiamo visto che, dato un processo X = (X
t)
t2T, questo de…nisce una misura di probabilità su E
T; E
T. Quando vale il viceversa, cioè per quali misure di probabilità su E
T; E
Tesiste un processo che ha come legge? Per tutte: basta prendere il processo canonico, = E
T, F = E
T, X
t(!) = ! (t). Meno banale è il problema di inversione che ora descriveremo.
Data una misura di probabilità su E
T; E
T, de…niamo le sue distribuzioni di dimensione …nita nel seguente modo. Presa = (t
1; :::; t
n) 2 S, indichiamo con : E
T! E
nl’applicazione (f ) = (f (t
1) ; :::; f (t
n)) . E’misurabile, rispetto a E
Te E
n(preso B 2 E
nla sua controimmagine è l’insieme cilindrico f 2 E
T: (f (t
1) ; :::; f (t
n)) 2 B , che appartiene ad E
T): La distribuzione di dimensione n di relativa a è la legge immagine di attraverso :
(B) = f 2 E
T: (f (t
1) ; :::; f (t
n)) 2 B ; B 2 E
n:
Se = P
X, essa è la legge del vettore aleatorio (X
t1; :::; X
tn) e f ; 2 Sg è la famiglia delle distribuzione di dimensione …nita del processo X.
Il problema di inversione è il seguente: data una famiglia di misure di probabilità f ; 2 Sg (si sottintende che se = (t
1; :::; t
n) 2 S, allora è una misura di proba- bilità su (E
n; E
n)), esiste una misura di probabilità su E
T; E
Tdi cui f ; 2 Sg sia la famiglia delle distribuzioni di dimensione …nita? Siccome l’esistenza di un processo con legge è ovvia, il problema è equivalente a: data una famiglia di misure di prob- abilità f ; 2 Sg, esiste uno spazio probabilizzato ( ; F; P ) ed un processo X su ( ; F; P ) che abbia f ; 2 Sg come famiglia delle distribuzioni di dimensione …nita?
Osservazione 2 Alla base dei seguenti ragionamenti c’è il fatto che un insieme cilin- drico non ha una sola rappresentazione. Ad esempio, dati t
1; :::; t
n; t
n+12 T , B 2 E
n, vale
f 2 E
T: (f (t
1) ; :::; f (t
n)) 2 B = f 2 E
T: (f (t
1) ; :::; f (t
n) ; f (t
n+1)) 2 B E oppure, dati t
1; t
22 T , B
1; B
22 E, vale
f 2 E
T: (f (t
1) ; f (t
2)) 2 B
1B
2= f 2 E
T: (f (t
2) ; f (t
1)) 2 B
2B
1: Servono due ingredienti: una proprietà di compatibilità tra le ed un po’ di regolarità dello spazio (E; E). La proprietà di compatibilità tra le si intuisce facil- mente a posteriori, quando esse sono le distribuzioni di dimensione …nita di . Si tratta di due condizioni, che a parole potremmo chiamare “invarianza sotto permu- tazioni degli indici” e “invarianza sotto contrazioni degli indici”. Vediamo la prima.
Se = (t
1; :::; t
n) 2 S e se (i
1; :::; i
n) è una permutazione di (1; :::; n), indicata con
P
(i1;:::;in): E
n! E
nl’applicazione che manda la generica sequenza (x
1; :::; x
n) nella (x
i1; :::; x
in), deve valere (per le distribuzioni di dimensione …nita di un processo)
(t1;:::;tn)
(B) = (
ti1;:::;tin) P
(i1;:::;in)(B) : (1.2) Vediamo ora la seconda. Data = (t
1; :::; t
n) 2 S, indichiamo con
nbla sequen- za
nb= (t
1; :::; t
n 1) (la sequenza ottenuta omettendo t
ndalla ), le misure e
b
n
sono legate dalla proiezione
nb: E
n! E
n 1che manda una generica sequenza (x
1; :::; x
n) 2 E
nnella sequenza (x
1; :::; x
n 1) 2 E
n 1(la sequenza ottenuta omettendo l’ultima componente di (x
1; :::; x
n)). Vale
b
n
=
nb( ) (1.3)
nel senso che
nbè la legge immagine di attraverso
nb, ovvero esplicitamente
b
n
(B) = (
bn2 B) per ogni B 2 E
n 1.
Si può veri…care facilmente che è equivalente richiedere queste condizioni per insiemi B di tipo rettangolare, rispetto a cui esse si scrivono più agevolmente. Possiamo richiedere che
(t1;:::;tn)
(B
1B
n) = (
ti1;:::;tin) (B
i1B
in)
(t1;:::;tn)
(B
1E) =
(t1;:::;tn 1)(B
1B
n 1) per ogni n 2 N, (t
1; :::; t
n) 2 S, B
1; :::; B
n2 E.
De…nizione 1 Sia f ; 2 Sg una famiglia di misure di probabilità (sempre sottin- tendendo che se = ft
1; :::; t
ng 2 S, sia una misura di probabilità su (E
n; E
n)).
Quando valgono (1.2)-(1.3) per ogni scelta di n 2 N, = (t
1; :::; t
n) 2 S, i = 1; :::; n, diciamo che la famiglia f ; 2 Sg è consistente.
Ricordiamo che uno spazio metrico E si dice -compatto se è unione numerabile di compatti di E. Un risultato di teoria della misura dice che su uno spazio metrico E si dice -compatto, se è una misura di probabilità de…nita sui boreliani B (E), allora per ogni B 2 B (E) ed " > 0 esiste un compatto K B tale che (B nK) < ".
Useremo questo risultato nella dimostrazione del seguente teorema.
Teorema 1 Se f ; 2 Sg è una famiglia consistente, E è uno spazio metrico - compatto, E = B (E), allora esiste una ed una sola misura di probabilità su E
T; E
Tdi cui f ; 2 Sg sia la famiglia delle distribuzioni di dimensione …nita.
Proof. Passo 1 (preparazione). L’unicità è del tutto analoga a quella della Propo-
sizione 1: due misure con le stesse distribuzioni di dimensione …nita coincidono su una
classe chiusa per intersezione …nita e generante la -algebra E
T, quindi coincidono su
tutta E
T.
Per l’esistenza, ricordiamo il seguente teorema di Charateodory: dato uno spazio misurabile ( ; G) ed un’algebra A che genera G, se è una misura …nitamente addi- tiva su ( ; A), continua in ? (cioè tale che, se fA
ng è una successione di eventi di A decrescente con intersezione vuota allora lim
n!1(A
n) = 0), allora si estende univocamente ad una misura numerabilmente additiva su ( ; G).
Prendiamo l’algebra A di tutti gli insiemi cilindrici C ( ; B), con n 2 N, = ft
1; :::; t
ng 2 S e B 2 E
n. L’algebra A genera E
T. Basta de…nire una misura su A con le proprietà del teorema di Charateodory ed avente f ; 2 Sg come famiglia delle distribuzioni di dimensione …nita, ed il teorema è dimostrato.
Preso un insieme cilindrico C 2 A, esistono in…nite sue rappresentazioni nella forma C = C ( ; B) con = (t
1; :::; t
n) e B 2 E
n. Presa una di tali rappresentazioni, possiamo calcolare (B) e porre
(C) = (B) :
Ma la de…nizione è ben data solo se non dipende dalla rappresentazione di C. Qui interviene l’ipotesi di consistenza della famiglia. Se C (
0; B
0) e C (
00; B
00) sono due rappresentazioni dello stesso insieme cilindrico C, abbiamo
0(B
0) =
00(B
00). La dimostrazione è elementare ma un po’ laboriosa da scrivere, per cui la isoliamo nel Lemma 1.
La veri…ca che , così de…nita, è …nitamente additiva su A, si esegue nel seguente modo: presi degli insiemi disgiunti C
1; :::; C
k2 A, c’è una sequenza = (t
1; :::; t
n) tale che tutti gli insiemi C
ipossono essere rappresentati tramite , cioè esistono B
1; :::; B
k2 E
n, oltretutto disgiunti, tali che C
j= C ( ; B
j), j = 1; :::; k. Vale
[
k j=1C
j= C ; [
k j=1B
j!
per cui
[
k j=1C
j!
=
[
k j=1B
j!
= X
kj=1
(B
j) = X
kj=1
(C
j)
dove il passaggio intermedio si basa sull’additività di su E
n. L’additività su A si riconduce cioè a quella di un’opportuna distribuzione di dimensione …nita.
Passo 2 (continuità della misura). Dobbiamo in…ne dimostrare la continuità in ?.
Sia fC
ng è una successione di eventi di A decrescente con intersezione vuota. Dobbiamo dimostrare che lim
n!1(C
n) = 0.
Facciamo una piccola digressione che può aiutare a capire la dimostrazione. Ci sono
alcune famiglie di successioni fC
ng per cui la dimostrazione è facile. Gli esercizi 2 e
3 illustrano esempi in cui ci si può ricondurre ad usare una singola distribuzione di
dimensione …nita, un po’come nella veri…ca fatta sopra dell’additività. In questi casi,
la dimostrazione che lim
n!1(C
n) = 0 è facile. Se ci si potesse restringere ad insiemi
cilindrici come quelli descritti agli esercizi 2 e 3, non ci sarebbe bisogno dell’ipotesi di
regolarità dello spazio E.
Ma le famiglie di insiemi cilindrici descritte da tali esercizi non sono algebre. Tra le successioni di insiemi cilindrici esistono esempi, come quello dell’esercizio 4, in cui non si vede come ricondursi ad usare una singola distribuzione di dimensione …nita.
Facendo però riferimento a concetti topologici, precisamente alla compattezza, c’è un’altra classe in cui la dimostrazione che lim
n!1(C
n) = 0 si riesce a completare facilmente. Supponiamo che la successione fC
ng di eventi di A decrescente con inter- sezione vuota abbia la forma C
n= C (
n; K
n) con K
ninsieme compatto (per inciso, se E non è compatto, questa rappresentazione è unica, quando esiste). Allora gli insiemi K
nnon possono essere tutti diversi dal vuoto. Rimandiamo la veri…ca al Lemma 2.
Ma allora, se per un certo n
0l’insieme K
n0è vuoto, vale (C
n0) = 0, da cui discende (per monotonia) (C
n) = 0 per ogni n n
0e quindi anche lim
n!1(C
n) = 0.
L’idea della dimostrazione allora è la seguente: data una rappresentazione C
n= C (
n; B
n) degli insiemi cilindrici della successione, …ssato " > 0, usando la proprietà di regolarità dello spazio E si può trovare una successione di compatti fK
ng, K
nB
ntali che, detto D
nl’insieme cilindrico di base K
n(invece che B
n) e coordinate
n, insieme che veri…ca D
nC
n, vale
(C
n) (D
n) = (C
nnD
n) ":
Se riusciamo a trovare fK
ng in modo che fD
ng sia anche decrescente, allora per il Lemma 2, lim
n!1(D
n) = 0. Questo implica che esiste n
00 tale che per ogni n n
0, (C
n) ". Per l’arbitrarietà di " si ottiene lim
n!1(C
n) = 0.
L’unico punto che richiede un attimo di lavoro è fare in modo che fD
ng sia decres- cente. Sia quindi, …ssato " > 0, fK
10g una successione di compatti, K
n0B
n, tali che
n
(B
nnK
n0) <
2"n(essi esistono per la regolarità di E). Indichiamo con fD
0ng la succes- sione degli insiemi cilindrici di base K
n0e coordinate
n; D
n0C
nin quanto K
n0B
n, ma non sappiamo se fD
n0g è decrescente. Poniamo D
n= D
10\ ::: \ D
n0. Sicuramente fD
ng è una successione di insiemi cilindrici decrescente. Mostriamo che esistono dei compatti K
nB
n, tali che D
nha base K
ne coordinate
n; e (C
nnD
n) ".
Gli insiemi D
nhanno la forma
D
n= f j
12 K
10; :::; f j
n2 K
n0:
Si immagini l’esempio D
2= f j
(t1;t2)2 K
10; f j
(t2;t3)2 K
20. Si può descrivere nella forma
D
2= f j
(t1;t2;t3)2 K
10E; f j
(t1;t2;t3)2 E K
20= f j
(t1;t2;t3)2 K
10E \ E K
20e l’insieme (K
10E) \ (E K
20) è compatto. Il caso generale si scrive con fatica ma è identico. Quindi esiste K
nB
n, tali che D
nha base K
ne coordinate
n.
Vale poi (si osservi che D
0kC
kC
n; si scriva inoltre C
nnD
n= C
n\(D
01\ ::: \ D
n0)
c) C
nnD
n= C
nnD
01[ C
nnD
20[ ::: [ C
nnD
n0C
1nD
01[ C
2nD
02[ ::: [ C
nnD
0nda cui
(C
nnD
n) X
n k=1C
knD
k0X
n k=1"
2
k":
La dimostrazione è completa.
Nella dimostrazione del seguente lemma usiamo la notazione j j per la cardinalità di 2 S. Se = (t
1; :::; t
n) , vale j j = n.
Lemma 1 Se C (
0; B
0) e C (
00; B
00) sono due rappresentazioni dello stesso insieme cilindrico C, abbiamo
0(B
0) =
00(B
00).
Proof. Se vale
0=
00, si può riconoscere che vale anche B
0= B
00. In questo caso la tesi è ovvia. Se
00è ottenuta da
0tramite una permutazione degli indici (i
1; :::; i
n), allora B
00= P
(i1;:::;in)(B
0) e l’invarianza della de…nizione di è garantita dalla proprietà (1.2).
Se, cosiderando
0e
00come insiemi non oridinati, vale
0 00, a meno di permu- tazione delle coordinate risulta B
00è della forma B
0E
j 00j j 0j. Quando j
00j j
0j = 1 basta applicare la proprietà (1.3); quando j
00j j
0j > 1 si agisce in j
00j j
0j passi sempre con la proprietà (1.3).
Se
0e
00, cosiderate come insiemi non oridinati, non sono contenute una nell’altra, si consideri =
0\
00. Esiste B tale che C ( ; B) è una terza rappresentazione; B è la proiezione lungo le coordinate di B
0o di B
00. Per capire che è così, si pensi al caso
0
= (t
1; t
2),
00= (t
2; t
3) (il caso generale è solo notazionalmente più faticoso): vale f 2 E
T: (f (t
1) ; f (t
2)) 2 B
0= f 2 E
T: (f (t
2) ; f (t
3)) 2 B
00ovvero
f(f (t
1) ; f (t
2) ; f (t
3)) 2 B
0E g = f(f (t
1) ; f (t
2) ; f (t
3)) 2 E B
00g :
Questo implica che gli insiemi di E
3dati da B
0E e E B
00coincidono. Questo è compatibile solo con la struttura E B E.
Vale allora C (
0; B
0) = C ( ; B) ma
0, quindi
0(B
0) = (B). Lo stesso si può dire per C (
00; B
00) e quindi
0(B
0) =
00(B
00). La dimostrazione è completa.
Lemma 2 Sia fC
ng A decrescente con intersezione vuota, della forma C
n= C (
n; K
n) con K
ninsieme compatto. Allora gli insiemi K
nnon possono essere tutti diversi dal vuoto.
Esercizio 2 Sia ft
ng T una successione data e sia fC
ng A della forma C
n= ff (t
1) 2 B
1;n; :::; f (t
n) 2 B
n;ng
dove la famiglia a due indici interi positivi fB
k;ng E soddisfa B
k;n+1B
k;nper ogni k; n 2 N. Quindi fC
ng è decrescente. Mostrare in questo caso che, se
fC
ng ha intersezione vuota, allora lim
n!1(C
n) = 0.
Esercizio 3 Sia ft
ng T una successione data e sia fC
ng A decrescente. Supponi- amo che esista k
02 N tale che, per n k
0, f
k0C
ng E sia una successione decres- cente con intersezione vuota. Qui
k0: E
T! E è la proiezione f 7 !
k0(f ) = f (t
k0).
Allora fC
ng ha intersezione vuota e lim
n!1(C
n) = 0.
Esercizio 4 Sia ft
ng T una successione data. Veri…care che gli insiemi C
n= f (t
k 1) < f (t
k) < f (t
k 1) + 1
n ; k = 2; 3; :::; n
non rientrano nei casi trattati dagli esercizi precedenti ma formano una successione decrescente con intersezione vuota.
Esercizio 5 Data una misura di probabilità sui boreliani di uno spazio metrico (X; d), diciamo che essa è tight se per ogni " > 0 esiste un compatto K
"tale che (K
") > 1 ". Mostrare che il teorema di costruzione dei processi di Kolmogorov continua a valere se, invece di supporre che lo spazio metrico E sia -compatto, si sup- pone che sia metrico e che ogni distribuzione di dimensione …nita , 2 S, sia tight.
[Presa 2 S e la corrispondente misura su E
n, esiste un boreliano X
nE
nche è uno spazio metrico -compatto e può essere ristretta ad una misura di probabilità su X
n. Il resto della dimostrazione del teorema di Kolmogorov è inalterata.]
Osservazione 3 Ogni misura di probabilità sui boreliani uno spazio metrico com- pleto e separabile (polacco) è tight. La proprietà di essere polacco passa al prodotto cartesiano …nito. Allora il teorema di Kolmogorov vale se, invece di supporre che lo spazio metrico E sia -compatto, si suppone che sia polacco.
1.2.1 Processi gaussiani
Ricordiamo che la densità gaussiana standard è la funzione f (x) =
p12exp ( x
2=2) e la densità gaussiana N ( ;
2) è la funzione
f (x) = 1
p 2
2exp (x )
22
2! :
Inoltre, un vettore aleatorio Z = (Z
1; :::; Z
n) è gaussiano standard se ha densità congiunta
f (x
1; :::; x
n) = Y
n i=1p 1
2 exp x
2i2 = (2 )
n=2exp x
21+ ::: + x
2n2
(questo equivale a chiedere che le componenti Z
1; :::; Z
nsiano gaussiane standard in-
dipendenti), mentre un vettore Y = (Y
1; :::; Y
m) si dice gaussiano se si può rappre-
sentare nella forma Y = AZ + b con A matrice n m, Z vettore gaussiano standard,
b 2 R
m. Tra le equivalenze con coi si può riscrivere questa de…nizione, ricordiamo la seguente: un vettore Y = (Y
1; :::; Y
m) è gaussiano se e solo se la v.a. P
mi=1 i
Y
iè gaussiana per ogni scelta di (
1; :::;
m) 2 R
m. Segue subito da queste de…nizioni che se Y = (Y
1; :::; Y
m) è un vettore gaussiano, B è una matrice m k e c 2 R
k, allora il vettore aleatorio BY + c è un vettore gaussiano (in R
k).
Ricordiamo inoltre che per matrice di covarianza di un vettore Y = (Y
1; :::; Y
m) si intende la matrice Q 2 R
m mde…nita da
Q
ij= Cov (Y
i; Y
j) ; i; j = 1; :::; m:
E’simmetrica e semi-de…nita positiva. La media (o vettore dei valori medi) è il vettore di coordinate E [Y
i], i = 1; :::; m. Un vettore gaussiano standard Z = (Z
1; :::; Z
n) ha media nulla e covarianza pari all’identità di R
n. Un vettore gaussiano della forma Y = AZ + b come sopra, ha media b e matrice di covarianza Q = AA
T. Più in generale, ricordiamo la seguente proposizione:
Proposizione 3 Se Y = (Y
1; :::; Y
m) è un vettore gaussiano di media
Ye covarianza Q
Y, B è una matrice m k e c 2 R
k, allora il vettore aleatorio BY + c è un vettore gaussiano di media B
Y+ c e covarianza
Q = AQ
YA
T:
Sia Y = (Y
1; :::; Y
m) un vettore gaussiano di media e covarianza Q. Quando det Q 6= 0, Y ha densità di probabilità congiunta (la sua legge è assolutamente continua rispetto alla misura di Lebesgue di R
m), data da
f (x) = 1
p (2 )
ndet Q exp hQ
1(x ) ; (x ) i 2
dove x = (x
1; :::; x
n). Altrimenti, se det Q = 0, la legge di Y è singolare rispetto alla misura di Lebesgue di R
med è concentrata su un sottospazio proprio (precisamente una varietà a¢ ne, di codimensione maggiore di zero).
Chiameremo gaussiana ogni misura di probabilità su (R
n; B (R
n)) che sia legge di una v.a. gaussiana. Equivalentemente, una misura di probabilità su (R
n; B (R
n)) è gaussiana se la sua legge immagine su (R; B (R)) attraverso qualsiasi proiezione uni- dimensionale è una misura con densità gaussiana o una delta di Dirac. Ricordiamo che vale il seguente risultato:
Proposizione 4 Dati un vettore b 2 R
ned una matrice Q 2 R
n nsimmetrica e semi- de…nita positiva, esiste una ed una sola misura gaussiana su (R
n; B (R)
n) che ha b come vettore delle medie e Q come matrice di covarianza.
Fatte queste premesse sui vettori gaussiani, possiamo de…nire ed analizzare i processi
gaussiani. Osserviamo che anche in questo paragrafo l’insieme T è qualsiasi.
De…nizione 2 Un processo a valori reali X = (X
t)
t2Tsi dice gaussiano se tutte le sue marginali di dimensione …nita (X
t1; :::; X
tn) sono vettori gaussiani. Analogamente, una misura di probabilità su R
T; B (R)
Tsi dice gaussiana se tutte le sue distribuzioni di dimensione …nita sono gaussiane.
Un processo reale è quindi gaussiano se e solo se la sua legge su R
T; B (R)
Tè gaussiana.
Se T è un sottoinsieme di uno spazio euclideo, unione numerabile di compatti, dici- amo che una misura su (C (T; E) ; B (C (T; E))) è gaussiana se tutte le sue distribuzioni di dimensione …nita sono gaussiane.
Un processo gaussiano ha la legge caratterizzata da poche funzioni: la funzione valor medio m (t) = E [X
t] , t 2 T e la funzione di covarianza C (t; s) = Cov (X
t; X
s), t; s 2 T .
Proposizione 5 Se due processi gaussiani hanno le stesse funzioni m (t) e C (t; s), allora hanno la stessa legge.
Proof. La legge è identi…cata dalle distribuzioni di dimensione …nita. Le leggi dei due processi sono misure gaussiane, con distribuzioni di dimensione …nita gaussiane. Tali gaussiane, diciamo in R
n, sono univocamente determinate dai loro vettori medi e dalle matrici di covarianza, che però a loro volta hanno come componenti le valutazioni delle funzioni m (t) e C (t; s) in opportuni punti, quindi coincidono.
Ancor più economica è la descrizione nel caso di processi stazionari. Supponiamo che sull’insieme T sia de…nita un’operazione di somma +, cioè t + s 2 T se t; s 2 T . Ad esempio si possono considerare T = R
no T = [0; 1) con l’usuale somma euclidea.
De…nizione 3 Un processo stocastico X = (X
t)
t2Ta valori in (E; E) si dice stazionario in senso stretto se, per ogni = (t
1; :::; t
n) 2 S le leggi di (X
t1; :::; X
tn) e (X
t1+h; :::; X
tn+h) coincidono per ogni h 2 T .
De…nizione 4 Un processo reale X = (X
t)
t2T, con E [X
t2] < 1 per ogni t 2 T , si dice stazionario in senso lato o debole se
m (t + h) = m (t) C (t + h; s + h) = C (t; s) per ogni h; s; t 2 T .
Nel caso di un processo reale, la stazionarietà in senso stretto implica quella in
senso lato, ma non viceversa (non possiamo risalire alle leggi dai momenti di ordine
uno e due).
Proposizione 6 Se un processo gaussiano è stazionario in senso lato allora è anche stazionario in senso stretto.
Proof. Dati = (t
1; :::; t
n) 2 S e h 2 T , le leggi di (X
t1; :::; X
tn) e (X
t1+h; :::; X
tn+h), essendo gaussiane, sono identi…cate dai vettori medi di componenti E [X
tk] e E [X
tk+h], che coincidono essendo m (t
k+ h) = m (t
k), k = 1; :::; n, e dalle matrici di covarianza di componenti Cov X
ti; X
tje Cov X
ti+h; X
tj+h, che coincidono essendo C (t
i+ h; t
j+ h) = C (t
i; t
j). Quindi le leggi di (X
t1; :::; X
tn) e (X
t1+h; :::; X
tn+h) coincidono ed abbiamo la stazionarietà in senso stretto.
Supponiamo che T sia un gruppo rispetto alla somma + e sia 0 l’elemento neutro.
In questo caso la stazionarietà in senso lato permette di descrivere la legge del processo gaussiano in modo estremamente economico.
Proposizione 7 Se un processo gaussiano è stazionario in senso lato allora la sua legge è identi…cata dal numero m := E [X
t] e dalla funzione di una variabile
C (t) := Cov (X
t; X
0) ; t 2 T:
Proof. Le distribuzioni di dimensione …nita sono identi…cate dalle funzioni m (t) e C (t; s) ma queste, a loro volta, per la stazionarietà in senso lato sono l’una costante, m (t) = m, l’altra identi…cata dai suoi valori nei punti (t; s) della forma (r; 0), in quanto
C (t s; 0) = C (t; s) (h = s nella de…nizione di stazionarietà).
Concludiamo con un risultato di esistenza.
Proposizione 8 Date due funzioni m (t) e C (t; s), t; s 2 T , se C (t; s) = C (s; t) e
vale X
ni;j=1
C (t
i; t
j)
i j0
per ogni n 2 N, (t
1; :::; t
n) 2 T
n, (
1; :::;
n) 2 R
n, allora esiste un processo gaussiano che ha queste funzioni come media e covarianza.
Proof. Basta costruire una misura gaussiana su R
T; B (R)
Te prendere il processo
canonico. Per il teorema di costruzione di Kolmogorov ((E; E) = (R; B (R)) soddis-
fa l’ipotesi del teorema), basta costruire una famiglia consistente f ; 2 Sg di dis-
tribuzioni di dimensione …nita, che siano gaussiane (quindi la misura ed il processo
saranno gaussiani) e tali che valga la seguente proprietà: presa = (t
1; :::; t
n) 2 S, se
(X
t1; :::; X
tn) è un vettore aleatorio di legge , quindi gaussiano, valga E [X
tk] = m (t
k)
e Cov X
ti; X
tj= C (t
i; t
j) per ogni k; i; j = 1; :::; n.
Dato = (t
1; :::; t
n) 2 S, sia la misura gaussiana su R
navente vettore medio di componenti m (t
k) e matrice di covarianza di componenti C (t
i; t
j), per ogni k; i; j = 1; :::; n. Un tale misura esiste ed è unica. Infatti la matrice di componenti C (t
i; t
j) è semide…nita positiva, per ipotesi, ed abbiamo ricordato sopra che un vettore ed una matrice semide…nita positiva de…niscono univocamente una misura gaussiana. La va- lidità della proprietà detta poco sopra (E [X
tk] = m (t
k) e Cov X
ti; X
tj= C (t
i; t
j), se (X
t1; :::; X
tn) ha legge ) è assicurata per de…nizione. Resta da veri…care la consis- tenza. Omettiamo, per non appesantire la trattazione, la veri…ca della proprietà (1.2) e limitiamoci alla (1.3).
Con le notazioni usate in precedenza, = (t
1; :::; t
n) 2 S,
nb= (t
1; :::; t
n 1),
b
n
: E
n! E
n 1che manda la generica sequenza (x
1; :::; x
n) 2 E
nnella sequenza (x
1; :::; x
n 1) 2 E
n 1, dobbiamo dimostrare che
b
n
=
nb( ) :
La trasformazione
bnè lineare e quindi i vettori delle medie m
nbe m di
bne rispettivamente sono legati dalla relazione m
nb=
nbm , le matrici di covarianza Q
nbe Q di
b
n
e rispettivamente sono legate dalla relazione Q
bn=
bnQ
Tnb(us- ando la notazione
bnanche per la matrice associata alla trasformazione nella base canonica). Il vettore m ha componenti m (t
k), k = 1; :::; n, quindi
bnm è il vettore (m (t
1) ; :::; m (t
n 1)) 2 E
n 1, che è proprio il vettore delle medie di
b n
.
La veri…ca della proprietà Q
bn=
bnQ
Tnbè elementare ma noiosa da scrivere. Per completezza la riportiamo. La matrice
bnha componenti (
nb)
j;=
j;, per j = 0; :::; n 1, = 1; :::; n. Quindi la matrice
Tn;iha componenti
Tnb ;k= (
nb)
k;=
k;, per k = 0; :::; n 1, = 1; :::; n. Quindi, dall’identità
b
n
Q
Tbn jk= X
n; =1
(
nb)
j;(Q )
; Tnb ;ksi deduce, per j; k = 0; :::; n 1,
= X
n; =1
j;
C (t ; t )
k;= C (t
j; t
k) :
Questa è la matrice Q
bn. La dimostrazione è completa.
Esercizio 6 Costruire un processo X con T = [0; 1] che si annulli in t = 0 e t = 1
q.c., ed invece X
tabbia densità di probabilità strettamente positiva per ogni t 2 (0; 1)
(un “ponte” stocastico).
1.2.2 Filtrazioni
A partire da questo paragrafo supponiamo che T sia un intervallo di R, o più precisa- mente per …ssare le idee
T = [0; 1):
Si intuisce che si possa svolgere una teoria più generale ma gli esempi che tratteremo nel corso non la motivano.
Chiamiamo …ltrazione su ( ; F; P ) una famiglia (F
t)
t2Tdi -algebre di insiemi di , F
tF per ogni t 2 T , che sia crescente: F
sF
tse s < t 2 T .
Un processo X = (X
t)
t2Tde…nito su ( ; F; P ) a valori in (E; E) si dice adattato alla
…ltrazione (F
t)
t2Tse per ogni t 2 T la funzione X
tè misurabile da ( ; F
t) in (E; E).
Supponiamo T = [0; 1); se T è un intervallo che contiene 0 la de…nizione è analoga.
Il processo X si dice progressivamente misurabile se per ogni t 0 l’applicazione (s; !) 7 ! X
s(!) da ([0; t] ; B ([0; t]) F
t) in (E; E) è misurabile.
Se X è progressivamente misurabile, allora è misurabile ed adattato. Viceversa, vale ad esempio il seguente risultato.
Proposizione 9 Sia E uno spazio topologico, E = B (E). Se X è adattato e q.c.
continuo a destra (oppure q.c. continuo a sinistra) allora è progressivamente misurabile.
Proof. Sia G una -algebra su . Il seguente criterio di misurabilità è noto: se una funzione f : [a; b] ! E è continua a destra ed ! 7 ! f (t; !) è misura- bile da ( ; G) in (E; E) per ogni t 2 [a; b], allora (t; !) 7 ! f (t; !) è misurabile da ([a; b] ; B ([a; b]) G) in (E; E). La dimostrazione si fa ad esempio approssimando f con funzioni continue a destra e costanti a tratti in t.
Basta allora applicare questo criterio ad ogni restrizione di X ad insiemi della forma [0; t] . La dimostrazione è completa.
Un insieme N è trascurabile rispetto a ( ; F; P ) se P (N) = 0 dove P (A) = inf fP (B) ; B 2 F; A B g. Quindi N è trascurabile se inf fP (B) ; B 2 F; N B g = 0 . Indichiamo con N l’insieme degli insiemi trascurabili rispetto a ( ; F; P ). Una …l- trazione (F
t)
t2Tè completa se ogni F
tcontiene N . E’equivalente che F
0contenga N . [Una -algebra G si dice completa quando contiene gli insiemi trascurabili rispetto a ( ; G; P ). Quindi il chiedere che F
0contenga N - famiglia degli insiemi trascurabili rispetto a ( ; F; P ) - o che sia completa sono a¤ermazioni di¤erenti.]
E’ comodo che tutte le -algebre di una …ltrazione contengano N . Altrimenti si creano tante piccole complicazioni un po’innaturali; ad esempio se Y è modi…cazione di un processo adattato X e la …ltrazione non è completa, non si può concludere che anche Y sia adattato. Infatti, preso B 2 E e t 2 T , l’evento fY
t2 Bg può di¤erire da fX
t2 Bg per un insieme di N , ma tale insieme potrebbe non appartenere a F
t, quindi la proprietà fX
t2 Bg 2 F
tpuò non implicare fY
t2 Bg 2 F
t. Invece, vale:
Osservazione 4 Se (F
t)
t2Tè completa, X è adattato ed Y è una modi…cazione di X,
allora Y è adattato.
Una …ltrazione (F
t)
t2Tsi dice continua a destra se per ogni t 2 T F
t= \
">0
F
t+":
Questa condizione interviene ogni tanto nei teoremi successivi, e la completezza ancora di più, per cui spesso per uni…care gli enunciati di una teoria si assume sin dall’inizio che la …ltrazione di riferimento della teoria sia completa a continua a destra. Diremo che una …ltrazione soddisfa le condizioni abituali se è completa e continua a destra.
Si ricordi che l’intersezione (arbitraria) di -algebre è una -algebra, quindi \
">0
F
t+"è sempre una -algebra. Invece l’unione no; indicheremo col simbolo F _G la più piccola -algebra che contiene F [ G; per cui scriveremo ad esempio _
t 0
F
tper la più piccola -algebra che contiene ogni F
t, denotata con F
1.
Dato un processo stocastico X, ad esso è associata la …ltrazione generata da X de…nita da
F
t00= fX
s; s 2 T; s t g
A livello interpretativo, gli eventi di F
t00sono gli eventi conoscibili al tempo t se os- serviamo il processo X. La notazione F
t00non è universale ed è usata qui solo per distinguere questa …ltrazione dalle seguenti.
Essendo comodo che la …ltrazione di riferimento sia completa, si introduce la …l- trazione (F
t0)
t2Tde…nita da F
t0= fF
t00[ N g. La …ltrazione (F
t0)
t2Tè il completa- mento della …ltrazione (F
t00)
t2T(naturalmente questo procedimento si può applicare a qualsiasi …ltrazione).
Volendo richiedere che la …ltrazione sia anche continua a destra, poniamo F
t= \
">0
F
t+"0:
Osservazione 5 Questa …ltrazione è continua a destra: F
t= \
">0
F
t+". Infatti, F
t0F
t(per ogni t 2 T ) per monotonia di (F
t0)
t2Te de…nizione di F
t, quindi \
">0
F
t+"0\
">0
F
t+", per cui F
t\
">0
F
t+"per de…nizione di F
t. Viceversa, F
t+"F
t+2"0per ogni t 2 T ed " > 0, per de…nizione di F
t, quindi \
">0
F
t+"\
">0
F
t+2"0= F
t.
La …ltrazione così costruita è la più piccola che soddis… le condizioni abituali e
rispetto a cui il processo sia adattato.
1.3 Speranza condizionale e probabilità condizionale
1.3.1 Speranza condizionale
Teorema 2 Data una v.a. X a valori reali, integrabile su ( ; F; P ) ed una -algebra G F, esiste una v.a. G-misurabile X
0tale che
Z
B
XdP = Z
B
X
0dP per ogni B 2 G. Inoltre è unica a meno di P -equivalenze.
La dimostrazione dell’esistenza si basa sul teorema di Radon-Nikodym, l’unicità su un semplice argomento prendendo l’evento B = fX
0> X
00g, se X
0; X
00soddisfano le stesse condizioni.
De…nizione 5 Sia X una v.a. integrabile su ( ; F; P ) e sia G una -algebra, G F. Chiamiamo speranza condizionale di X rispetto a G ogni variabile aleatoria G- misurabile X
0tale che Z
B
XdP = Z
B
X
0dP
per ogni B 2 G. Chiameremo con lo stesso nome anche la classe di P -equivalenza di tali variabili. La speranza condizionale di X rispetto a G viene indicata con E [XjG].
Quando scriveremo uguaglianze tra diverse speranze condizonali o tra una speranza condizionale ed una v.a., si intenderà sempre l’uguaglianza come classi di equivalenza, o P -q.c.
L’intuizione è che, avendo a disposizione il grado di informazione fornito da G, la nostra attesa circa il valore di X è più precisa della semplice E [X] (attesa incon- dizionata), dipende da ciò che si avvera nei limiti della …nezza di G, quindi è una v.a.
G-misurabile. Inoltre, se B è un atomo di G con P (B) > 0, per cui X
0deve essere costante su B, l’identità della de…nizione dice che
X
0j
B= 1 P (B)
Z
B
XdP
cioè X
0è una sorta di media locale di X; per un B generale l’identità stabilisce una gen- eralizzazione di tale proprietà. Si risolva il seguente esercizio, per aiutare ulteriormente l’intuizione.
Esercizio 7 Sia G generata da una partizione misurabile fB
1; :::; B
ng. Allora E [XjG] = P
ni=1 1 P (Bi)
R
Bi
XdP 1
Bi. In altre parole, E [XjG] è costante su ciascun B
ie lì vale la media di X su B
i,
P (B1i)
R
Bi
XdP .
Proof. La v.a. X
0= P
n i=11 P (Bi)
R
Bi
XdP 1
Biè G-misurabile. Prendiamo Y = 1
B1. Vale
E [XY ] = Z
B1
XdP
E [X
0Y ] = X
ni=1
1 P (B
i)
Z
Bi
XdP E [1
Bi1
B1]
= X
ni=1
1 P (B
i)
Z
Bi
XdP
i1P (B
1) = Z
B1
XdP e quindi sono uguali.
Osservazione 6 La de…nizione data sopra equivale a chiedere che X
0sia G-misurabile e valga
E [XY ] = E [X
0Y ]
per ogni v.a. Y limitata G-misurabile. Un’implicazione è ovvia (prendendo Y della forma 1
Bcon B 2 G). Per l’altra, dalla de…nizione, che si riscrive E [X1
B] = E [X
01
B], discende che E [XY ] = E [X
0Y ] per Y della forma Y = P
y
i1
Bi, y
i2 R, B
i2 G. Con variabili di quel tipo possiamo approssimare dal basso puntualmente ogni Y limitata G-misurabile e passare al limite per convergenza monotona.
Proposizione 10 Siano X, Y , fX
ng integrabili, G una sotto -algebra di F. Valgono le seguenti a¤ermazioni:
i) Se G
0G F allora E [E [XjG] jG
0] = E [X jG
0]; in particolare ( G
0= f?; g), E [E [X jG]] = E [X]
ii) Se X è G-misurabile ed XY è integrabile, allora E [XY jG] = XE [Y jG]
iii) Se X è indipendente da G allora E [XjG] = E [X]
iv) E [aX + bY + cjG] = aE [XjG] + bE [Y jG] + c
v) Se fX
ng è una successione di v.a. monotona non decrescente, con X = lim
n!1X
nintegrabile, allora E [X
njG] ! E [XjG] q.c.
La veri…ca di queste proprietà è un utile esercizio; rimandiamo comunque ai corsi di base di Probabilità. Utile tecnicamente è la seguente generalizzazione delle proprietà (ii)-(iii). Si noti che ' è G
0-misurabile nel suo secondo argomento, X è G-misurabile, e G, G
0sono -algebre indipendenti.
Proposizione 11 Dato uno spazio probabilizzato ( ; F; P ) ed uno spazio misurabile (E; E), siano G F e G
0F due -algebre indipendenti. Sia ' : (E ; E G
0) ! (R; B (R)) misurabile limitata e sia X : ( ; G) ! (E; E) misurabile. Allora
E [' (X; ) jG] = (X) dove è de…nita da
(x) := E [' (x; )] ; x 2 E:
Proof. Supponiamo ' a variabili separate, ' (x; !) = '
1(x) '
2(!), con '
1: (E; E) ! (R; B (R)), '
2: ( ; G
0) ! (R; B (R)) misurabili limitate. Allora
E [' (X; ) jG] = E ['
1(X) '
2( ) jG] = '
1(X) E ['
2( )]
(X) = E [' (x; )]
x=X= E ['
1(x) '
2( )]
x=X= '
1(X) E ['
2( )]
quindi la formula è veri…cata. Per linearità, vale per combinazioni lineari di funzioni ' della forma ' (x; !) = '
1(x) '
2(!). Si passa al caso generale per convergenza monotona, usando la stabilità della speranza condizionale rispetto a tale convergenza.
Apparentemente potrebbe sembrare che, rimuovendo l’ipotesi che G
0sia indipen- dente da G, ovvero prendendo una qualsiasi funzione ' : (E ; E F) ! (R; B (R)) misurabile limitata, valga l’identità
E [' (X; ) jG] = E [' (x; ) jG] j
x=Xdi cui quella della proposizione è un caso particolare. Qui però si pone un problema di versioni: per ogni x la speranza condizionale E [' (x; ) jG] è de…nita a meno di insiemi di misura nulla e quindi la sostituzione E [' (x; ) jG] j
x=Xnon ha un senso ovvio.
Tra i risultati rilevanti citiamo anche il seguente. Se X è di quadrato integra- bile, E [XjG] è la proiezione ortogonale di X sul sottospazio chiuso L
2( ; G; P ) di L
2( ; F; P ) (funzioni di quadrato integrabile misurabili rispetto a G e F rispettiva- mente).
1.3.2 Probabilità condizionale
Sia ( ; F; P ) uno spazio probabilizzato. Dati due eventi A; B 2 F con P (B) > 0, chiamiamo probabilità condizionale di A sapendo B il numero
P (A jB) := P (A \ B) P (B) :
Data una partizione misurabile fB
1; :::; B
ng di , possiamo de…nire in numeri P (A jB
i) per tutti gli i = 1; :::; n tali che P (B
i) > 0. Potremmo dire che la famiglia di numeri fP (AjB
i) g è la probabilità di A condizionata alla partizione fB
1; :::; B
ng. In analogia col caso della speranza condizionale, potremmo codi…care questa informazione nella funzione
X
n i=1P (A jB
i) 1
Bi(se per un certo i vale P (B
i) = 0, la funzione 1
Biè equivalente a quella nulla e quindi possiamo de…nire P (AjB
i) arbitrariamente). C’è quindi una funzione G-misurabile, P (A jG) := P
ni=1
P (A jB
i) 1
Bi, che racchiude le informazioni utili circa la probabilità
condizionale di A rispetto ai vari elementi della partizione fB
1; :::; B
ng e quindi delle informazioni contenute nella -algebra G.
Tra l’altro, si noti che, sempre nel caso particolare di G generata da fB
1; :::; B
ng, vale
E [1
AjG] = P (AjG) in quanto R
Bi
1
AdP = P (A \ B
i). Inoltre,
P (A) = E [P (A jG)]
o più in generale
P (A \ B) = Z
B
P (A jG) dP
per ogni B 2 G (si veri…chino queste due identità). Queste ultime formule sono una riscrittura compatta dell’utilissima formula di fattorizzazione (o delle probabilità totali)
P (A) = X
ni=1
P (A jB
i) P (B
i)
e sua generalizazione a P (A \ B).
Possiamo estendere queste de…nizioni e proprietà al caso di una -algebra G F più generale, raggiungendo due livelli di generalizzazione.
Innanzi tutto, data G F qualsiasi, poniamo P (A jG) := E [1
AjG]
detta probabilità condizionale di A rispetto alla -algebra G. Quindi P (AjG), de…nita a meno di P -equivalenza (o come classe di equivalenza), è una v.a. G-misurabile tale
che Z
B
P (A jG) dP = Z
B
1
AdP = P (A \ B)
per ogni B 2 G. Questa identità, data ora per de…nizione, è una versione generalizzata della formula di fattorizzazione. La probabilità condizionale di A rispetto ad una - algebra G è de…nita tramite la formula di fattorizzazione; o in altre parole, è quella v.a. che fa funzionare la formula di fattorizzazione anche nel caso non …nito (cioè di una -algebra generale invece che generata da una partizione …nita). Questo è il primo livello.
C’è poi un secondo livello, più complesso. Nasce dalla seguente domanda natu-
rale. Per ogni A 2 F, P (AjG) è una classe di equivalenza, o comunque è de…nita a
meno di insiemi trascurabili. Non ha senso …ssare ! 2 e considerare la funzione
A 7 ! P (AjG) (!). Possiamo scegliere un rappresentante ^ P (A jG) da ciascuna classe
di equivalenza in modo che la funzione d’insieme A 7 ! ^ P (A jG) (!) sia una misura di
probabilità? Se prendiamo degli insiemi disgiunti A
1; A
2; ::: 2 F, nel senso delle classi di equivalenza (oppure quasi certamente per ogni scelta di rappresentanti) vale
P [
i
A
ijG
!
= X
i
P (A
ijG) :
Ma non possiamo sperare che valga per ^ P ( jG) (!), con ! …ssato, senza operare una scelta molto oculata e non banale dei rappresentanti.
De…nizione 6 Dati ( ; F; P ) e G F, chiamiamo versione regolare della probabilità condizionale rispetto a G una funzione (A; !) 7 ! P
G(A; !), de…nita su F , con le seguenti proprietà:
i) per P -q.o. !, la funzione d’insieme A 7 ! P
G(A; !) è una misura di probabilità su ( ; F)
ii) per ogni A 2 F, la funzione ! 7 ! P
G(A; !) è misurabile ed appartiene alla classe di equivalenza P (AjG).
Vale il seguente teorema non banale:
Teorema 3 Se ( ; d) è uno spazio metrico completo e separabile (spazio polacco) ed F = B ( ), esiste sempre versione regolare della probabilità condizionale rispetto ad ogni G B ( ).
Per la versione regolare valgono, come sopra, P
G(A; ) = E [1
AjG]
Z
B