Capitolo 1. Richiami di probabilità
1.5 Nozioni di convergenza
Date due variabili aleatorie X1, X2 definite su (Ω, F , P) a valori rispettivamente in (E1, E1), (E2, E2), indichiamo le loro leggi con µX1, µX2. La coppia X = (X1, X2) è una variabile aleatoria a valori in (E1× E2, E1⊗ E2), la cui legge indichiamo con µX. È facile vedere che X1 e X2 sono indipendenti se e soltanto se µX = µX1 ⊗ µX2. Lo stesso vale per un numero finito di variabili aleatorie X1, . . . , Xn
a valori negli spazi (Ei, Ei): le variabili sono indipendenti se e soltanto se la loro legge congiunta su (×ni=1Ei, ⊗ni=1Ei) è data dal prodotto delle leggi marginali.
1.4.4. Successioni indipendenti. È noto che, assegnata un’arbitraria successione di probabilità {µn}n∈N su R, esiste un opportuno spazio di probabilità (Ω, F, P) su cui è definita una successione {Xn}n∈N di variabili aleatorie reali indipendenti tali che la legge diXn sia µn. Una costruzione tipica è richiamata nella sezione 1.8.3.
1.4.5. Lemma di Borel-Cantelli. Data una successione di eventi {An}n∈N di uno spazio di probabilità (Ω, F, P), si definisce l’evento
lim sup
n→∞ An := \
k∈N
[
n≥k
An = {ω ∈ Ω : ω ∈ An per infiniti n} = (
X
n∈N
1An = ∞ )
.
Si ha allora l’utilissimo
Lemma 1.8 (Borel-Cantelli). Sia {An}n∈N una successione di eventi di uno spazio di probabilità(Ω, F, P).
• Se P
n∈NP(An) < ∞, allora P(lim supn→∞An) = 0.
• SeP
n∈NP(An) = ∞ e inoltre se Ai eAj sono indipendenti per ognii 6= j, allora P(lim supn→∞An) = 1.
Esercizio 1.9. Se {Xn}n∈N sono variabili aleatorie i.i.d. conXn∼ Exp(λ), allora q.c. si ha lim supn→∞Xn/ log n = λ−1.
1.4.6. Convoluzione. Date due probabilità µ, ν su Rde due variabili aleatorie X e Y indipendenti, le cui leggi siano rispettivamente µ e ν, la convoluzione di µ e ν, indicata con µ∗ν, è per definizione la legge della variabile aleatoria X + Y . Per ogni insieme A boreliano di Rdsi ha µ ∗ ν(A) =R
Rdµ(A − y)ν(dy) = R
Rdν(A − y)µ(dy), che mostra tra l’altro come µ ∗ ν dipenda solo da µ e ν e non dalle variabili X e Y . Il caso più importante è quello in cui le leggi µ e ν siano assolutamente continue, con densità rispettivamente f e g. In questo caso la legge di µ ∗ ν è anch’essa assolutamente continua, con densità h(x) =R
Rdf (x − y)g(y)dy =R
Rdg(x − y)f (y)dy, detta convoluzione di f e g e indicata con h = f ∗ g.
1.5. Nozioni di convergenza
1.5.1. Convergenza di misure. Sia (E, B(E)) uno spazio metrico, con distanza d(·, ·), munito della σ-algebra boreliana. Il caso tipico è dato da Rd, con la distanza indotta dalla norma euclidea: d(x, y) = |x − y| =
q Pd
i=1(xi− yi)2. Data una successione di probabilità {µn}n∈N su E, si dice che essa converge debolmente verso la probabilità µ su E se per ogni funzione f : E → R continua e limitata si ha che R f dµn→R f dµ.
Sebbene esistano altre nozioni di convergenza per successioni di misure, questa è la più importante e sarà l’unica che considereremo.
1.5.2. Convergenza di variabili aleatorie. Consideriamo una famiglia di variabili aleatorieXn: (Ωn, Fn, Pn) → (E, B(E)), per n ∈ N, e X : (Ω, F, P) → (E, B(E)), definite non necessariamente sullo stesso spazio di probabilità, ma tutte a valori nello stesso spazio metricoE.
• Diremo che la successione {Xn}n∈N converge in legge (o in distribuzione) verso X se la successione delle leggi µXn diXn converge debolmente verso la leggeµX
diX. Usando la formula del cambio di variabili (Teorema 1.6), ciò è equivalente a richiedere che En(f (Xn)) → E(f (X)) per ogni funzione f : E → R continua e limitata.
Supponiamo ora che le variabili aleatorie {Xn}n∈N, X siano tutte definite sullo stesso spazio di probabilità(Ω, F, P) e assumano valori nello spazio metrico (E, B(E)).
• Diremo che la successione {Xn}n∈N converge in probabilità verso X se per ogni ε > 0 si ha che P(d(Xn, X) > ε) → 0.
• Diremo che la successione {Xn}n∈N converge quasi certamente (q.c.) verso X se esiste A ∈ F con P(A) = 1 tale che per ogni ω ∈ A si ha Xn(ω) → X(ω), cioè d(Xn(ω), X(ω)) → 0.
Consideriamo infine il caso in cui le variabili aleatorie {Xn}n∈N, X siano definite sullo stesso spazio(Ω, F, P) e assumano valori in Rd.
• Diremo che la successione {Xn}n∈N converge versoX in Lp se kXn− Xkp → 0, cioè seE(|Xn− X|p) → 0, dove | · | indica la norma euclidea su Rd.
Si noti che, essendo kXn− Xkq ≤ kXn− Xkp se p ≥ q (Jensen), la convergenza di Xn verso X in Lp implica quella in Lq. Dalla disuguaglianza triangolare si ha inoltre che
|kXnkp− kXkp| ≤ kXn− Xkp, da cui si ricava che la convergenza inLp implica quella del momentop-esimo. In definitiva,
Xn→ X in Lp =⇒ E(|Xn|q) → E(|X|q) , per ogni 1 ≤ q ≤ p . (1.7)
Proposizione 1.10. Date le variabili aleatorie Xn, X a valori in uno spazio metrico E, valgono le seguenti relazioni:
• se Xn→ X q.c., allora Xn→ X in probabilità;
• se Xn→ X in Lp, alloraXn→ X in probabilità;
• se Xn → X in probabilità, allora esiste una sottosuccessione {nk}k∈N tale che Xnk → X q.c.;
• se Xn→ X in probabilità, allora Xn→ X in legge.
Dimostrazione. Se Xn→ X q.c., si ha d(Xn, X) → 0 q.c. e dunque 1{d(Xn,X)>ε}→ 0 q.c., per ogni ε > 0. Per convergenza dominata si ottiene dunque P(d(Xn, X) > ε) = E(1{d(Xn,X)>ε}) → 0, poiché |1{d(Xn,X)>ε}| ≤ 1. Di conseguenza Xn→ X in probabilità.
1.5. NOZIONI DI CONVERGENZA 17
Supponiamo ora che Xn → X in Lp. In questo caso E = Rd e d(x, y) = |x − y|.
Applicando la disuguaglianza di Markov, si ha P(d(Xn, X) > ε) = P(|Xn− X| > ε) ≤ ε−pE(|Xn− X|p) → 0 per ogni ε > 0, dunque Xn→ X in probabilità.
Facciamo ora l’ipotesi che Xn → X in probabilità. Fissiamo arbitrariamente una successione {εk}k∈N positiva e infinitesima, per esempio εk:= 1k. Per ognik fissato si ha P(d(Xn, X) > εk) → 0 per n → ∞, quindi possiamo definire nkcome il più piccolo valore di n ∈ N per cui P(d(Xn, X) > εk) ≤ 21k. Per costruzione P
k∈NP(d(Xnk, X) > εk) ≤ P
k∈N 1
2k < ∞, quindi per il Lemma di Borel-Cantelli si ha che q.c. d(Xnk, X) ≤ εk= k1 per k grande, da cui segue che d(Xnk, X) → 0 q.c. per k → ∞. Abbiamo dunque determinato una successione(nk)k∈N per cuiXnk → X q.c..
Supponiamo infine che Xn → X in probabilità e sia f : E → R una qualunque funzione continua e limitata. Vogliamo mostrare che E(f (Xn)) → E(f (X)), da cui segue che Xn → X in legge. Per un argomento classico (vedi Esercizio 1.11 più giù), è sufficiente mostrare che per ogni sottosuccessione {nk}k∈Nesiste una sotto-sottosuccessione {n0k}k∈N tale che E(f (Xn0
k)) → E(f (X)). Visto che per ipotesi Xn→ X in probabilità, anche Xnk → X in probabilità. Per quanto visto sopra, possiamo dunque estrarre una sottosuccessione {n0k}k∈N di {nk}k∈N tale che Xn0
k → X q.c.. Di conseguenza anche f (Xn0
k) → f (X) q.c., perché f è continua, e la convergenza E(f (Xn0
k)) → E(f (X)) segue dal teorema di convergenza dominata, poiché f è limitata.
Esercizio 1.11. Sia {xn}n∈N una successione in uno spazio topologico E. Supponiamo esista x ∈ E con la seguente proprietà: per ogni sottosuccessione {xnk}k∈N esiste una sotto-sottosuccessione {xn0
k}k∈N di {xnk}k∈N che converge verso x. Allora la successione completa {xn}n∈N converge versox.
Dimostrazione. La convergenza di {xn}n∈N verso x significa per definizione che per ogni aperto A 3 x esiste n0 < ∞ tale che xn ∈ A per ogni n ≥ n0. Da ciò segue che, se {xn}n∈N non convergesse versox, esisterebbe un aperto A 3 x tale che xnk 6∈ A per un insieme infinito di indici {nk}k∈N, che possiamo supporre crescente; ma allora dalla sottosuccessione {xnk}k∈N non si potrebbe estrarre nessuna sotto-sottosuccessione che converge ax, contro l’ipotesi.
Esercizio 1.12. Siano X, {Xn}n∈N variabili aleatorie reali. Supponiamo che, per ogni sottosuccessione di {Xn}n∈N, sia possible estrarre una sotto-sottosuccessione che converge a X in Lp (risp. in probabilità). Si mostri che allora la successione completa {Xn}n∈N converge aX in Lp (risp. in probabilità).
Osservazione 1.13. Consideriamo uno spazio di probabilità (Ω, F , P) per cui le nozioni di convergenza in probabilità e convergenza q.c. siano distinte, su cui si possa cioè definire una successione di variabili aleatorie {Xn}n∈N che converge in probabilità ma non converge q.c. (è il caso tipico di uno spazio di probabilità senza atomi).† La Proposizione 1.10 e l’Esercizio 1.11 mostrano che in questo caso non esiste nessuna topologia sullo spazio delle variabili aleatorie definite su (Ω, F , P) che induca la nozione di convergenza quasi certa. Infatti, grazie alla Proposizione 1.10, sappiamo che da ogni sottosuccessione di {Xn}n∈Nsi può estrarre una sotto-sottosuccessione che converge q.c.; se la convergenza q.c. fosse indotta
†Se (Ω, F , P) è uno spazio di probabilità in cui Ω è un insieme numerabile, è facile vedere che ogni successione convergente in probabilità converge anche q.c..
da una topologia, per l’Esercizio 1.11 si dovrebbe avere che l’intera successione {Xn}n∈N converge q.c., cosa che abbiamo escluso per ipotesi.
La convergenza in probabilità è invece indotta da una topologia, anzi da una pseudometrica:† introducendo la pseudodistanza δ(X, Y ) := E(|X − Y |/(1 + |X − Y |)) tra variabili aleatorie, non è difficile vedere che Xn→ X in probabilità se e solo se δ(Xn, X) → 0.
1.5.3. Ulteriori osservazioni. Se Xn→ X in legge e lo spazio d’arrivo è polacco (cioè metrico completo e separabile), è possibile definire su un opportuno spazio di probabilità (Ω, F , P) variabili aleatorie { eXn}{n∈N} e eX, con la stessa legge rispettivamente di Xne X, tali che eXn→ X q.c. (teorema di Skorokod).
Date leggi µn, µ su R con funzioni di ripartizione rispettivamente Fn(·), F (·), la convergenza debole di µn verso µ è equivalente alla convergenza di Fn(x) verso F (x) per ogni x ∈ R in cui F (·) è continua.
Ricordiamo infine l’enunciato del Teorema Limite Centrale: se {Xn}n∈Nè una successione i.i.d. di variabili aleatorie reali con E(Xn) = 0, E(Xn2) = 1, allora P(X1+ . . . + Xn≤ x√
n) → Φ(x) per ogni x ∈ R, dove Φ(·) indica la funzione di ripartizione della legge normale standard (si noti che Φ(·) è continua in ogni x ∈ R). Possiamo dunque riformulare il Teorema Limite Centrale nel modo seguente: la legge della variabile aleatoria (X1+ . . . + Xn)/√
n converge debolmente verso la legge normale standard.