• Non ci sono risultati.

LES PROBABILITÉS POUR LES OPTIONS B, C ET D

N/A
N/A
Protected

Academic year: 2021

Condividi "LES PROBABILITÉS POUR LES OPTIONS B, C ET D"

Copied!
16
0
0

Testo completo

(1)

LES PROBABILITÉS POUR LES OPTIONS B, C ET D

PRÉPARATION À LAGRÉGATION EXTERNE DEMATHÉMATIQUES DE LUNIVERSITÉRENNES11 ANNÉE2009/2010

1. ESPACE PROBABILISÉ - VARIABLE ALÉATOIRE

1.1 ESPACE PROBABILISÉ

Lors d’un lancer de dé, on peut raisonnablement convenir que les 2 seules issues possibles sont "Pile" ou "Face". L’ensemble des résultats possibles de l’expérience, ou univers, est alors Ω = {Pile, Face}. Si la pièce est équilibrée, on peut affecter à cet ensemble une probabilité P telle que pour chaque ω ∈ Ω , appelé éventualité, P({ω}) = 1/2.

Afin de rendre compte de situations plus complexes, on doit considérer le cas où l’univers Ω associé à l’expérience n’est pas dénombrable. Pour des raisons techniques, on est alors contraint d’associer à Ω une tribu de parties F , et le couple (Ω,F ) s’appelle espace probabilisable. Définie à partir de l’univers, la tribu F représente les issues possibles de l’expérience ; un élément de F est donc naturellement appelé événement. Si P est une probabilité sur (Ω,F ), i.e. une mesure de masse 1 sur (Ω ,F ), le triplet (Ω,F ,P) s’appelle espace probabilisé.

De manière implicite, on se place dans toute la suite sur l’espace probabilisé (Ω ,F ,P). Les propriétés ci-dessous sont des conséquences immédiates de la définition d’une probabilité :

. P( /0) = 0 ;

. P(A ∪ B) = P(A) + P(B) − P(A ∩ B), pour 2 événements A, B [EGALITÉ DEPOINCARÉ] ; . P(A) = 1 − P(Ac) pour un événement A ;

. P(A) ≤ P(B) et P(B \ A) = P(B) − P(A) pour 2 événements A, B tels que A ⊂ B ; . P ∪nAn) ≤ ∑nP(An), pour une suite d’événements (An)n[INÉGALITÉ DEBOOLE].

1.2 VARIABLE ALÉATOIRE ET LOI

Si l’on veut décrire la durée de vie d’une ampoule par exemple, le concept d’espace probabilisé n’est pas adapté. On introduit alors la notion de variable aléatoire :

Définition. On appelle variable aléatoire à valeurs dans Rdune application mesurable de(Ω ,F ) dans (Rd,B(Rd)). On utilise l’abbréviation v.a., ou v.a.r. pour désigner une v.a. à valeurs réelles (d= 1).

Pour A ∈B(Rd), on peut ainsi calculer la probabilité de l’événement X−1(A), traditionnellement noté {X ∈ A} ; il s’agit donc de calculer P({X ∈ A}). Cette notation est écourtée en P(X ∈ A).

Si X est une v.a.r. associée à la durée de vie de l’ampoule, cela signifie que pour chaque éventualité ω, X (ω), appelé réalisation de X, est la durée de vie pour la configuration ω de l’univers. Il faut noter que l’univers Ω a changé de rôle : il ne représente plus l’ensemble des résultats possibles de l’expérience (qui est ici R+), mais plutôt des conditions expérimentales, qui mènent à telle ou telle valeur pour la durée de vie de l’ampoule. Dans le cadre de cette expérience, il n’est pas possible de décrire l’application X. On se tourne alors vers une notion plus faible, celle de loi (de probabilité).

Définition. Soit X une v.a. à valeurs dans Rd. La loi de X , notée PX, est la mesure image de P par X. Plus concrètement, PXest définie par : PX(A) = P ◦ X−1(A) = P(X ∈ A), ∀A ∈ B(Rd).

Si X = (X1, · · · , Xd)test une v.a. à valeurs dans Rd, la loi de chaque coordonnée Xis’appelle loi marginale et on appelle quelque- fois loi jointe la loi de X , afin de lui donner un statut à part. On notera à ce sujet les faits suivants :

. La connaissance de la loi jointe permet de retrouver les lois marginales (cf [O, p. 12]), car, par exemple, pour chaque A∈B(R), P(X1∈ A) = P(X ∈ A1), si A1= {x ∈ Rd : x1∈ A} ;

. La connaissance des lois marginales ne permet pas -sans autre information- de retrouver la loi jointe ;

1. Benoît Cadre - ENS Cachan Bretagne

(2)

. La loi d’une permutation des coordonnées de X n’est en général pas la loi de X , et ceci même si les lois marginales sont identiques.

Pour illustrer simultanément les 2 dernières assertions, on peut considérer le contre-exemple suivant. Sur l’espace probabilisé (Ω , P), où Ω = {a, b, c} et P est la probabilité uniforme sur Ω i.e. P({ω}) = 1/3 pour tout ω ∈ Ω , on note X1et X2les v.a.

telles que X1(a) = 0, X1(b) = 1, X1(c) = 2, X2(a) = 2, X2(b) = 0 et X2(c) = 1. Alors, X1et X2suivent la même loi uniforme sur {1, 2, 3} i.e. P(X1= i) = P(X2= i) = 1/3 pour i ∈ {1, 2, 3}, mais la loi de (X1, X2) est différente de celle de (X2, X1).

Les exemples de lois usuelles sont absolument continues par rapport à la mesure de Lebesgue sur Rdou la mesure de comptage sur Zd, que l’on appelle dans ce contexte des mesures dominantes. Le théorème de Radon-Nikodym [O, p. 6] nous donne alors une fonction fX(notation adoptée pour toute la suite), appelée densité de la loi de X par rapport à la mesure dominante ν, telle que fXest ν-p.p. positive etR fXdν = 1.

Exemples de lois de v.a.r. [FF1, chap. 7 et 14].

. LOI UNIFORMEU (D), avec D ⊂ N fini. C’est la loi sur D, dont la densité par rapport à la mesure de comptage sur D vaut 1/card(D).

. LOI BINOMIALEB(n, p), avec n ∈ N et p ∈ [0,1]. C’est la loi sur {0,··· ,n}, dont la densité par rapport à la mesure de comptage sur {0, · · · , n} vaut Cnkpk(1 − p)n−k. Cas particulier :LOI DEBERNOULLIB(p) = B(1, p).

. LOI DEPOISSONP(λ), avec λ ≥ 0. C’est la loi sur N, dont la densité par rapport à la mesure de comptage sur N vaut exp(−λ )λk/k!. Pour une v.a. X à valeurs dans N telle que P(X = k) 6= 0 ∀k ∈ N, on a l’équivalence (cf [FF1, p. 76]) :

∃λ ≥ 0 avec X ∼P(λ) ⇔ P(X = n)/P(X = n − 1) = λ/n ∀n ≥ 1.

. LOI GÉOMÉTRIQUEG (p), avec p ∈ [0,1]. C’est la loi sur N, dont la densité par rapport à la mesure de comptage sur N vaut p(1 − p)k−1.

. LOI UNIFORMEU ([a,b]), avec a < b. C’est la loi sur [a,b], dont la densité par rapport à la mesure de Lebesgue sur [a,b]

vaut 1/(b − a).

. LOI NORMALE, OU GAUSSIENNEN (m,σ2), avec m ∈ R et σ > 0. C’est la loi sur R, dont la densité par rapport à la mesure de Lebesgue sur R vaut 1/(σ√

2π) exp − (x − m)2/(2σ2)).

. LOI GAMMAγ (a, λ ), avec a, λ > 0. C’est la loi sur R+, dont la densité par rapport à la mesure de Lebesgue sur R+vaut (λ /Γ (a)) exp(−λ x)(λ x)a−1, avec Γ (a) =R0exp(−x)xa−1dx. Cas particulier : LOI EXPONENTIELLE E (λ) = γ(1,λ).

Pour une v.a. X à valeurs dans R+ qui possède une densité par rapport à la mesure de Lebesgue, on a l’équivalence (cf [FF1, p. 184]) : ∃λ > 0 avec X de loiE (λ) ⇔ P(X > x + y) = P(X > x)P(X > y) ∀x,y > 0.

1.3 THÉORÈME DE TRANSFERT- ESPÉRANCE ET VARIANCE

Revenons au problème de la modélisation de la durée de vie d’une ampoule, représentée par une v.a.r. X . Dans le cadre d’un modèle, on a fixé une loi de probabilité suivie par X , par exemple une loiE (λ). On note alors X ∼ E (λ). Une caractéristique importante de l’ampoule est sa durée de vie moyenne. Il s’agit d’une moyenne, pondérée par la loi de probabilité suivie par X . Le théorème de transfert permet de formaliser ce point de vue :

Théorème de transfert [FF1, p.130]. Soit X une v.a. à valeurs dans Rd, et g une fonction borélienne de Rddans R. Alors, si l’une des expressionsRg◦ XdP ouRRdgdPXexiste, il en est de même pour l’autre et l’on a :

Z

g◦ X dP = Z

Rd

g dPX.

Pour simplifier, on note g(X ) = g ◦ X et, sous les conditions d’intégrabilité adéquates : E(g(X )) =

Z

g(X ) dP.

En particulier, E(1A(X )) = P(X ∈ A) pour tout borélien A. Par ailleurs, on a g(X) ∈ L1(P) si, et seulement si g ∈ L1(PX). Dans les 2 cas fondamentaux (discret et à densité), la formule de transfert s’énonce ainsi :

E(g(X )) = Z

Rd

g(x) f (x)dx, si PX(dx) = f (x)dx;

=

k∈Zd

g(k) P(X = k), si PX=

k∈Zd

P(X = k) δk.

(3)

Ce théorème est aussi l’occasion de définir des quantités fondamentales, les moment, variance, covariance et enfin matrice de variance:

. MOMENT DORDRE pDE LA V.A.R. X . Si X ∈ Lp(P), son moment d’ordre p est E(Xp). L’espérance, ou moyenne de X est E(X) ;

. VARIANCE DE LA V.A.R. X . Si X ∈ L2(P), la variance de X est :

var(X ) = E (X − E(X))2 = E(X2) − E(X)2

.

Elle représente l’écart des valeurs de X par rapport à sa moyenne. Noter que E(X) existe car L2(P) ⊂ L1(P), et que si a∈ R : var(aX) = a2var(X ). Enfin, E(X) est, pour le critère L2(P), la meilleure approximation de X par une constante.

. COVARIANCE ENTRE LES V.A.R. X ETY. Si X ,Y ∈ L2(P), la covariance entre X et Y est : cov(X ,Y ) = E (X − E(X))(Y − E(Y )) = E(XY ) − E(X)E(Y ).

Elle joue un rôle crucial dans la notion d’indépendance (cf. Section 3). On notera en particulier les relations cov(X , X ) = var(X ), var(X + Y ) = var(X ) + var(Y ) − cov(X ,Y ) et cov(X + Z,Y ) = cov(X ,Y ) + cov(Z,Y ) si Z est une v.a.r. de carré intégrable.

. ESPÉRANCE ET MATRICE DE VARIANCE DUN VECTEUR ALÉATOIRE. Un vecteur aléatoire n’est rien d’autre qu’une v.a.

X= (X1, · · · , Xd)tà valeurs dans Rd. Sous les conditions d’intégrabilité adéquates, son espérance E(X) est le vecteur des espérances des coordonnées, et sa matrice de variance est définie par V(X) = (cov(Xi, Xj))i, j. Noter que V(X) est une matrice symétrique positive.

Quelques calculs d’espérances et variances.

. Si X ∼B(n, p), E(X) = np et var(X) = np(1 − p) ; . Si X ∼P(λ), E(X) = var(X) = λ ;

. Si X ∼N (m,σ2), E(X) = m et var(X) = σ2; . Si X ∼ γ(a, λ ), E(X) = a/λ et var(X) = a/λ2;

. Si X ∼G (p) avec p > 0, E(X) = 1/p et var(X) = (1 − p)/p2.

Si l’espérance et la variance ne caractérisent pas la loi d’une v.a., elles contribuent néanmoins au contrôle des déviations de la v.a. En effet, si X ∈ L1(P) est une v.a.r. , on a

∀t > 0 : P(|X| ≥ t) ≤E(|X |)

t [INÉGALITÉ DEMARKOV].

Si X ∈ L2(P), on peut estimer plus précisémment la probabilité de déviation de X par rapport à sa moyenne :

∀t > 0 : P(|X − E(X)| ≥ t) ≤var(X )

t2 [INÉGALITÉ DEBIENAYMÉ-TCHEBITCHEV].

2. CALCUL DE LOIS : FONCTION DE RÉPARTITION, FONCTION CARACTÉRISTIQUE ET TRANSFORMÉE DE LAPLACE

2.1 LE THÉORÈME DE LA LOI IMAGE

Si X possède une densité f sur R par rapport à la mesure de Lebesgue, et si ϕ : R → R est un difféomorphisme de classe C1, on a d’après le théorème de transfert, pour tout borélien A :

P(ϕ (X ) ∈ A) = Z

R

1A(ϕ(x))PX(dx) = Z

R

1A(ϕ(x)) f (x)dx = Z

A

f◦ ϕ−1(y) ϕ−10

(y) dy.

Ainsi, ϕ(X ) possède une densité par rapport à la mesure de Lebesgue qui est f ◦ ϕ−1(y)|(ϕ−1)0(y)|. On peut généraliser ce résultat :

Théorème de la loi image. [FF1, p. 195] Soit X une v.a. à valeurs dans un ouvert U de Rd, et ϕ : U → V un difféomor- phisme de classeC1. Si X possède une densité f , alors Y = ϕ(X ) possède une densité, qui vaut :

f◦ ϕ−1|Jacϕ−1| 1V.

Le calcul de la loi image se ramène donc dans ce cas à un calcul d’intégrale multiple.

(4)

Exemples.

. Si X est une v.a.r. de densité f par rapport à la mesure de Lebesgue, la v.a.r. 1/X possède une densité, qui est (1/x2) f (1/x).

En particulier, si X suit la loi de Cauchy, i.e. X est à densité fX(x) = 1/(π(1 + x2)) par rapport à la mesure de Lebesgue sur R, alors 1/X ∼ X ;

. Si m ∈ R et σ > 0, N (m, σ2) = m + σN (0,1) au sens suivant : X ∼ m + σY, si X ∼ N (m,σ2) et Y ∼N (0,1).

2.2 LA FONCTION DE RÉPARTITION

Note préliminaire. Nous ne parlerons ici que de fonction de répartition pour une v.a.r., car elle est essentiellement utilisée dans ce contexte. Néanmoins, on peut, au prix de quelques complications techniques supplémentaires, définir cette notion pour des v.a. à valeurs dans Rd(cf [FF1, p. 142]).

Définition. On appelle fonction de répartition (f.r.) toute fonction F : R → [0, 1] croissante, continue à droite, et telle que lim−∞F= 0, lim+∞F= 1.

Pour une v.a.r. X , la fonction FXdéfinie par FX(x) = P(X ≤ x) est une f.r., appelée fonction de répartition de X (la notation FXest adoptée pour toute la suite). Si X possède une densité f par rapport à la mesure de Lebesgue, la dérivée de FXvaut f ; autrement dit, FXcaractérise la loi, représentée ici par f . Ce phénomène se généralise à tous les types de lois, comme le montre le résultat suivant :

Théorème [FF1, p. 48-49]. A toute fonction de répartition correspond une et une seule mesure de probabilité sur (R, B(R)).

En d’autres termes, 2 v.a.r. ont même loi si, et seulement si, elles ont même f.r.

On souhaite calculer la loi de X2, avec X ∼N (0,1). Ce calcul ne peut pas se faire en utilisant le théorème de la loi image. En revanche, l’usage de la f.r. permet de trouver la loi de X2: la dérivée de la f.r. de X2est la densité de la loi γ(1/2, 1/2). Donc X2∼ γ(1/2, 1/2).

Générer une réalisation d’une v.a.r. Supposons que l’on veuille générer une réalisation d’une v.a.r. X . Pour simplifier, on suppose que FXest strictement croissante (cf [O, p. 29] pour le cas général). On sait générer une réalisation u d’une v.a.r.

U∼U [0,1] (générateur aléatoire). En remarquant que FX−1(U ) ∼ X car FF−1

X (U )= FX, on en déduit que FX−1(u) est une réalisation de X .

2.3 LA FONCTION CARACTÉRISTIQUE

Définition. Soit X une v.a. à valeurs dans Rd. On appelle fonction caractéristique (f.c.) de X , et on note ϕX, la transformé de Fourier de PX. Autrement dit, pour tout t∈ Rd:

ϕX(t) = ˆPX(t) = E exp(i < t, X >).

Une f.c. est définie et continue partout, et bornée par 1. De plus, si X est une v.a. à valeurs dans Rd, on a pour tout A ∈Md,ket b∈ Rk,

ϕAX+b(t) = exp(i < b,t >)ϕX(A?t), ∀t ∈ Rk.

Théorème d’unicité [FF1, p. 166] ou [O, p. 201]. La fonction caractéristique d’une v.a. à valeurs dans Rdcarac- térise sa loi. En d’autres termes, 2 v.a. à valeurs dans Rdont même loi si, et seulement si, elles ont même f.c.

La loi de X est symétrique (i.e. X ∼ −X ) si, et seulement si, ϕX ne prend que des valeurs réelles. Enfin, toute combinaison convexe de f.c. est une f.c.

Il est donc essentiel de calculer les f.c. des lois usuelles. Faisons-le pour X ∼N (0,1). Comme la loi N (0,1) est symétrique, ϕX(t) = E cos(tX) = 1

√ 2π

Z

R

cos(tx)e−x2/2dx.

On montre alors que ϕX0(t) = −tϕX(t). Comme ϕX(0) = 1, on obtient ϕX(t) = e−t2/2. En utilisant l’égalitéN (m,σ2) = m + σN (0,1) (cf section 2.1), on en déduit la f.c. de la loi N (m,σ2).

(5)

Fonctions caractéristiques de lois classiques [FF1, chap. 7 et 14].

. LOI BINOMIALEB(n, p), avec n ∈ N et p ∈ [0,1]. Sa f.c. vaut (1 − p + peit)n. . LOI DEPOISSONP(λ), avec λ > 0. Sa f.c. vaut exp(λ(eit− 1)).

. LOI GÉOMÉTRIQUEG (p), avec p ∈ [0,1]. Sa f.c. vaut peit/(1 − (1 − p)eit).

. LOI EXPONENTIELLEE (λ), avec λ > 0. Sa f.c. vaut λ/(λ − it).

. LOI NORMALE,OU GAUSSIENNEN (m,σ2), avec m ∈ R et σ > 0. Sa f.c. vaut exp(itm − σ2t2/2).

. LOI GAMMAγ (a, λ ), avec a, λ > 0. Sa f.c. vaut (λ /(λ − it))a.

Passons maintenant en revue d’autres propriétés essentielles de la f.c. Dans ce qui suit, on considère le cas d’une v.a.r. Le cas des v.a. à valeurs dans Rdse traite de manière similaire, au prix de quelques complications techniques supplémentaires.

Théorème. Soit X une v.a.r.

(1). [O, p. 203]. Si ϕX est Lebesgue-intégrable, alors X possède une densité par rapport à la mesure de Lebesgue, qui vaut en chaque x :

1 2π

Z

R

ϕX(t) exp(−ixt)dt.

(2). [O, p. 208]. Si X∈ Ln(P), alors ϕ ∈ Cnet pour chaque` = 1, · · · , n : ϕX(`)(0) = i`E(X`).

(3). [O, p. 208]. Si ϕXest k fois dérivable en 0 (k≥ 2), alors X ∈ L2[k/2](P). De plus, pour chaque ` = 1, · · · , 2[k/2] : ϕX(`)(0) = i`E(X`).

(4). [O, p. 214]. Si X ∈ Ln(P) pour tout n, et si lim supnkXkLn(P)/n = 1/R < ∞, alors ϕX est développable en série entière au voisinage de tout réel, le rayon de convergence étant supérieur à R/e. D’après (2), on a donc le développement :

ϕX(t) =

`≥0

(it)`

`! E(X`), ∀t ∈i

−R e,R

e h

.

Difficile, dans cette section, de ne pas évoquer la notion de vecteur (aléatoire) gaussien. La notion de v.a. gaussienne est essen- tielle en probabilités (cf section 6.2).

Définition. On dit que X est un vecteur gaussien de Rd, et on note X∼ Nd(m, Σ ), si il existe m ∈ Rdet Σ ∈Md(R) symétrique positive tels que la fonction caractéristique ϕXde X s’écrit :

ϕX(u) = exp

i< u, m > −1 2utΣ u



, ∀u ∈ Rd.

Remarques [DD1, p. 130-132].

. Cette définition inclut notamment le cas où X suit une loi de Dirac en m (cas Σ = 0) ;

. Si X ∼ Nd(m, Σ ), alors E(X) = m et V(X) = (cov(Xi, Xj))i, j=1,··· ,d = Σ . En particulier, un vecteur gaussien admet un moment d’ordre 2 et, de manière plus générale, des moments de tous ordres ;

. Un vecteur gaussien admet une densité par rapport à la mesure de Lebesgue si, et seulement si sa matrice de variance est inversible.

2.2 LA TRANSFORMÉE DELAPLACE

Définition. Soit X une v.a. à valeurs dans Rd. On appelle transformée de Laplace de X , et on noteLX, la fonction définie par LX(t) = E exp(< t, X >),

pour chaque t∈ Rdtel que l’intégrale soit définie.

La transformée de Laplace jouit de propriétés très similaires à la f.c. En particulier, elle caractérise la loi et les moments d’une v.a. peuvent être déduits de dérivations successives de la transformée de Laplace. Son inconvénient majeur est qu’elle n’est en général pas définie sur tout Rd, contrairement à la f.c.

Pour une v.a. X à valeurs dans Rd, on note IX= {t ∈ Rd :LX(t) est définie}.

Proposition [DD1, p. 73]. Soit X une v.a. à valeurs dans Rd. Alors, l’ensemble IX est convexe, et la fonctionLX est de classeCdans l’intérieur de IX. De plus, la fonctionlnLX est convexe sur IX; elle est même strictement convexe si X ne suit pas une loi de Dirac.

(6)

Si la transformée de Laplace de X est définie sur un ouvert contenant 0, X possède des moments de tous ordres. En ce sens, l’utilisation de la transformée de Laplace pour caractériser une loi est donc moins pratique que l’utilisation de la f.c. En fait, l’intérêt de la transformée de Laplace en probabilités est à rechercher ailleurs.

Si X est une v.a.r., la transformée de Cramer de X (cf [DD1, p. 78]) est la fonction hX définie par : hX(u) = sup

t∈IX

ut− lnLX(t).

Théorème [DD1, p. 79]. Soit X une v.a.r. telle que l’intérieur de IX soit un voisinage de 0. Alors, hX(t) > 0 si t 6= E(X), et : P(X ≥ t) ≤ exp(−hX(t)) pour t > E(X) et P(X ≤ t) ≤ exp(−hX(t)) pour t < E(X).

Ces inégalités améliorent considérablement l’inégalité de Markov. Cependant, elles ne sont valables que pour des lois admettant des moments de tous ordres.

Nous reviendrons sur l’utilisation de la transformée de Laplace pour une somme de v.a.r. dans la section 4.1.

3. LA NOTION D’INDÉPENDANCE

3.1 INDÉPENDANCE DÉVÉNEMENTS ET DE CLASSES DÉVÉNEMENTS

Le concept d’indépendance est l’une des spécificités majeures des probabilités par rapport à l’analyse.

Définition. On dit que des événements A1, · · · , Ansont indépendants si pour tout I⊂ {1, · · · , n}, on a P

\

i∈I

Ai



=

i∈I

P(Ai).

Tout événement est donc indépendant de Ω et /0. De plus, si A et B sont indépendants, il en va de même pour A et Bc. On trouvera bien d’autres propriétés de cette nature dans [FF1, p. 58].

Exemple. Le modèle probabiliste associé à l’expérience aléatoire de 2 lancers indépendants d’un dé équilibré est (Ω , P), avec Ω = {1, · · · , 6}2et P({ω}) = 1/6 pour chaque éventualité ω. Les événements A : "le 1er lancer donne un nombre pair" et B :

"le 2nd lancer donne un nombre impair" sont indépendants. Il est important de noter que l’indépendance des événements 2 à 2 n’est pas suffisante : si C est l’événement "les 2 lancers donnent des nombres de même parité", alors les 3 événements sont indépendants 2 à 2, mais A, B,C ne constitue pas un système d’événements indépendants, car P(A ∩ B ∩C) = 0 6= P(A)P(B)P(C).

Le concept d’indépendance s’exporte naturellement à une suite infinie.

Définition. Soit (An)n≥1 une suite d’événements. On dit que les événements A1, A2, · · · sont indépendants si toute suite finie extraite de la suite(An)n≥1est constituée d’événements indépendants.

Pour les classes d’événements, la notion d’indépendance est définie comme suit :

Définition. Les classes d’événements C1,C2, · · · sont dites indépendantes si, pour tous A1∈C1, A2∈C2, · · · , les événements A1, A2, · · · sont indépendants.

En particulier, cette définition généralise la notion d’indépendance de tribus. Le résultat ci-dessous, sur lequel on serait tenté de jeter un coup d’oeil distrait, est d’utilité constante dans la manipulation des v.a. indépendantes :

Théorème [FF1, p. 60]. Soient π1, π2, · · · des classes d’événements qui sont indépendantes. Si, pour chaque i ≥ 1, πiest stable par intersection finie, les tribus σ (π1), σ (π2), · · · sont indépendantes.

(7)

3.2 INDÉPENDANCE DE VARIABLES ALÉATOIRES

L’idée est la suivante : deux v.a. sont indépendantes si les tribus qu’elles engendrent le sont. On se permet dans ce qui suit d’aborder d’emblée le cas d’une suite éventuellement infinie de v.a. Cela suppose que l’on puisse définir une notion de mesure produitsur (Rd)N par exemple, ce que nous admettrons ici. La construction d’une telle probabilité fait l’objet du théorème de prolongement de Kolmogorov, qui ne figure pas au programme de l’agrégation.

Définition. Les v.a. (Xn)n≥1à valeurs dans Rdsont indépendantes si les tribus σ (X1), σ (X2), · · · sont indépendantes.

On en déduit par un argument habituel de densité que les v.a. (Xn)n≥1à valeurs dans Rdsont indépendantes si, seulement si, pour tout I ⊂ N?fini et toute famille de fonctions mesurables bornées (ou positives) (gi)i∈Idéfinies sur Rdet à valeurs dans R (cf [O, p. 42]) :

E



i∈I

gi(Xi)

=

i∈I

E gi(Xi).

L’indépendance entre v.a. est une propriété de la loi. Considérons le cas de 2 v.a. (extension immédiate au cas de n v.a.). Les v.a.

X1et X2sont indépendantes (on notera cette propriété X1⊥⊥ X2) si, et seulement si, P(X1,X2)= PX1⊗ PX2 (cf [FF1, p. 132]

ou [O, p. 41]). Selon la nature de la loi du couple (discrète ou à densité), on en déduit les critères d’indépendance suivants (cf [O, p. 43]) :

. Si ∀i, Xipossède une densité par rapport à la mesure de Lebesgue sur Rd, on a : X1⊥⊥ X2⇔ f(X1,X2)(x1, x2) = fX1(x1) fX2(x2), pour Lebesgue-presque tout (x1, x2);

. Si ∀i, Xiest à valeurs dans un ensemble discret D, on a : X1⊥⊥ X2

P(X1= x1, X2= x2) = P(X1= x1)P(X2= x2), ∀x1, x2∈ D.

Remarquer ici l’usage de la virgule, qui remplace le symbole "∩". Combiné au théorème de la loi image, on peut utiliser ces caractérisations de l’indépendance pour en déduire facilement la loi de certaines transformations de v.a. A titre d’exemple, si X⊥⊥ Y avec X ∼ Y ∼N (0,1), X/Y suit la loi de Cauchy.

Par ailleurs, le dernier théorème de la section 3.1 montre que des v.a.r. X1et X2sont indépendantes dès que pour chaque s,t ∈ R : P(X1≤ s, X2≤ t) = P(X1≤ s)P(X2≤ t).

Cette propriété s’étend facilement au cas d’une suite de v.a.r. De manière plus générale, on a un critère d’indépendance entre v.a.

qui est relativement simple :

Théorème. Soit (Xi)i≥1une suite de v.a. à valeurs dans Rd, et pour chaque i≥ 1, πi⊂B(Rd) une classe stable par intersection finie et telle que σ (πi) =B(Rd). Si les classes d’événements X1−11), X2−12), · · · sont indépendantes, alors les v.a. (Xi)i≥1 sont indépendantes.

Quelques exemples incontournables.

. Soient X ⊥⊥ Y , avec X ∼N (0,1) et Y ∼ N (0,1). Notons (R,Θ) la représentation polaire du vecteur aléatoire (X,Y)t. Alors, R ⊥⊥ Θ , R2∼E (1/2) et Θ ∼ U [0,2π] (cf [FF1, p. 198]).

. Soient X ⊥⊥ Y , avec X ∼E (λ1) et Y ∼E (λ2). Alors, inf(X ,Y ) ∼E (λ1+ λ2). [Utilisation de la f.r.]

. Soient X1, · · · , Xndes v.a.r. indépendantes et de même loi, de densité f par rapport à la mesure de Lebesgue, et de f.r. F. On note σ une permutation aléatoire de {1, · · · , n} (en fait la seule p.s., car P(Xi= Xj) = 0 si i 6= j) telle que Xσ (1)≤ · · · ≤ Xσ (n). Alors, la v.a. Xσ (k)admet une densité, qui vaut (cf [O, p. 79]) :

n f(x)Ck−1n−1F(x)k−1 1 − F(x)n−k

, x∈ R.

La suite Xσ (1), · · · , Xσ (n)est la statistique d’ordre associée à la suite X1, · · · , Xn.

. Soient X , Y des v.a.r. avec X ⊥⊥ Y . On suppose que le vecteur aléatoire M = (X,Y )t possède une densité par rapport à la mesure de Lebesgue, et que cette densité est strictement positive en tout point. Alors, on a l’équivalence : ∃σ > 0, tel que X∼ Y ∼N (0,σ2) ⇔ la densité de M est radiale (cf [FF1, p. 157]).

. Soient (Xn)n≥1 des v.a.r. indépendantes et de même loi. On note Gn= card{i ∈ {1, · · · , n} : Xi≤ 1} et Dn= n − Gn. Soit N ∼P(k), avec N ⊥⊥ (Xn)n≥1. Alors, DN∼P(kP(X1> 1)), GN ∼P(kP(X1≤ 1)), et surtout DN ⊥⊥ GN. [Une curiosité !]

(8)

Mentionnons enfin un dernier résultat important (conséquence du théorème de Fubini) : Théorème [FF1, p. 132]. Soient X1, · · · , Xndes v.a.r. intégrables. Alors :

E

n

i=1

Xi =

n

i=1

E[Xi].

3.3 INDÉPENDANCE ET FONCTION CARACTÉRISTIQUE

Comme la loi d’une v.a. est caractérisée par sa f.c., il est naturel de voir l’indépendance, qui est une propriété de loi, via une propriété de la f.c.

Théorème [O, p.205]. Soient X1, · · · , Xndes v.a.r. Elles sont indépendantes si, et seulement si, ϕ(X1,··· ,Xn)(t1, · · · ,tn) = ϕX1(t1) · · · , ϕXn(tn), ∀t1, · · · ,tn∈ R.

On montre facilement avec ce critère que si X et Y sont des v.a.r. avec X ⊥⊥ Y et X ∼ Y ∼N (0,1), alors, (X + Y)/√ 2 et (X −Y )/√

2 sont indépendantes et de même loiN (0,1).

Si X et Y sont des v.a.r. indépendantes et de carrés intégrables, cov(X ,Y ) = 0. Mais la réciproque est en général fausse (prendre X ∼N (0,1) et Y = X2). Les 2 résultats qui suivent établissent des réciproques, dans des contextes particuliers (leurs preuves utilisent la f.c.) :

Théorème.

. [O, p. 225]. Soient X ,Y des v.a.r. bornées, i.e. il existe C > 0 tel que P(|X| ≤ C) = P(|Y | ≤ C) = 1. Alors, X ⊥⊥ Y ⇔ cov(Xk,Y`) = 0, ∀k, ` ∈ N.

. [O, p. 252]. Soit X = (X1, · · · , Xd)t un vecteur gaussien de Rd. Alors, les composantes de X sont des v.a.r. indépen- dantes⇔ V(X) est diagonale.

Si X n’est pas un vecteur gaussien, le dernier résultat est faux. En effet, soient Z ⊥⊥ ε, avec Z ∼N (0,1) et P(ε = ±1) = 1/2. Si Y= εZ ∼N (0,1), le vecteur aléatoire (Z,Y)tn’est pas gaussien. Or, cov(Z,Y ) = 0, mais Z et Y ne sont pas indépendantes.

Citons enfin un dernier résultat remarquable, quoique anecdotique, dont la preuve utilise la f.c. La seule référence pour la preuve ([O, p. 280]) est beaucoup trop longue, et peut être considérablement simplifiée (cf fascicule d’exercice de M. Gradinaru pour le Master 1).

Théorème [O, p. 280]. Soient X et Y des v.a.r. indépendantes et de même loi de carré intégrable. Alors, X et Y suivent des lois gaussiennes⇔ X +Y ⊥⊥ X −Y .

Arguments de la preuve. On peut supposer que les 2 v.a. sont centrées (i.e. d’espérance nulle) et réduites (i.e. de variance 1).

Si X et Y suivent une loi gaussienne, un calcul de f.c. montre que X +Y ⊥⊥ X −Y . Supposons maintenant que X +Y ⊥⊥ X −Y , et notons ϕ la f.c. de X . Alors, ϕ(2t) = ϕ(t)3ϕ (−t). Puisque ϕ (0) = 1, on en déduit par l’absurde que ϕ ne s’annulle jamais. Par ailleurs, comme X ∈ L2(P), on sait (dernier théorème de la section 2.1) que ϕ(t) = 1 − t2/2 + o(t2) au voisinage de 0. Par suite, si ψ(t) = ϕ(t)/ϕ(−t), on a ψ(t) = 1 + o(t2) au voisinage de 0. Comme ψ(2t) = ψ(t)2et ψ(0) = 1, cela entraîne que ψ ≡ 1, i.e. ϕ(t) = ϕ(−t). Ainsi, ϕ est à valeurs réelles positives et vérifie ϕ(t) = ϕ(t/2)4. Comme ϕ est de classeC2avec ϕ(0) = 1, ϕ0(0) = 0 et ϕ00(0) = −1, on en déduit que ϕ(t) = e−t2/2. •

3.4 LE LEMME DEBOREL-CANTELLI

Pour une suite d’événements (An)n, on note : lim sup

n

An=\

n [

k≥n

Ak et lim inf

n An=[

n

\

k≥n

Ak.

L’ensemble lim supnAncontient les éventualités qui sont dans une infinité des An, alors que lim infnAnest l’ensemble des éven- tualités qui, à partir d’un certain rang, sont dans tous les An. Du coup, lim infnAn⊂ lim supnAn.

(9)

Lemme de Borel-Cantelli [O, p. 51]. Soit (An)nune suite d’événements.

(i) ∑nP(An) < ∞ ⇒ P(lim supnAn) = 0;

(ii) Si les événements(An)nsont indépendants, ∑nP(An) = ∞ ⇒ P(lim supnAn) = 1.

Dans le cadre du lemme de Borel-Cantelli, il est difficile de ne pas évoquer les 2 applications qui suivent.

Jeu de pile ou face. On joue à pile ou face une infinité de fois. L’événement "N piles consécutifs" apparaît une infinité de fois p.s. d’après le lemme de Borel-Cantelli.

Marche aléatoire sur Z. Soient (Xi)i≥1 des v.a. indépendantes et de même loi telle que P(X1= 1) = 1 − P(X1= −1) = p. On pose S0= 0 et Sn= X1+ · · · + Xnpour n ≥ 1. La suite de v.a. (Sn)n≥1, ou processus stochastique, est la marche aléatoire sur Z issue de 0. D’après la formule de Stirling,

P(S2n= 0) = C2nn pn(1 − p)n∼ 1

π n 4p(1 − p)n

. On s’intéresse au nombre de retour de (Sn)n≥0en 0 (cf [D, p. 188]).

. Cas p 6= 1/2. D’après le lemme de Borel-Cantelli, P(lim supn{Sn= 0}) = 0 ;

. Cas p = 1/2. Pour m ≥ 0 et k ≥ 1, notons Am,k= {Sm= 0, Sn6= 0 ∀n ≥ m + k}. Par indépendance des accroissements Sm et Sn− Smsi n ≥ m :

P(Am,k) = P(Sm= 0, Sn− Sm6= 0, ∀n ≥ m + k)

= P(Sm= 0) P(Sn− Sm6= 0, ∀n ≥ m + k) = P(Sm= 0) P(Sj6= 0, ∀ j ≥ k).

Une éventualité est dans au plus k événements (Am,k)m≥0, donc ∑m≥01Am,k≤ k. Par suite, k≥

m≥0

P(Am,k) ≥

m≥0

P(Sm= 0) P(Sj6= 0, ∀ j ≥ k).

Comme ∑m≥0P(Sm= 0) = ∞, on a forcément P(Sj6= 0, ∀ j ≥ k) = 0, et ceci pour tout k ≥ 1. On en déduit que P(lim infn{Sn6=

0}) = 0, soit P(lim supn{Sn= 0}) = 1.

3.5 LA LOI DU0 − 1DEKOLMOGOROV

Pour une suite de tribus (An)n≥1, on noteAla tribu asymptotique qui lui est associée, i.e.

A=\

n≥1

σ

[

k≥n

Ak

 .

Un événement fait partie de la tribu asymptotique s’il est dans chaque tribu σ (∪k≥nAk).

Loi du 0-1 de Kolmogorov [O, p. 50]. Si les tribus (An)n≥1sont indépendantes, alors∀A ∈A: P(A) ∈ {0, 1}.

Considérons maintenant le cas particulier suivant : soit (Xn)n≥1une suite de v.a. indépendantes à valeurs dans R, et Ak= σ (Xk).

La tribu asymptotique vaut :

A= \

n≥1

σ (Xk, k ≥ n).

Les v.a. lim supnXnet lim infnXn, qui sontA-mesurable, sont donc p.s. constantes. De plus, {(Xn)n≥1converge dans R} ∈ A. De nouveau, comme les (Xn)n≥1 sont indépendantes, cet événement est de probabilité 0 ou 1 d’après la loi du 0-1. De même, {∑nXnconverge} ∈Aest de probabilité 0 ou 1.

Séries entières à coefficients aléatoires. En poursuivant dans le même contexte, considérons la série entière à coefficients aléatoires ∑n≥1Xnzn. Son rayon de convergence R, qui est une v.a. A-mesurable d’après la règle d’Hadamard, est donc p.s.

constant. Si X1∈ L1(P), R ≥ 1 p.s. car, par convergence monotone : E



n≥1

Xnzn

≤ E(|X1|)

n≥1

|z|n.

De plus, si P(X1= 0) < 1, il existe α > 0 tel que ∑nP(|Xn| ≥ α) = ∞. Comme les v.a. (Xn)nsont indépendantes, on en déduit du lemme de Borel-Cantelli que P(lim supn{|Xn| ≥ α}) = 1. Du coup, presque sûrement, il existe une suite (nk)ktelle que |Xnk| ≥ α pour chaque k. On utilise maintenant la règle d’Hadamard :

R−1= lim sup

n

|Xn|1/n≥ lim

k α1/nk= 1,

(10)

pour en déduire que R ≤ 1. Sous les hypothèses mentionnées jusqu’ici, le rayon de convergence de la série entière à coefficients aléatoires vaut 1. On peut même montrer qu’il n’y a pas convergence sur le bord du disque de convergence.

4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES

4.1 QUELQUES EXEMPLES DE SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES

Soient X1, · · · , Xndes v.a.r. indépendantes, et Mnleur somme : Mn= X1+ · · · + Xn. Si les v.a. sont de carré intégrables, alors, du fait de leur indépendance, cov(Xi, Xj) = 0 si i 6= j et donc :

var(Mn) =

n

i=1

var(Xi).

L’utilisation de la f.c. permet souvent de trouver facilement la loi de la somme de v.a. indépendantes, dont les lois font partie d’une même famille. Dans les cas standards, on peut ainsi retrouver :

. Si ∀i, Xi∼ B(ni, p), Mn∼B(∑ni=1ni, p) ; . Si ∀i, Xi∼P(λi), Mn∼P(∑ni=1λi) ;

. Si ∀i, Xi∼N (mi, σi2), Mn∼N (∑ni=1mi, ∑ni=1σi2) ; . Si ∀i, Xi∼ γ(ai, λ ), Mn∼ γ(∑ni=1ai, λ ).

Identité de Wald [FF2, p. 23]. Soient (Xi)i≥1des v.a. indépendantes et de même loi intégrable, et S une v.a. intégrable à valeurs dans N?telle que pour chaque k≥ 1 : {S = k} ∈ σ (X1, · · · , Xk) (temps d’arrêt). Alors,

E

 S

i=1

Xi



= E(X1) E(S).

Ruine du joueur. Soient (ξi)i≥1des v.a.r. indépendantes, et de même loi de Rademacher, i.e. P(ξ1= ±1) = 1/2. On note G0= 0 et pour n ≥ 1, Gn= ξ1+ · · · + ξn. Comme (ξ1+ 1)/2 ∼B(1/2), on a (Gn+ n)/2 ∼B(n,1/2). La suite de v.a. (Gn)n≥0, appelée marche aléatoire simple symétrique sur Z, modélise le gain d’un joueur qui affronte une banque. En effet, Gnreprésente le gain d’un joueur à l’issue de la n-ième partie de pile ou face, selon la règle : il met en jeu a euros au jeu de pile ou face ; il perd 1 euro à chaque pile, et il en gagne 1 à chaque face ; s’il arrive à b euros (censé représenter la fortune totale de la banque), il a gagné le jeu, et s’il arrive à −a euro, c’est une défaite. La v.a. T = inf{n ≥ 0 : Gn∈ {−a, b}} représente le numéro de la dernière partie du jeu. Toute la question est de savoir si P(T < ∞) = 1, i.e. le jeu s’arrête-t-il ? Dans l’affirmative, il faut calculer la loi de la v.a.

GT, afin de répondre à la question : quelle est la probabilité que le joueur gagne ?

. La réponse à la 1ère question est affirmative, car pour chaque k ∈ Z, P(Gn= k) → 0 lorsque n → ∞ (formule de Stirling) et pour chaque n ≥ 1, {T = ∞} ⊂ {Gn∈ {−a + 1, · · · , b − 1}}. Une autre preuve sera apportée avec le théorème central limite(cf section 6.2). Noter que, en particulier, P(GT∈ {−a, b}) = 1.

. Pour la 2ème question, on remarque que pour tous n, k ≥ 1, {inf(T, n) = k} ∈ σ (ξ1, · · · , ξk). Donc, d’après l’identité de Wald, E(Ginf(n,T )) = 0 pour chaque n ≥ 1. Comme Ginf(n,T )→ GT p.s. et |Ginf(n,T )| ≤ max(a, b), on en déduit avec le théorème de Lebesgue que E(GT) = 0. Par suite, P(GT = −a) = b/(a + b).

4.2 UTILISATION DE LA TRANSFORMÉE DELAPLACE POUR LES SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES

Les résultats ci-dessous prolongent le théorème principal de la section 2.2. Ce sont aussi des exemples d’utilisation de la trans- formée de Laplace en probabilités.

Théorème de grandes déviations [DD2, p. 174]. Soient (Xi)i≥1des v.a.r. indépendantes et de même loi, et Sn= X1+ · · · + Xn. On suppose que l’intérieur de IX1 est un voisinage de 0. Soit ε > 0. Alors, il existe a > 0 tel que pour chaque n ≥ 1 :

P



Sn

n − E(X1) ≥ ε

≤ e−na.

La moyenne de Césarro Sn/n converge donc -en un sens que nous préciserons (cf section 5)- vers E(X1) à vitesse exponentielle, lorsque n → ∞.

Théorème de Chernoff [DD2, p. 174]. Soient (Xi)i≥1 des v.a.r. indépendantes et de même loi, et Sn= X1+ · · · + Xn. On suppose que l’intérieur de IX1 est un voisinage de 0. Notons Ψ la dérivée de lnLX1, α = inf{Ψ (t),t ∈ IX1} et β = inf{Ψ (t),t ∈ I }. Alors,

(11)

(i) (1/n) ln P(Sn≥ nt) → −hX1(t) si β > t > E(X1) ; (ii) (1/n) ln P(Sn≤ nt) → −hX1(t) si α < t < E(X1).

Comme hX1(t) > 0 si t 6= E(X1), le théorème de Chernoff nous donne des évaluations très fines de la déviation de la moyenne Sn/n par rapport à sa moyenne E(X1). Si l’on compare au résultat donné par l’inégalité de Bienaymé-Tchebychev, on a pour chaque ε > 0, en notant t = ε + E(X1) :

P(Sn≥ nt) ≤ P(|Sn− nE(X1)| ≥ nε) ≤var(X1) ε2

. On peut donc juste montrer que lim supn(1/n) ln P(Sn≥ nt) ≤ 0. Sans commentaire ...

4.3 LOI DE LA SOMME DE VARIABLES ALÉATOIRES INDÉPENDANTES ET PRODUIT DE CONVOLUTION

On rappelle que le produit de convolution de 2 mesures de probabilité µ et ν sur Rd, noté µ ? ν, est défini par la propriété : Z

Rd

f d(µ ? ν) = Z

Rd×Rd

f(x + y) µ ⊗ ν(dx, dy),

pour chaque fonction f : Rd→ R borélienne positive (cf [O, p. 63]). Noter que µ ? ν est une probabilité. Par ailleurs, l’opération ? est commutative, et la mesure de Dirac en 0 est élément neutre.

Pour 2 v.a. X et Y indépendantes et à valeurs dans Rd, on vérifie que ˆPX+Y = ϕX+Y= ϕXϕY = ˆPXY. Par ailleurs, cette dernière quantité est aussi la transformée de Fourier de la loi PX? PY. Par injectivité, on en déduit le résultat :

Théorème [O, p. 63]. Soient X , Y des v.a. indépendantes à valeurs dans Rd. Alors, PX+Y= PX? PY.

En particulier, si la loi de X est diffuse, i.e. PX ne charge pas les points, alors la loi de X + Y est diffuse. En effet, pour chaque t∈ Rd, d’après le théorème de Fubini-Tonelli :

P(X + Y = t) = Z

Rd

1{t}d(PX? PY) = Z

Rd

PX({t − y})PY(dy) = 0.

La loi de la somme de 2 v.a. indépendantes étant représentée par le produit de convolution des lois, on peut donc écrire, d’après les résultats de la section 4.1,P(λ1) ?P(λ2) =P(λ1+ λ2),N (m1, σ12) ?N (m2, σ22) =N (m1+ m2, σ12+ σ22),B(n1, p) ? B(n2, p) =B(n1+ n2, p) ...

En pratique, le produit de convolution entre mesures ne se prête pas très bien au calcul de la loi de la somme de v.a. indépendantes.

On lui préférera souvent un calcul basé sur la notion de f.c., sauf éventuellement lorsque les v.a. possèdent des densités par rapport à la mesure de Lebesgue, ou si elles ont des lois discrètes. Dans ces cas, le produit de convolution prend une forme simple, par exemple :

Théorème [O, p. 64]. Soient X et Y des v.a. indépendantes à valeurs dans Rd. Si elles possèdent chacune une densité par rapport à la mesure de Lebesgue, alors X+Y possède une densité par rapport à la mesure de Lebesgue, et

fX+Y(z) = fX? fY(z) = Z

Rd

fX(x) fY(z − x)dx = Z

Rd

fY(x) fX(z − x)dx.

(12)

5. CONVERGENCES STOCHASTIQUES

5.1 LES DIFFÉRENTES NOTIONS DE CONVERGENCE

Définition. Soient (Xn)n, X des v.a. à valeurs dans Rd, etk.k une norme sur Rd. Alors, (1). (Xn)nconverge p.s. vers X si P(Xn→ X) = 1. On note Xnp.s.→ X ;

(2). (Xn)nconverge en probabilité vers X si P(kXn− Xk ≥ ε) → 0, ∀ε > 0. On note Xn→ X ;P

(3). (Xn)nconverge dans Lp(P) vers X si E(kXn− Xkp) → 0. On note XnL→ X ;p (4). (Xn)nconverge en loi vers X siRRd f dPXnR

Rd f dPX,∀ f : Rd→ R continue bornée. On note Xn→ X.L

On trouvera dans [FF1, chap. 16] les relations entre ces différents modes de convergence, ainsi que des contre-exemples. Men- tionnons seulement que les faits suivants :

. La convergence p.s. et la convergence Lp(P) entraînent la convergence en probabilité, et cette dernière entraîne la conver- gence en loi ;

. Une suite converge en probabilité si, et seulement si, de toute suite d’entiers, on peut extraire une sous-suite pour laquelle la convergence a lieu p.s. Contrairement aux autres notions de convergence, la convergence p.s. n’est donc pas associée à une métrique ;

. Si une suite converge en loi vers une v.a. dégénérée, i.e. une v.a. de loi de Dirac, alors la convergence a lieu en probabilité.

Par ailleurs, les convergences p.s., en probabilité et en loi sont stables sous l’action des fonctions continues : si Xn→ X p.s. (resp.

en loi, en probabilité), et si f est une fonction continue, alors f (Xn) → f (X ) p.s. (resp. en loi, en probabilité). En revanche, la convergence Lp(P) ne respecte pas ce principe.

Dans les espaces de probabilité, le théorème de Lebesgue admet une version sous des conditions plus faibles :

Théorème de Lebesgue. Soient (Xn)net X des v.a. à valeurs dans Rdtelles que Xn→ X et supP nkXnk ∈ L1(P). Alors, XnL1

→ X.

5.2 LA CONVERGENCE PRESQUE SÛRE

La convergence p.s., n’étant pas associée à une métrique, est sans doute la plus obscure. Pour illustrer ceci, considérons une suite d’événements indépendants (An)n, tel que P(An) = 1/n. On a 1An → 0, mais (1P An)nne converge pas p.s. En effet, pour chaque ε ∈]0, 1], la série de terme général P(1An ≥ ε) diverge et donc P(lim supn{1An≥ ε}) = 1 d’après le lemme de Borel-Cantelli. En clair, P-presque toute éventualité est dans une infinité des événements ({1An ≥ ε})n, ce qui montre que (1An)nne converge pas p.s. vers 0.

Le lemme de Borel-Cantelli nous donne un critère simple de convergence p.s. Ce critère nous montre que, d’une certaine manière, la convergence p.s. correspond à une convergence en probabilité "suffisamment rapide".

Théorème [FF1, p. 211]. Soient (Xn)n, X des v.a. à valeurs dans Rd. Alors, Xnp.s.→ X si, pour chaque ε > 0, la série de terme général P(kXn− Xk ≥ ε) est convergente.

Si (An)nest une suite d’événements tels que P(An) = 1/n2, on a donc 1An p.s.→ 0.

Par ailleurs, dans le contexte du théorème de grandes déviations de la section 4.1, on a Sn/np.s.→ E(X1). C’est une forme "forte"

de la loi des grands nombres, la convergence ayant lieu p.s. Cependant, le contexte est assez restrictif, puisque X1admet des moments de tous ordres.

5.3 LA CONVERGENCE EN PROBABILITÉ

On peut donner une forme "faible" à la loi des grands nombres, mais sous des conditions plus générales. Soit (Xi)i≥1une suite de v.a.r. indépendantes et de même loi, et Sn= X1+ · · · + Xn. Si X1∈ L2(P), alors d’après l’inégalité de Bienaymé-Tchebychev, on a pour chaque ε > 0 :

P



Sn

n − E(X1) ≥ ε

≤var(Sn/n)

ε2 =var(X1) nε2 .

(13)

Une preuve probabiliste du théorème de Weierstrass. Poursuivons avec les mêmes notations. Soit f : [0, 1] → R une fonction continue. Fixons x ∈ [0, 1], et supposons que X1∼B(x). Puisque E(X1) = x et f est continue bornée, E( f (Sn/n)) → f (x) d’après le théorème de Lebesgue et la loi faible des grands nombres. Comme Sn∼B(n,x), on a

E

 fSn

n



=

n

k=0

Cnkfk n



xk(1 − x)n−k,

c’est-à-dire que f a été approchée ponctuellement par une suite de polynômes. On peut montrer avec un peu plus de travail que la convergence est en fait uniforme (cf [FF1, p. 234]) : cette méthode constitue une démonstration efficace du théorème de Weierstrass.

5.4 LA CONVERGENCE EN LOI

Tout d’abord, le cas où les v.a. sont discrètes :

Théorème [O, p. 317]. Soient (Xn)n, X des v.a. à valeurs dans Zd. Alors : P(Xn= k) → P(X = k) ∀k ∈ Zd⇔ Xn→ X.L Il peut être utile de disposer de la version de la convergence en loi ci-dessous lorsque l’on a affaire à des suites de v.a. qui sont définies par des sup ou des inf, car le calcul de la f.r. est souvent simple :

Théorème [O, p. 318]. Soient (Xn)n, X des v.a.r. Alors, FXn → FXen tout point de continuité de FX⇔ Xn→ X.L Soit (Xi)i≥1une suite de v.a. indépendantes et de même loiE (1). On note Mn= sup{Xi, i ∈ {1, · · · , n}}. Pour chaque x ∈ R :

P(Mn− ln n ≤ x) = FX1(x + ln n)n

= 1 −1

ne−xn

→ exp(−e−x).

Comme la fonction limite est une f.r., elle est associée à une loi (on peut noter aussi que cette loi est à densité par rapport à la mesure de Lebesgue). La suite (Mn− ln n)nconverge donc en loi.

Le résultat ci-dessous est particulièrement adapté à des suites de v.a. qui sont définies par des sommes de v.a. indépendantes : Théorème de P. Lévy [FF1, p. 219]. Soient (Xn)n, X des v.a. à valeurs dans Rd. Alors : ϕXn→ ϕXponctuellement⇔ XnL X .

Un simple calcul de f.c. montre alors queB(n, pn)→L P(λ), si npn→ λ . Noter ici l’abus de notation consistant à remplacer les v.a. par leurs lois. Plus généralement, un phénomène aléatoire qui peut se représenter comme une superposition d’événements rares et indépendants suit approximativement une loi de Poisson :

Théorème des événements rares [O, p. 321]. Soit, pour chaque n, {An, j, j ∈ Mn} une famille finie d’événements indépen- dants. On pose pn, j= P(An, j), et on note

Sn=

j∈Mn

1An, j.

On suppose que Mn% ∞, maxj∈Mnpn, j→ 0 et ∑j∈Mnpn, j→ λ . Alors, XnL P(λ).

Noter l’usage de la notation hybride "XnL P(λ)".

Le "problème des rencontres" constitue un autre exemple où la loi de Poisson intervient en tant que limite d’une suite de v.a. La preuve présentée dans [FF1, p. 259] utilise le théorème de P. Lévy, et donc la f.c.

5.5 CONVERGENCE DE SOMMES ET DE PRODUITS DE VARIABLES ALÉATOIRES

Soient (Xn)n, (Yn)n, X et Y des v.a.r. Si Xn→ X et Yn→ Y p.s. ou en probabilité, alors la suite de vecteurs aléatoires (Xn,Yn)t converge vers (X ,Y )t selon le même mode de convergence. Comme ces 2 formes de convergence sont stables sous l’action des fonctions continues, on peut en déduire des résultats du type Xn+Yn→ X +Y p.s. ou en probabilité.

Cependant, ce n’est plus vrai avec la convergence en loi : le fait que les suites (Xn)n et (Yn)nconvergent en loi vers X et Y n’entraîne pas que la suite des vecteurs aléatoires (Xn,Yn)tconverge (sauf si Xn⊥⊥ Yn) : la raison principale est que la connaissance

(14)

des lois marginales de Xnet Yn ne permet en général pas de retrouver la loi du vecteur aléatoire (Xn,Yn)t. Heureusement, des résultats partiels existent quand même dans ce sens :

Lemme de Slutsky [O, p. 347]. Soient (Xn)n,(Yn)n, X des v.a.r et y∈ R. Si Xn L

→ X et Yn→ y, alors XP n+ Yn→ X + y etL XnYn→ Xy.L

A titre d’exemple, considérons le cas d’une suite de v.a.r. (Xn)n telle que, pour une suite croissante (vn)n, on ait vnXn→ X.L Observons que Xn→ 0. Soit maintenant f : R → R une fonction borélienne nulle en 0, et dérivable en 0. Alors, d’après le lemmeP de Slutsky :

vnf(Xn) = f(Xn) Xn

vnXn→ fL 0(0)X . Cette remarque porte le nom de δ -méthode.

6. LA LOI FORTE DES GRANDS NOMBRES ET LE THÉORÈME DE LA LIMITE CENTRALE 6.1 LA LOI FORTE DES GRANDS NOMBRES

Ainsi que nous l’avons déjà vu dans les sections 5.2 et 5.3, le titre de "loi des grands nombres" est en général conféré à un théorème limite portant sur une moyenne de Césarro de v.a. On y ajoute le qualificatif de "fort" lorsque la convergence à lieu p.s.

(cf section 5.2).

Il existe de nombreuses formes de la loi forte des grands nombres (cf [O, chap. 10]). Nous mentionnons ici la forme la plus habituelle. Dorénavant, pour une suite (Xi)i≥1de v.a., on note

n=1 n

n i=1

Xi,

sa moyenne de Césarro, ou moyenne empirique, si l’on considère, par abus, X1, · · · , Xncomme des observations d’un phénomène aléatoire.

Loi forte des grands nombres de Kolmogorov-Khintchine [O, p. 113]. Soit (Xi)i≥1une suite de v.a. à valeurs dans Rd, supposées indépendantes et de même loi. Les 2 assertions suivantes sont équivalentes :

(i) il existe m∈ R tel que ¯Xn p.s.→ m ; (ii) X1∈ L1(P).

Si (ii) est vérifiée, m= E(X1) et la convergence à lieu dans L1(P).

On retrouve en statistique une application importante de la loi forte des grands nombres. Supposons que l’on ait observé une réalisation (x1, · · · , xn) de (X1, · · · , Xn), i.e. pour une éventualité ω, xi= Xi(ω). Une question fondamentale de la statistique est : comment retrouver la loi, supposée commune, des v.a. à partir des observations x1, · · · , xn? Placons-nous dans le cas de v.a.r., afin de faire intervenir leur f.r. commune notée F. Si l’on a aucune idée de la loi de ces v.a.r., on peut chercher à l’estimer avec la fonction de répartition empirique Fn, définie pour chaque x ∈ R par :

Fn(x) =1 n

n i=1

1{X

i≤x}.

La loi des grands nombres suggère que p.s. cette suite de fonctions converge vers F. En effet, d’après le théorème de Kolmogorov- Khintchine, Fn(x)p.s.→ F(x). Cependant, l’ensemble de probabilité nulle sur lequel cette convergence n’a pas lieu dépend de x, et xest dans un ensemble non dénombrable. On ne peut donc pas conclure directement à la convergence p.s. de Fnvers F, et ceci quelque soit le mode de convergence. C’est l’objet du résultat ci-dessous :

Théorème de Glivenko-Cantelli [0, p. 116]. Avec les notations ci-dessus, on a : sup

x∈R

|Fn(x) − F(x)|p.s.→ 0.

Puisque la convergence ponctuelle des f.r. est un critère de convergence des lois associées, on déduit du théorème de Glivenko- Cantelli que :

1 n L

→ P 

= 1.

Riferimenti

Documenti correlati

Il potere cittadino originario è nelle mani di un gruppo di persone alleate tra loro e che combattono a cavallo: milites (chiamati anche grandi i magnati), a questi si

Giovanni Villani fa comparire sulla scena del delitto, oltre al seminatore di discordie Mosca Lamberti, anche Lambertuccio degli Amidei, padre della ragazza che Buondelmonte

11. La tutela del paesaggio agrario alla luce del codice Urbani e della convenzione europea del paesaggio. Dalle linee di politica legislativa tracciate dalla

Background: We studied late preterm and term infants who were admitted to our neonatal care unit in a tertiary hospital for unexpected episodes of cyanosis that occurred

1 - (a) Location of the Mercure Basin with respect to the main volcanic centers of central and southern Italy (b) Geological map of the Mercure Basin (modified from Giaccio et

La guerre a constitué pour presque tous les pays un facteur de véritable protectionnisme agricole. Le bloquage des commu- nications et du commerce internationaux, les vastes besoins

riences (série supérieure e), on excitait l'épaule, et que dans une autre (série inférieure e') on excitait la main, on constate que, malgré la plus grande distance à

- le deuxième chapitre est dédié à la méthodologie d’analyse et à la constitution du corpus COSTENCE. Sa première partie concerne l’explication de la