Convergence de mesures

En mathématiques, plus spécifiquement en théorie des mesures, il existe différentes notions de convergence de mesures . Pour un sens général intuitif de ce que l'on entend par convergence en mesure, considérons une suite de mesures $\mu _{n}$ sur un espace, partageant une collection commune d'ensembles mesurables. Une telle suite pourrait représenter une tentative de construire des approximations «de mieux en mieux» d'une mesure $\mu$ souhaitée qui est difficile à obtenir directement. Le sens de «de mieux en mieux» est soumis à toutes les mises en garde habituelles pour prendre des limites ; pour toute tolérance d'erreur $\varepsilon >0$ , nous exigeons que N soit suffisamment grand pour n ≥ N afin de garantir que la «différence» entre $\mu _{n}$ et $\mu$ soit inférieure à $\varepsilon$ . Diverses notions de convergence spécifient précisément ce que le mot «différence» devrait signifier dans cette description ; ces notions ne sont pas équivalentes et varient en force.

Trois des notions de convergence les plus communes sont décrites ci-dessous.

Descriptions informelles

Cette section tente de fournir une description intuitive approximative de trois notions de convergence, en utilisant la terminologie développée dans les cours de calcul ; cette section est nécessairement imprécise ainsi qu'inexacte, et le lecteur doit se référer aux clarifications formelles des sections suivantes. En particulier, les descriptions ici n'abordent pas la possibilité que la mesure de certains ensembles puisse être infinie, ou que l'espace sous-jacent puisse présenter un comportement pathologique, et des hypothèses techniques supplémentaires sont nécessaires pour certaines des déclarations. Les affirmations de cette section sont cependant toutes correctes si $(\mu _{n})$ est une suite de mesures de probabilité sur un espace polonais.

Les différentes notions de convergence formalisent l'affirmation selon laquelle la « valeur moyenne » de toute fonction « suffisamment agréable » devrait converger :

\int f\,d\mu _{n}\to \int f\,d\mu

Pour formaliser cela, il faut spécifier soigneusement l'ensemble des fonctions considérées et le degré d'uniformité de la convergence.

La notion de convergence faible nécessite que cette convergence ait lieu pour chaque fonction bornée continue $f$ . Cette notion traite la convergence pour différentes fonctions $f$ indépendamment les unes des autres, i.e. que différentes fonctions $f$ peuvent nécessiter différentes valeurs de N ≤ n pour être approximées de façon égale (ainsi, la convergence n'est pas uniforme en $f$ ).

La notion de convergence forte formalise l'affirmation selon laquelle la mesure de chaque ensemble mesurable devrait converger:

\mu _{n}(A)\to \mu (A)

Encore une fois, aucune uniformité sur l'ensemble $A$ n'est requise. Intuitivement, compte tenu des intégrales des fonctions « agréables », cette notion fournit plus d'uniformité qu'une convergence faible. En fait, lorsque l'on considère des suites de mesures avec une variation uniformément bornée sur un espace polonais, une forte convergence implique la convergence $\int f\,d\mu _{n}\to \int f\,d\mu$ pour toute fonction mesurable bornée $f$ . Comme précédemment, cette convergence n'est pas uniforme en $f$ .

La notion de convergence en variation totale formalise l'affirmation selon laquelle la mesure de tous les ensembles mesurables doit converger uniformément, c'est-à-dire pour chaque $\varepsilon >0$ il existe un entier ${\textstyle N}$ tel que ${\textstyle |\mu _{n}(A)-\mu (A)|<\varepsilon }$ pour chaque ${\textstyle n>N}$ et pour chaque ensemble mesurable ${\textstyle A}$ . Comme précédemment, cela implique une convergence des intégrales avec des fonctions mesurables bornées, mais cette fois la convergence est uniforme sur toutes les fonctions bornées par une constante fixe.

Convergence en variation totale de mesures

Il s'agit de la plus forte notion de convergence présentée sur cette page et elle est définie comme suit. Soit $(X,{\mathcal {F}})$ un espace mesurable. La distance en variation totale entre deux mesures (positives) μ et ν est alors donnée par

\left\|\mu -\nu \right\|_{\text{TV}}=\sup _{f}\left\{\int _{X}f\,d\mu -\int _{X}f\,d\nu \right\}.

Ici, le supremum est pris sur tous les $f$ parcourant l'ensemble de toutes les fonctions mesurables de $X$ dans $[-1,1]$ . Cela contraste, par exemple, avec la métrique de Wasserstein, où la définition est de la même forme, mais où le supremum est pris sur tous les $f$ parcourant l'ensemble des fonctions mesurables de $X$ dans $[-1,1]$ qui ont une constante de Lipschitz au plus égale à $1$ ; ou avec la métrique de Radon, où le supremum est pris sur tous les $f$ parcourant l'ensemble des fonctions continues de $X$ dans $[-1,1]$ . Dans le cas où $X$ est un espace polonais, la métrique de la variation totale coïncide avec la métrique de Radon.

Si ${\textstyle \mu }$ et ${\textstyle \nu }$ sont tous deux des mesures de probabilité, alors la distance en variation totale est également donnée par

\left\|\mu -\nu \right\|_{\text{TV}}=2\cdot \sup _{A\in {\mathcal {F}}}|\mu (A)-\nu (A)|.

L'équivalence entre ces deux définitions peut être considérée comme un cas particulier de la dualité Monge-Kantorovich. D'après les deux définitions ci-dessus, il est clair que la distance de variation totale entre les mesures de probabilité est toujours comprise entre 0 et 2.

Pour illustrer la signification de la distance en variation totale, considérons l'expérience de pensée suivante. Supposons que l'on nous donne deux mesures de probabilité ${\textstyle \mu }$ et ${\textstyle \nu }$ , ainsi qu'une variable aléatoire $X$ . Nous savons que $X$ suit la loi ${\textstyle \mu }$ ou ${\textstyle \nu }$ mais nous ne savons pas laquelle des deux. Supposons que ces deux mesures ont comme probabilité a priori 0,5 chacune d'être la vraie loi de $X$ . Supposons maintenant que l'on nous donne un seul échantillon distribué selon la loi de $X$ et qu'on nous demande ensuite de deviner laquelle des deux distributions décrit cette loi. La quantité

{2+\|\mu -\nu \|_{\text{TV}} \over 4}

fournit alors une borne supérieure stricte sur la probabilité a priori que notre supposition soit correcte.

Étant donné la définition ci-dessus de la distance en variation totale, une suite ${\textstyle (\mu _{n})}$ de mesures définies sur le même espace de mesure converge vers une mesure ${\textstyle \mu }$ de distance de variation totale si pour chaque ${\textstyle \varepsilon >0}$ , il existe un ${\textstyle N}$ tel que pour tout $n>N$ , on a ^[1]

\|\mu _{n}-\mu \|_{\text{TV}}<\varepsilon .

Convergence forte de mesures

Pour $(X,{\mathcal {F}})$ un espace mesurable, une suite ${\textstyle (\mu _{n})}$ converge fortement vers une limite ${\textstyle \mu }$ si

\lim _{n\to \infty }\mu _{n}(A)=\mu (A)

pour tous les ensembles $A\in {\mathcal {F}}$ .

Par exemple, du fait du lemme de Riemann–Lebesgue, la suite ${\textstyle (\mu _{n})}$ de mesures sur l'intervalle $[-1,1]$ donnée par $\mu _{n}(\mathrm {d} x)=(1+\sin(nx))\,\mathrm {d} x$ converge fortement vers la mesure de Lebesgue, mais elle ne converge pas en variation totale.

Convergence faible des mesures

En mathématiques et en statistiques, la convergence faible (ou convergence étroite) est l'un des nombreux types de convergence liées à la convergence des mesures. Elle dépend d'une topologie de l'espace sous-jacent et n'est donc pas une notion de mesure purement théorique.

Il existe plusieurs définitions équivalentes de convergence faible d'une suite de mesures, dont certaines sont (apparemment) plus générales que d'autres. L'équivalence de ces conditions est parfois connue sous le nom de théorème de Portmanteau^[2] .

Définition : Soit $S$ un espace métrique muni de sa tribu borélienne $\Sigma$ . Une suite bornée de mesures de probabilité positives $P_{n}\,(n=1,2,\dots )$ sur $(S,\Sigma )$ converge faiblement vers la mesure positive finie $P$ (notée ${\textstyle P_{n}\Rightarrow P}$ ) si l'une des conditions équivalentes suivantes est remplie (ici $\operatorname {E} _{n}$ désigne l'espérance ou la norme $L^{1}$ par rapport à $P_{n}$ , tandis que $\operatorname {E}$ désigne l'espérance ou la norme $L^{1}$ par rapport à $P$ ):

$\operatorname {E} _{n}[f]\to \operatorname {E} [f]$ pour toutes les fonctions bornées et continues $f$ ;
$\operatorname {E} _{n}[f]\to \operatorname {E} [f]$ pour toutes les fonctions bornées et Lipschitz $f$ ;
$\limsup \operatorname {E} _{n}[f]\leq \operatorname {E} [f]$ pour chaque fonction $f$ semi-continue supérieurement et majorée;
$\liminf \operatorname {E} _{n}[f]\geq \operatorname {E} [f]$ pour chaque fonction $f$ semi-continue inférieurement et minorée;
$\limsup P_{n}(C)\leq P(C)$ pour tous les ensembles fermés $C$ de l'espace $S$ ;
$\liminf P_{n}(U)\geq P(U)$ pour tous les ensembles ouverts $U$ de l'espace $S$ ;
$\lim P_{n}(A)=P(A)$ pour tout ensemble $A$ tel que $P(\partial A)=0$ (où $\partial A$ est la frontière de $A$ ).

Dans le cas $S\equiv \mathbb {R}$ , muni de sa topologie habituelle, si on désigne par $(F_{n})$ et ${\textstyle F}$ les fonctions de répartition des mesures $P_{n}$ et $P$ respectivement, alors $P_{n}$ converge faiblement vers $P$ si et seulement si ${\textstyle \lim \limits _{n\to \infty }F_{n}(x)=F(x)}$ pour tous les points de continuité $x$ de ${\textstyle F}$ .

Par exemple, la suite où les $P_{n}$ sont les mesures de Dirac en $1/n$ converge faiblement vers la mesure de Dirac en 0 (si on les considère comme des mesures sur $\mathbb {R}$ avec la topologie habituelle), mais elle ne converge pas fortement. Ceci est clair intuitivement : nous savons seulement que $1/n$ est "proche" de $0$ en raison de la topologie de $\mathbb {R}$ .

Cette définition de convergence faible peut être étendue sur tout espace topologique métrisable $S$ . Il définit également une topologie faible sur ${\mathcal {P}}(S)$ , qui est l'ensemble de toutes les mesures de probabilité définies sur $(S,\Sigma )$ . La topologie faible est générée par la base d'ensembles ouverts suivante :

\left\{U_{\phi ,x,\delta }\left|{\begin{array}{c}\phi \,\colon S\to \mathbb {R} {\text{ est bornée et continue,}}\\x\in \mathbf {R} {\text{ et }}\delta >0\end{array}}\right.\right\},

où

U_{\phi ,x,\delta }:=\left\{\mu \in {\mathcal {P}}(S)\,:\,\left|\int _{S}\phi \;\mathrm {d} \mu -x\right|<\delta \right\}.

Si $S$ est également séparable, ${\mathcal {P}}(S)$ est métrisable et séparable, par exemple par la métrique de Lévy – Prokhorov, si $S$ est également compact ou polonais, ${\mathcal {P}}(S)$ l'est également.

Si $S$ est séparable, il s'intègre naturellement dans ${\mathcal {P}}(S)$ comme l'ensemble (fermé) des mesures de Dirac, et son enveloppe convexe est dense .

Il existe de nombreuses "flèches" pour ce type de convergence : les plus utilisées sont $P_{n}\Rightarrow P$ , $P_{n}\rightharpoonup P$ et $P_{n}{\xrightarrow {\mathcal {D}}}P.$ .

Convergence faible des variables aléatoires

Soit $(\Omega ,{\mathcal {F}},\mathbb {P} )$ un espace de probabilité et X un espace métrique. Si X_n, X: Ω → X est une suite de variables aléatoires, alors X _n converge faiblement (ou en distribution ou en loi ) vers X quand n → ∞ si la suite de mesures avancées ( X _n ) _∗ ( P ) converge faiblement vers X _∗ ( P ) dans le sens d'une convergence faible de mesures sur X, tel que définie ci-dessus.

Voir aussi

Références

↑ Madras et Sezer, Deniz, « Quantitative bounds for Markov chain convergence: Wasserstein and total variation distances », Bernoulli, vol. 16, n^o 3,‎ 25 février 2011, p. 882–908 (DOI 10.3150/09-BEJ238, arXiv 1102.5245)
↑ Achim Klenke, Probability Theory, Springer-Verlag, 2006 (ISBN 978-1-84800-047-6)

Ambrosio, L., Gigli, N. & Savaré, G., Gradient Flows in Metric Spaces and in the Space of Probability Measures, Basel, ETH Zürich, Birkhäuser Verlag, 2005 (ISBN 3-7643-2428-7)
Patrick Billingsley, Probability and Measure, New York, NY, John Wiley & Sons, Inc., 1995 (ISBN 0-471-00710-2)
Patrick Billingsley, Convergence of Probability Measures, New York, NY, John Wiley & Sons, Inc., 1999 (ISBN 0-471-19745-9, lire en ligne)

Portail des mathématiques

[1] Madras et Sezer, Deniz, « Quantitative bounds for Markov chain convergence: Wasserstein and total variation distances », Bernoulli, vol. 16, n^o 3,‎ 25 février 2011, p. 882–908 (DOI 10.3150/09-BEJ238, arXiv 1102.5245)

[2] Achim Klenke, Probability Theory, Springer-Verlag, 2006 (ISBN 978-1-84800-047-6)

[1]

[2]