Convergence de mesures

En mathématiques, plus spécifiquement en théorie des mesures, il existe différentes notions de convergence de mesures . Pour un sens général intuitif de ce que l'on entend par convergence en mesure, considérons une suite de mesures sur un espace, partageant une collection commune d'ensembles mesurables. Une telle suite pourrait représenter une tentative de construire des approximations «de mieux en mieux» d'une mesure souhaitée qui est difficile à obtenir directement. Le sens de «de mieux en mieux» est soumis à toutes les mises en garde habituelles pour prendre des limites ; pour toute tolérance d'erreur , nous exigeons que N soit suffisamment grand pour nN afin de garantir que la «différence» entre et soit inférieure à . Diverses notions de convergence spécifient précisément ce que le mot «différence» devrait signifier dans cette description ; ces notions ne sont pas équivalentes et varient en force.

Trois des notions de convergence les plus communes sont décrites ci-dessous.

Descriptions informellesModifier

Cette section tente de fournir une description intuitive approximative de trois notions de convergence, en utilisant la terminologie développée dans les cours de calcul ; cette section est nécessairement imprécise ainsi qu'inexacte, et le lecteur doit se référer aux clarifications formelles des sections suivantes. En particulier, les descriptions ici n'abordent pas la possibilité que la mesure de certains ensembles puisse être infinie, ou que l'espace sous-jacent puisse présenter un comportement pathologique, et des hypothèses techniques supplémentaires sont nécessaires pour certaines des déclarations. Les affirmations de cette section sont cependant toutes correctes si   est une suite de mesures de probabilité sur un espace polonais.

Les différentes notions de convergence formalisent l'affirmation selon laquelle la « valeur moyenne » de toute fonction « suffisamment agréable » devrait converger :

 

Pour formaliser cela, il faut spécifier soigneusement l'ensemble des fonctions considérées et le degré d'uniformité de la convergence.

La notion de convergence faible nécessite que cette convergence ait lieu pour chaque fonction bornée continue  . Cette notion traite la convergence pour différentes fonctions f indépendamment les unes des autres, i.e. que différentes fonctions f peuvent nécessiter différentes valeurs de N   ≤   n pour être approximées de façon égale (ainsi, la convergence n'est pas uniforme en   ).

La notion de convergence forte formalise l'affirmation selon laquelle la mesure de chaque ensemble mesurable devrait converger:

 

Encore une fois, aucune uniformité sur l'ensemble   n'est requise. Intuitivement, compte tenu des intégrales des fonctions « agréables », cette notion fournit plus d'uniformité qu'une convergence faible. En fait, lorsque l'on considère des suites de mesures avec une variation uniformément bornée sur un espace polonais, une forte convergence implique la convergence   pour toute fonction mesurable bornée   . Comme précédemment, cette convergence n'est pas uniforme en  .

La notion de convergence en variation totale formalise l'affirmation selon laquelle la mesure de tous les ensembles mesurables doit converger uniformément, c'est-à-dire pour chaque   il existe un entier   tel que   pour chaque   et pour chaque ensemble mesurable   . Comme précédemment, cela implique une convergence des intégrales avec des fonctions mesurables bornées, mais cette fois la convergence est uniforme sur toutes les fonctions bornées par une constante fixe.

Convergence en variation totale de mesuresModifier

Il s'agit de la plus forte notion de convergence présentée sur cette page et elle est définie comme suit. Soit   un espace mesurable. La distance en variation totale entre deux mesures (positives) μ et ν est alors donnée par

 

Ici, le supremum est pris sur tous les   parcourant l'ensemble de toutes les fonctions mesurables de   dans  . Cela contraste, par exemple, avec la métrique de Wasserstein, où la définition est de la même forme, mais où le supremum est pris sur tous les   parcourant l'ensemble des fonctions mesurables de   dans   qui ont une constante de Lipschitz au plus égale à   ; ou avec la métrique de Radon, où le supremum est pris sur tous les   parcourant l'ensemble des fonctions continues de   dans  . Dans le cas où   est un espace polonais, la métrique de la variation totale coïncide avec la métrique de Radon.

Si   et   sont tous deux des mesures de probabilité, alors la distance en variation totale est également donnée par

 

L'équivalence entre ces deux définitions peut être considérée comme un cas particulier de la dualité Monge-Kantorovich. D'après les deux définitions ci-dessus, il est clair que la distance de variation totale entre les mesures de probabilité est toujours comprise entre 0 et 2.

Pour illustrer la signification de la distance en variation totale, considérons l'expérience de pensée suivante. Supposons que l'on nous donne deux mesures de probabilité   et  , ainsi qu'une variable aléatoire  . Nous savons que   suit la loi   ou   mais nous ne savons pas laquelle des deux. Supposons que ces deux mesures ont comme probabilité a priori 0,5 chacune d'être la vraie loi de  . Supposons maintenant que l'on nous donne un seul échantillon distribué selon la loi de   et qu'on nous demande ensuite de deviner laquelle des deux distributions décrit cette loi. La quantité

 

fournit alors une borne supérieure stricte sur la probabilité a priori que notre supposition soit correcte.

Étant donnée la définition ci-dessus de la distance en variation totale, une suite   de mesures définies sur le même espace de mesure converge vers une mesure   de distance de variation totale si pour chaque  , il existe un   tel que pour tout  , on a [1]

 

Convergence forte de mesuresModifier

Pour   un espace mesurable, une suite   converge fortement vers une limite   si

 

pour tous les ensembles   .

Par exemple, du fait du lemme de Riemann–Lebesgue, la suite   de mesures sur l'intervalle   donnée par   converge fortement vers la mesure de Lebesgue, mais elle ne converge pas en variation totale.

Convergence faible des mesuresModifier

En mathématiques et en statistiques, la convergence faible est l'un des nombreux types de convergence liées à la convergence des mesures. Elle dépend d'une topologie de l'espace sous-jacent et n'est donc pas une notion de mesure purement théorique.

Il existe plusieurs définitions équivalentes de convergence faible d'une suite de mesures, dont certaines sont (apparemment) plus générales que d'autres. L'équivalence de ces conditions est parfois connue sous le nom de théorème de Portmanteau[2] .

Définition : Soit   un espace métrique muni de sa tribu borélienne  . Une suite bornée de mesures de probabilité positives   sur   converge faiblement vers la mesure positive finie   (notée   ) si l'une des conditions équivalentes suivantes est remplie (ici   désigne l'espérance ou la norme   par rapport à  , tandis que   désigne l'espérance ou la norme   par rapport à   ):

  •   pour toutes les fonctions bornées et continues   ;
  •   pour toutes les fonctions bornées et Lipschitz   ;
  •   pour chaque fonction   semi-continue supérieurement et majorée;
  •   pour chaque fonction   semi-continue inférieurement et minorée;
  •   pour tous les ensembles fermés   de l'espace   ;
  •   pour tous les ensembles ouverts   de l'espace   ;
  •   pour tout ensemble   tel que   (où   est la frontière de  ).

Dans le cas  , muni de sa topologie habituelle, si on désigne par   et   les fonctions de répartition des mesures  et   respectivement, alors   converge faiblement vers   si et seulement si   pour tous les points de continuité   de  .

Par exemple, la suite où les   sont les mesures de Dirac en   converge faiblement vers la mesure de Dirac en 0 (si on les considère comme des mesures sur   avec la topologie habituelle), mais elle ne converge pas fortement. Ceci est clair intuitivement : nous savons seulement que   est "proche" de   en raison de la topologie de   .

Cette définition de convergence faible peut être étendue sur tout espace topologique métrisable  . Il définit également une topologie faible sur  , qui est l'ensemble de toutes les mesures de probabilité définies sur  . La topologie faible est générée par la base d'ensembles ouverts suivante :

 

 

Si   est également séparable,   est métrisable et séparable, par exemple par la métrique de Lévy – Prokhorov, si   est également compact ou polonais,   l'est également.

Si   est séparable, il s'intègre naturellement dans   comme l'ensemble (fermé) des mesures de Dirac, et son enveloppe convexe est dense .

Il existe de nombreuses "flèches" pour ce type de convergence : les plus utilisées sont  ,   et   .

Convergence faible des variables aléatoiresModifier

Soit   un espace de probabilité et X un espace métrique. Si Xn, X: Ω → X est une suite de variables aléatoires, alors X n converge faiblement (ou en distribution ou en loi ) vers X quand n → ∞ si la suite de mesures avancées ( X n ) ( P ) converge faiblement vers X ( P ) dans le sens d'une convergence faible de mesures sur X, tel que définie ci-dessus.

Voir aussiModifier

RéférencesModifier

  1. Madras et Sezer, Deniz, « Quantitative bounds for Markov chain convergence: Wasserstein and total variation distances », Bernoulli, vol. 16, no 3,‎ , p. 882–908 (DOI 10.3150/09-BEJ238, arXiv 1102.5245)
  2. Achim Klenke, Probability Theory, Springer-Verlag, (ISBN 978-1-84800-047-6)
  • Ambrosio, L., Gigli, N. & Savaré, G., Gradient Flows in Metric Spaces and in the Space of Probability Measures, Basel, ETH Zürich, Birkhäuser Verlag, (ISBN 3-7643-2428-7)
  • Patrick Billingsley, Probability and Measure, New York, NY, John Wiley & Sons, Inc., (ISBN 0-471-00710-2)
  • Patrick Billingsley, Convergence of Probability Measures, New York, NY, John Wiley & Sons, Inc., (ISBN 0-471-19745-9, lire en ligne)