Convergence de variables aléatoires

Notions de convergence en loi et de convergence en probabilité de variables aléatoires

Dans la théorie des probabilités, il existe différentes notions de convergence de variables aléatoires. La convergence (dans un des sens décrits ci-dessous) de suites de variables aléatoires est un concept important de la théorie des probabilités utilisé notamment en statistique et dans l'étude des processus stochastiques. Par exemple, la moyenne de n variables aléatoires indépendantes et identiquement distribuées converge presque sûrement vers l'espérance commune de ces variables aléatoires (si celle-ci existe). Ce résultat est connu sous le nom de loi forte des grands nombres.

Dans cet article, on suppose que (Xn) est une suite de variables aléatoires réelles, que X est une variable aléatoire réelle, et que toutes ces variables sont définies sur un même espace probabilisé . D'éventuelles généralisations seront discutées.

Les différents modes de convergence

modifier

Il existe plusieurs notions de convergence de variables aléatoires. Elles ont toutes en commun le fait qu'elles sont insensibles face à d'éventuelles modifications négligeables des variables aléatoires. Plus précisément, si   converge vers   (selon n'importe lequel des sens ci-dessous) et si   sont d'autres variables aléatoires telles que   pour tout   et  , alors   converge aussi vers  .

Convergence essentiellement uniforme (ou L)

modifier

Rappelons qu'une variable aléatoire réelle   est dite essentiellement bornée s'il existe un nombre  , appelé borne essentielle, tel que  . Dans ce cas on définit   comme la borne inférieure de l'ensemble des bornes essentielles de  .

Définition (convergence essentiellement uniforme) —  On dit que (Xn) converge vers X essentiellement uniformément, ou encore en norme L si, pour tout n, Xn et X sont essentiellement bornées et si

 

Dans ce cas on note  .

Remarques :

  • Le fait que   et   soient essentiellement bornées implique que   l'est aussi. Ainsi la quantité   est bien définie. Plus précisément l'ensemble des variables aléatoires réelles définies sur   essentiellement bornées est un espace vectoriel réel pour lequel la fonction   est une semi-norme. Attention ce n'est pas une norme, en général on quotiente par le sous-espace des variables aléatoires presque-sûrement nulles. Sur cet espace quotient,   induit une norme.
  • Par abus de langage on parle parfois de « convergence uniforme » au lieu de « convergence essentiellement uniforme ». Cependant il ne faut pas s'y tromper, la notion de convergence donnée ci-dessus est plus faible que la convergence uniforme au sens strict. En effet, il se pourrait que les variables   soient toutes essentiellement bornées mais non bornées au sens strict auquel cas la convergence uniforme au sens strict n'aurait pas de sens. La raison pour laquelle on considère la convergence essentiellement uniforme plutôt que la convergence uniforme au sens strict et celle donnée plus haut : on veut que la convergence soit insensible face aux modifications négligeables des variables aléatoires. Ce ne serait pas le cas si on prenait la convergence uniforme au sens strict. Donnons un exemple concret : prenons   muni de la tribu   et de la probabilité définie par   et  . Prenons les variables définies par  ,  ,   et   pour tout n. Il est clair que   ne converge pas uniformément vers   au sens strict puisque pour tout n, . En revanche   converge essentiellement uniformément vers   puisque pour tout n,  .
  • Si   converge essentiellement uniformément vers   alors il existe un évènement   de probabilité 1 tel que, restreint à  ,   converge uniformément vers   au sens strict. Plus précisément,   tend vers 0, où   est la variable aléatoire qui vaut 1 sur   et 0 ailleurs (elle est donc presque-sûrement égale à 1).
  • La convergence essentiellement uniforme se généralise à des variables aléatoires à valeurs dans un espace vectoriel normé muni de sa tribu borélienne. Il est même possible de généraliser cette notion de convergence à des fonctions mesurables sur un espace mesuré.

Convergence en moyenne d'ordre p (ou Lp)

modifier

Rappelons qu'une variable aléatoire réelle   est dite avoir un moment d'ordre p > 0 fini si  . Dans ce cas on définit  .

Définition (convergence en moyenne d'ordre p) — Soit p > 0. On dit que (Xn) converge vers X en moyenne d'ordre p ou encore en norme Lp si, pour tout n, Xn et X ont un moment d'ordre p fini et si

 

ou de manière équivalente, si

 .

Dans ce cas on note  .

Remarques :

  • Le fait que   et   aient un moment d'ordre p fini implique que   aussi (pour p ≥ 1 cela est une conséquence de l'inégalité de Minkowski). Ainsi la quantité   est bien définie. Plus précisément l'ensemble des variables aléatoires réelles définies sur   ayant un moment d'ordre p fini est un espace vectoriel réel pour lequel la fonction   est une semi-norme, quand p ≥ 1, et est une semi-quasi-norme, quand 0 < p < 1. Attention ce n'est pas une norme, en général on quotiente par le sous-espace des variables aléatoires presque-sûrement nulles. Sur cet espace quotient,   induit une norme quand p ≥ 1 et induit une quasi-norme quand 0 < p < 1.
  • Pour p = 1, on parle simplement de convergence en moyenne et pour p = 2 de convergence en moyenne quadratique.
  • La convergence en moyenne d'ordre p se généralise à des variables aléatoires à valeurs dans un espace vectoriel normé muni de sa tribu borélienne. Il est même possible de généraliser cette notion de convergence à des fonctions mesurables sur un espace mesuré.
  • Pour r =2, on a le résultat suivant :

Propriété —  Soit c une constante réelle. On a alors

 

si et seulement si

 

Convergence presque sûre

modifier

On rappelle qu'un ensemble négligeable de l'espace probabilisé   est un sous-ensemble   tel qu'il existe   vérifiant   et  . Autrement dit, un ensemble négligeable est un sous-ensemble de   inclus dans un ensemble de probabilité nulle.

Définition (convergence presque sûre) —  On dit que (Xn) converge presque sûrement vers X si

 

ou de manière équivalente, s'il existe un ensemble négligeable N ⊂ Ω tel que

 

Dans ce cas on note  .

Remarques :

  • L'ensemble   appartient bien à la tribu  , donc sa probabilité est bien définie. En effet cela peut se voir en écrivant   et en utilisant les propriétés de stabilité d'une tribu.
  • La convergence presque sûre est équivalente à la condition :
 
ainsi qu'à la condition :
 
où ces limites inférieure et supérieure de suites d'ensembles sont définies par
 
et
 .
  • La convergence presque sûre est utilisée dans la loi forte des grands nombres.
  • La convergence presque sûre se généralise à des variables aléatoires à valeurs dans un espace topologique muni de sa tribu borélienne. Il est même possible de généraliser cette notion de convergence à des fonctions mesurables sur un espace mesuré, on parle alors de convergence presque partout.

Convergence en probabilité

modifier

Définition (convergence en probabilité) —  On dit que (Xn) converge vers X en probabilité si

 

Dans ce cas on note  .

Remarques :

  • La convergence en probabilité se généralise à des variables aléatoires à valeurs dans un espace métrique muni de sa tribu borélienne. Dans ce cas il faut remplacer   par   dans la définition, où   désigne la distance. Il est même possible de généraliser cette notion de convergence à des fonctions mesurables sur un espace mesuré, on parle alors de convergence en mesure.

Convergence en loi

modifier

Définition (convergence en loi) —  On dit que (Xn) converge vers X en loi si pour toute fonction f à valeurs réelles, continue et bornée

 

Dans ce cas on note   ou encore  .

Remarques :

  • Le fait que   soit continue nous assure qu'elle est mesurable, donc par composition,   et   aussi. De plus, le fait que   soit bornée implique que   et   sont aussi bornées. Ainsi les quantités   et   sont bien définies.
  • Dans le cas de variables aléatoires à valeurs entières, la convergence en loi est équivalente à :
  pour tout entier m.
  • Dans le cas de variables aléatoires à valeurs réelles, il existe un critère de convergence en loi important faisant appel aux fonctions de répartition. Plus précisément, soient F1, F2, ... la suite des fonctions de répartition associées aux variables aléatoires réelles X1, X2, ... et F la fonction de répartition de la variable aléatoire réelle X. Autrement dit, Fn est définie par Fn(x) = P(Xnx), et F par F(x) = P(Xx). La suite (Xn) converge vers X en loi si et seulement si
  pour tout réel aF est continue.
Puisque F(a) = P(Xa), cela signifie que la probabilité que X appartienne à un certain intervalle est très proche de la probabilité que Xn soit dans cet intervalle pour n suffisamment grand.
  • Un autre résultat important donnant des critères équivalents de convergence en loi est le théorème porte-manteau.
  • Le théorème de convergence de Lévy donne une équivalence entre la convergence en loi et la convergence, en tout point, des fonctions caractéristiques.
  • La convergence en loi se généralise à des variables aléatoires à valeurs dans un espace topologique muni de sa tribu borélienne.

Exemples

modifier

Convergence en loi

modifier
Théorème central limite :

La moyenne d'une suite de variables aléatoires centrées et de carré intégrable, indépendantes et de même loi, une fois renormalisée par n converge en loi vers la loi normale

 
Convergence de la loi de Student :

La loi de Student de paramètre k converge, lorsque k tend vers +∞, vers la loi de Gauss :

 

Dans ce cas, on peut aussi utiliser le lemme de Scheffé, qui est un critère de convergence d'une suite de variables aléatoires à densité vers une variable aléatoire à densité.

Loi dégénérée :

La suite[1]   converge en loi vers une variable aléatoire X0 dite dégénérée, qui prend une seule valeur (0) avec probabilité 1 (on parle parfois de masse de Dirac en 0, notée δ0) :

 

Convergence d'une fonction d'une variable aléatoire

modifier

Un théorème très pratique, désigné en anglais généralement sous le nom de mapping theorem (en), établit qu'une fonction g continue appliquée à une variable qui converge vers X convergera vers g(X) pour tous les modes de convergence :

Théorème — (Mapping theorem[2]) Soit   une fonction continue en tout point d'un ensemble C tel que   :

  • Si   ;
  • Si   ;
  • Si  .
Exemple :

En statistiques, un estimateur convergent de la variance σ2 est donné par :

 .

On sait alors par le continuous mapping theorem que l'estimateur   de l'écart type σ = σ2 est convergent, car la fonction racine est une fonction continue.

Liens entre les différents modes de convergence

modifier

Convergences L et Lp

modifier

Propriété (L implique Lp) — Soit  . Si   et   sont essentiellement bornées et si   alors  .

À noter que si   et   sont essentiellement bornées, alors elles admettent un moment d'ordre p fini. Il est donc légitime de parler de la convergence en norme  .

La réciproque du résultat est fausse. Par exemple, prenons une suite de variables aléatoires   à valeurs dans   telles que   pour tout  . Alors, pour tout  ,   converge vers 0 en norme   car  . Pourtant elle ne converge pas en norme   car  .

Convergences Lp et Lq

modifier

Propriété (Lp implique Lq pour p > q ≥ 1) — Soit  . Si   et   sont dans   et si   alors  .

À noter que si   et   ont un moment d'ordre p fini, alors elles ont aussi un moment d'ordre q fini. Il est donc légitime de parler de la convergence en norme  .

La réciproque du résultat est fausse. Par exemple, prenons une suite de variables aléatoires   à valeurs dans   telles que   et   pour tout  . Alors   converge vers 0 en norme   car  . Pourtant elle ne converge pas en norme   car  .

Convergences Lp et en probabilité

modifier

Propriété (Lp implique en probabilité) — Soit  . Si   et   sont dans   et si   alors  .

La réciproque du résultat est fausse. Par exemple, prenons   une variable aléatoire de loi uniforme sur   et posons  . Alors   converge vers 0 en probabilité car   pour  . Cette suite converge même presque sûrement vers 0. Pourtant elle ne converge pas en norme   car  . Le théorème de Lebesgue-Vitali et le lemme de Riesz-Scheffé[3] donnent chacun une condition suffisante pour que la convergence en probabilité donne la convergence en moyenne d'ordre p. La condition du premier est l'uniforme intégrabilité et la condition du second est la convergence des moments d'ordre p.

Théorème (Lebesgue-Vitali) — Soit  . Supposons que les trois propriétés suivantes sont vérifiées.

  • La suite   est dans  .
  • La suite   converge vers   en probabilité.
  • La suite   est uniformément intégrable.

Dans ces conditions on a   est dans   et  .

Lemme (Riesz-Scheffé) — Soit  . Supposons que les quatre propriétés suivantes sont vérifiées.

  • La variable   est dans  .
  • La suite   est dans  .
  • La suite   converge vers   en probabilité.
  • On a  .

Dans ces conditions on a  .

Convergences L et presque sûre

modifier

Propriété (L implique presque sûre) — Si   et   sont essentiellement bornées et si   alors  .

La réciproque du résultat est fausse. Par exemple, prenons   une variable aléatoire de loi uniforme sur   et posons  . Alors la suite   converge vers 0 presque sûrement mais elle ne converge pas vers 0 dans   car   pour tout  . Le théorème d'Egoroff donne une réciproque partielle : s'il y a convergence presque sûre, alors il y a convergence uniforme sur des évènements de probabilité aussi proche de 1 que l'on souhaite (sans jamais atteindre 1 exactement).

Théorème (Egoroff) — Supposons que   converge vers   presque sûrement. Alors pour tout   il existe un évènement   tel que   et tel que   converge uniformément vers   sur  . Autrement dit,

 .

À noter que dans le théorème d'Egoroff la convergence est uniforme ce qui est plus fort que la convergence essentiellement uniforme.

Convergence presque sûre et en probabilité

modifier

Propriété (presque sûre implique en probabilité) — Si   converge vers   presque sûrement alors   converge vers   en probabilité.

La réciproque du résultat est fausse. Par exemple prenons   une variable aléatoire de loi uniforme sur  . On crée les intervalles  ,  ,  ,  ,  ,  ,  ,  , ... Plus explicitement, pour tout   on pose   et  . On crée alors  . On définit ensuite  . Alors la suite   converge en probabilité vers 0. Elle converge même dans   pour tout   car  . Pourtant cette suite ne converge pas presque sûrement vers 0 car presque sûrement il existe une infinité de   tels que  . Il est également possible de trouver des suites qui convergent en probabilité mais qui converge ni presque sûrement, ni dans   comme le montre l'exemple suivant.

Exemple :

Soit p > 0. On considère (Xn)n ≥ 1 une suite de variables aléatoires indépendantes telle que

 

La suite (Xn)n converge en probabilité vers 0 car

 

En revanche, elle ne converge pas dans   car  

Montrons qu'elle ne converge pas non plus presque sûrement. Si c'était le cas sa limite presque sûre serait nécessairement sa limite en probabilité, à savoir 0. Or, comme   et comme les variables aléatoires Xn sont indépendantes, on a par la loi du zéro-un de Borel :

 

i.e. presque sûrement Xn = n1/p pour une infinité de n. Donc, presque sûrement,   A fortiori Xn ne converge pas presque sûrement vers 0.

Exemple :

Dans l'exemple précédent, pour éviter le recours à la loi du zéro-un de Borel, on peut définir explicitement la suite Xn de la façon suivante. On choisit Ω = [0,1] muni de sa tribu borélienne et de la mesure de Lebesgue. On pose  ,   pour  , puis

 

Enfin on définit

 

Les Xn ainsi définis ne sont pas indépendants mais ils vérifient comme dans l'exemple précédent

 

Les trois propriétés suivantes donnent des réciproques partielles. La première dit que la convergence en probabilité implique la converge presque sûre d'une sous-suite. La deuxième est une conséquence du théorème de Borell-Cantelli et dit que si la convergence en probabilité a lieu assez rapidement alors la convergence presque sûre a lieu également. Enfin, la troisième dit que la convergence en probabilité est équivalente à la convergence presque sûre pour une somme de variables aléatoires indépendantes[4],[5].

Propriété — Si   converge vers   en probabilité, alors il existe une extraction   telle que   converge vers   presque sûrement.

Propriété — Si pour tout  

 ,

alors   converge vers   presque sûrement.

Propriété — Si les   sont indépendantes et si on note   pour tout  , alors la suite   converge presque sûrement si et seulement si elle converge en probabilités.

Convergence en probabilité et en loi

modifier

Lemme —  Si l'on a les convergences suivantes, respectivement dans (E,d) et dans  

 

alors on a

 

dans l'espace E × E muni de la distance infinie.

Propriété —  Si Xn converge vers X en probabilité alors Xn converge vers X en loi.

Théorème de Slutsky — Si Xn converge en loi vers X, et si Yn converge en probabilité vers une constante c, alors le couple (Xn ,Yn) converge en loi vers le couple (X,c).

Convergence presque sûre et en loi

modifier

La convergence presque sûre implique la convergence en loi, puisqu'elle implique la convergence en probabilité et cette dernière implique celle en loi. La réciproque est fausse. Le théorème de représentation de Skorokhod donne une réciproque partielle.

 
Diagramme résumant les liens entre les différents modes de convergences de variables aléatoires. Une double flèche représente une implication. Une flèche simple représente une «réciproque partielle» ou un résultat permettant, sous certaines hypothèses, de passer d'un mode de convergence à un autre mode plus fort.

Notes et références

modifier
  1. Pour plus de détails sur cet exemple, voir Davidson et McKinnon 1993, chap. 4.
  2. Vaart 1998, p. 7.
  3. (en) N Kusolitsch, « Why the theorem of Scheffé should be rather called a theorem of Riesz », Periodica Mathematica Hungarica, vol. 61,‎ , p. 225-229 (lire en ligne)
  4. (en) « how to show convergence in probability imply convergence a.s. in this case? », sur StackExchange,
  5. (en) Kai Lai Chung, A Course in Probability Theory, Academic Press, 3e éd. (lire en ligne), p. 126 (Théorème 5.3.4)

Bibliographie

modifier

Liens externes

modifier
  • [1] : cours de l’école centrale de Paris de 1e année sur la convergence des variables aléatoires