fonction d'une variable aléatoire réelle qui caractérise la loi de probabilité de celle-ci
En théorie des probabilités, la fonction de répartition d'une variable aléatoire réelleX est la fonction FX qui, à tout réel x, associe la probabilité que X prenne une valeur inférieure ou égale à x :
Cette fonction caractérise la loi de probabilité de la variable aléatoire : elle permet de calculer la probabilité de chaque intervalle semi-ouvert à gauche ]a, b] où a < b, par
La fonction de répartition FX d'une variable aléatoire X de densité de probabilitéfX est une primitive (en un sens un peu relâché) de cette densité fX. Plus précisément, FX est définie, pour tout nombre réel x, par :
Toutefois, il ne s'agit pas une primitive au sens strict du terme car il se peut que qu'une fonction de répartition ne soit pas dérivable sur tout comme c'est le cas pour la fonction de répartition de la loi uniforme sur l'intervalle [a, b] (non dérivable en a ou en b), ou encore de la loi exponentielle (non dérivable en 0). On peut seulement affirmer :
que si la variable X est à densité, alors la dérivée de FX est égale à fX presque partout pour la mesure de Lebesgue.
Notons que, contrairement aux variables discrètes, une variable à densité X vérifie pour tout nombre réel a : en conséquence, la fonction de répartition des variables à densité est continue en tout point. En fait une variable aléatoire réelle X possède une densité de probabilité si et seulement si sa fonction de répartition est absolument continue sur chaque intervalle borné.
Une variable aléatoire X est dite discrète si son supportS est fini ou dénombrable, ou bien, de manière équivalente, s'il existe un ensemble A fini ou dénombrable tel que
La loi de X est déterminée sans ambiguïté par la donnée de (ps)s ∈ S ou de (ps)s ∈ A, où
Si, par exemple, X est une variable aléatoire réelle, on a
où 1E est la fonction indicatrice de l'ensemble E.
Pour les variables aléatoires discrètes les plus courantes (par exemple, les lois uniformes, binomiales, de Poisson) S est un ensemble bien ordonné : on peut alors numéroter ses éléments de manière croissante, p.e. s1 ≤ s2 ≤ s3 ≤ ... et numéroter les probabilités ps en conséquence, p.e. en posant pi = psi, i ≥ 1. On a alors, si x ∈ [si, si + 1[,
Soit encore, plus généralement :
La fonction de répartition est alors une fonction constante par intervalles et sa représentation graphique est en escalier. Les sauts d'une marche à l'autre de l'escalier se situent aux abscisses si, et l'amplitude du saut d'abscisse s est ps = FX(s) – FX(s–). En particulier la fonction de répartition d'une variable discrète X est discontinue exactement aux points s tels que Voir la section Propriétés de la fonction de répartition pour une démonstration.
Cas spécial : fonction de répartition continue purement singulière
L'escalier de CantorF est un exemple de fonction de répartition continue mais dont la dérivée est presque partout nulle. Ainsi, les formules précédentes ne sont plus vraies pour l'escalier de Cantor : par exemple pour x > 0, on n'a pas
car F prend des valeurs strictement positives sur ]0, +∞[, alors que l'intégrale constituant le membre de droite est identiquement nulle. En effet, l'ensemble
est de mesure de Lebesgue nulle. Par ailleurs, la loi de probabilité associée à l'escalier de Cantor est continue (sans atome), puisque F est une fonction continue sur . L'escalier de Cantor est en fait un exemple de fonction de répartition continue mais qui n'est pas absolument continue sur chaque intervalle : on dit alors qu'elle est continue purement singulière.
Le point 1 découle de la propriété de croissance des mesures de probabilité
Comme FX est une fonction monotone, le point 2 se réduit à montrer que
ou encore, de façon équivalente,
Mais les boréliens ]–∞ , x + 1/n[ forment une suite décroissante, et
donc le point 2 est une conséquence des axiomes des probabilités.
Comme FX est monotone, le point 3 se réduit à montrer que
Ceci est encore une conséquence des axiomes des probabilités, puisque
Le point 4 découle, de la même manière, de
Réciproquement, toute fonction définie sur et satisfaisant ces quatre propriétés est la fonction de répartition d’une certaine variable aléatoire. Autrement dit, les points 1 à 4 sont caractéristiques de la fonction de répartition d'une variable aléatoire réelle X : étant donné une fonction réelle de la variable réelle, notons F, satisfaisant les points 1 à 4, on peut construire concrètement une variable aléatoire réelle X ayant F pour fonction de répartition, voir ci-dessous le théorème de la réciproque. Notons que la construction utilisant le théorème de la réciproque sert concrètement à produire, sur ordinateur, des échantillons de taille arbitraire d'une loi de probabilité arbitraire, ce qui est l'ingrédient de base des méthodes de Monte-Carlo.
On peut ainsi définir la notion de fonction de répartition sans introduire celle de variable aléatoire : il suffit juste qu'elle vérifie les points 1 à 4 précédents. Si on ajoute à cela la notion de fonction arithmétique, on arrive rapidement dans la théorie probabiliste des nombres.
À cause des points 1, 3 et 4, FX est bornée, plus précisément
Comme toute fonction monotone bornée, FX admet en tout point x une limite à gauche FX(x–), limite à gauche égale ou non à FX(x) selon que FX est continue en x ou non. FX est une fonction càdlàg.
La connaissance de la fonction de répartition permet de calculer la probabilité de tout intervalle
et
Démonstration
est la définition d'une fonction de répartition.
on obtient par passage au complémentaire,
pour on utilise pour A = ]–∞, x] et B = ]–∞, y],
La relation est la plus délicate et fait intervenir une conséquence des axiomes des probabilités sur la probabilité de l'union d'une suite croissante d'ensembles. On considère une suite (xn) de réels croissante, convergeant vers x. L'intervalle ]-∞, x[ est alors union dénombrable de la suite croissante d'intervalles ]-∞, xn]. La probabilité de l'intervalle ]-∞, x[ est donc la limite des probabilités des intervalles ]-∞, xn], i.e. la limite de la suite FX(xn). Par propriété des fonctions croissantes, cette limite existe et vaut FX(x–).
Les 5 dernières propriétés découlent de pour différents choix de A et B :
On appelle atome de la variable aléatoire X tout réel a pour lequel . Ainsi, en vertu de la dernière propriété de la liste ci-dessus,
Propriété — Les atomes de la variable aléatoire X sont exactement les points de discontinuité de la fonction de répartition.
La fonction de répartition d'une variable aléatoire X est donc continue si et seulement si X n'a aucun atome, i.e. si et seulement si
On dit alors que la loi de X est continue (ou encore diffuse) et, par extension, que la variable aléatoire X elle-même est continue. En particulier, les variables aléatoires réelles possédant une densité de probabilité sont continues. Il existe cependant des variables aléatoires continues mais ne possédant pas pour autant une densité de probabilité, c'est le cas, par exemple, de la variable aléatoire ayant pour fonction de répartition l'escalier de Cantor.
Notons que l'ensemble des points de discontinuité de FX est fini ou dénombrable, comme c'est le cas pour toute fonction monotone bornée :
Conséquence — L'ensemble S des atomes de la variable aléatoire X est fini ou dénombrable.
Caractérisation de la loi par la fonction de répartition
Ou bien encore : si deux variables aléatoires réelles ont même fonction de répartition, alors elles ont même loi (et réciproquement).
Démonstration
Sous l'hypothèse FX = FY, on peut démontrer de manière élémentaire que dès que A est un borélien "simple" (par exemple, si A est un intervalle). Par contre, la démonstration générale (pour tout borélien A) est un cas particulier du lemme d'unicité des probabilités, lui-même corollaire du lemme de classe monotone, appliqué à la classe
Vérifions 1. Soit I une partie finie de . Soit y l'élément minimal de I. Alors
Vérifions 2. La tribu engendrée par est notée . La tribu borélienne est notée , comme souvent. Notons
On a en vertu de la stabilité des tribus par passage au complémentaire, donc par définition d'une tribu engendrée. On peut interchanger et dans ce qui précède, donc, par double inclusion,
Comme est une partie de l'ensemble des ouverts, on en déduit que
Mais il nous faut surtout démontrer l'inclusion en sens inverse, et, pour cela, démontrer que tout ouvert de est dans (ainsi est une tribu contenant tous les ouverts de , alors que est la plus petite tribu contenant tous les ouverts de ). Un argument rapide est de constater que
tout ouvert de est réunion dénombrable d'intervalles ouverts, et que
les intervalles ouverts sont dans .
Le premier point résulte de ce que
un ouvert est réunion disjointe de ses composantes connexes (cela est vrai pour toute partie de ),
les parties connexes de (et en particulier les composantes connexes ci-dessus) sont exactement les intervalles de
comme est localement connexe, les composantes connexes d'un ouvert sont automatiquement ouvertes.
dans chaque composante connexe A de notre ouvert , on peut choisir un nombre rationnel qA. Les qA sont distincts car les composantes sont disjointes. Ainsi A → qA est une bijection entre la famille des composantes connexes de et une partie de La famille des composantes connexes de est donc finie ou dénombrable.
Le deuxième point tient à ce que
comme on l'a vu plus haut ;
;
CQFD
En d'autres termes, si deux variables aléatoires réelles, X et Y, vérifient
alors elles vérifient aussi que pour tout borélienA,
Soit F une fonction de dans satisfaisant les 4 propriétés caractéristiques. Notons G la fonction définie pour ω ∈ ]0, 1[ par
Alors G est une variable aléatoire réelle définie sur l'espace probabilisé où et où désigne la restriction à
de la mesure de Lebesgue sur . Le théorème stipule que :
Théorème — Sur l'espace , la fonction de répartition de G est F.
Ainsi toute fonction F de dans satisfaisant les quatre propriétés caractéristiques est fonction de répartition d'une variable aléatoire réelle (de G, par exemple), ou encore d'une mesure de probabilité sur (de la loi de G, par exemple).
Démonstration
Pour ω ∈ Ω = ]0, 1[, notons
Donc G(ω) = inf Aω. À cause du point 4, , et à cause du point 3, Aω est bornée inférieurement, donc G est bien définie.
Commençons par un cas simple à titre d'entrainement :
F est continue strictement croissante
Si F est continue strictement croissante sur , alors F est une bijection de dans ]0, 1[, et G est la réciproque de F (on peut s'en convaincre en traçant Aω à l'aide du graphe de F). À ce titre, G est continue et strictement croissante sur ]0, 1[, et en particulier G est mesurable (c'est donc une v.a.r.). On a, de plus,
donc
Ainsi,
Cas général
Dans le cas général, on a également la relation d'adjonction
et on conclut donc exactement de la même manière que précédemment, mais la démonstration de l'équivalence ci-dessus est moins directe. Tout d'abord, pour ω ≤ ω', Aω' ⊂ Aω, et donc G(ω) ≤ G(ω'). Du fait que G est monotone, il résulte que G est mesurable.
On a, par définition de Aω et de G(ω),
La réciproque vient de ce que {G(ω) ∈ Aω}, i.e. {ω ≤ F(G(ω))}, ce qui, avec {G(ω) ≤ x} entraîne, par croissance de F, {F(G(ω)) ≤ F(x)} , et finalement {ω ≤ F(x)} . Supposons en effet que G(ω) ∉ Aω, et considérons une suite strictement décroissante (xn)n ≠ 0 d'éléments de Aω telle que
Par continuité à droite de F,
mais également, par définition de Aω,
ce qui conduit à G(ω) ∈ Aω, d'où une contradiction (démonstration largement reprise de Sidney Resnick, A Probability Path).
Remarques.
Lorsque F est une bijection bicontinue d'un intervalle I dans ]0, 1[ (i.e. F est continue strictement croissante), G est tout simplement la réciproque de F (i.e. G ∘ F = IdI et F ∘ G = Id]0, 1[). Pour cette raison, G est parfois appelée réciproque généralisée de F.
Cette généralisation n'est en rien arbitraire. La condition clé, à savoir , fait l'objet de théories générales utiles dans de nombreux domaines des mathématiques, à savoir les connexions de Galois et plus généralement la notion d'adjonction en théorie des catégories.
Si U désigne une variable aléatoire réelle uniforme sur [0, 1], alors X = G(U) a pour fonction de répartition F.
Ainsi dans tout langage de programmation possédant un générateur de nombres aléatoires, on peut simuler une suite de longueur arbitraire de v.a.r. indépendantes de même fonction de répartition F, pourvu que G soit connue : il suffit alors d'appeler ce générateur de manière répétée, et d'appliquer la fonction G aux nombres produits par ces appels répétés.
comme il n'y a pas de formule suffisamment explicite pour la fonction de répartition, et encore moins de formule explicite pour la réciproque de cette dernière, le théorème est alors inopérant.
La loi normale peut cependant être simulée, par la méthode de Box-Muller, à l'aide de deux variables aléatoires indépendantes suivant chacune une loi uniforme : si de manière indépendante alors suit une loi normale centrée réduite. L'établissement de ce résultat fait également appel au théorème de la réciproque.
On trouvera tout sur l'art d'engendrer des variables aléatoires de lois arbitraires, par exemple à l'aide de variables uniformes, dans Non-Uniform Random Variate Generation, édité chez Springer, disponible sur le web[1].
La réciproque généralisée de F est un exemple de v.a.r. dont la fonction de répartition est F, mais c'est un exemple privilégié. Ses utilisations sont nombreuses, allant de propriétés de l'ordre stochastique, à des propriétés de la distance de Wasserstein[2], en passant par le théorème de représentation de Skorokhod, voir section suivante.
Considérons une suite de variables aléatoires (Xn)n ≥ 0 (resp. une variable aléatoire X) définies sur des espaces probabilisés (resp. ) éventuellement différents, mais toutes à valeurs dans le même espace métrique (S, d). On dit que (Xn)n ≥ 0converge en loi vers X si, pour toute fonction continue bornée de (S,d) dans ,
On a le théorème suivant :
Théorème — Dans le cas de variables aléatoires réelles (), notons (Fn)n ≥ 0, F les fonctions de répartitions de (Xn)n ≥ 0 et de X. Il y a alors équivalence entre les trois propositions ci-dessous :
On utilise la famille de fonctions continues bornées définies par le graphe ci-contre. Elles vérifient, pour toute variable aléatoire réelle Y,
et en particulier
On remarque alors que, pour tout ε > 0,
et
En faisant tendre ε vers 0, on obtient
Ainsi, dès que x est un point de continuité de F,
2. implique 3.
Notons (Gn)n ≥ 0, G, les réciproques généralisées de (Fn)n ≥ 0, F. Pour le triplet , choisissons , et prenons pour la tribu des boréliens et la mesure de Lebesgue correspondantes (i.e. restreintes à ]0, 1[). Le choix de X'n = Gn, X' = G satisfait à 3.1. et à 3.2. en vertu du théorème de la réciproque. De plus, en conséquence de 2., (Gn)n ≥ 0 converge presque sûrement vers G.
↑La version pdf (libre et autorisée) de (en) Luc Devroye, Non-Uniform Random Variate Generation, New York, Springer-Verlag, , 1re éd. (lire en ligne) est disponible, ainsi qu'un récit humoristique des démêlés de Luc Devroye avec son éditeur.