Fonction de répartition empirique

En statistiques, une fonction de répartition empirique est une fonction de répartition qui attribue la probabilité 1/n à chacun des n nombres dans un échantillon.

100 visualisations d'une fonction de distribution empirique, générées à l'aide de JavaScript

Soit $X 1,..., X n$ un échantillon de variables iid définies sur un espace de probabilité $(\Omega ,{\mathcal {A}},\mathbb {P} )$ , à valeurs dans $\mathbb {R}$ , avec pour fonction de répartition F. La fonction de répartition empirique $F_{n}$ de l'échantillon $X_{1},\ldots ,X_{n}$ est définie par :

\forall x\in \mathbb {R} ,\forall \omega \in \Omega ,F_{n}(x,\omega )={\frac {\mathrm {nombre~d'{\acute {e}}l{\acute {e}}ments} \,\leq x\,\mathrm {dans~l'{\acute {e}}chantillon} }{n}}={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}(\omega )\leq x}

où $\mathbf {1} _{A}$ est la fonction indicatrice de l'événement A.

Pour chaque $ω$ , l'application $x\to F_{n}(x,\omega )$ est une fonction en escalier, fonction de répartition de la loi de probabilité uniforme sur l'ensemble $\{X_{1}(\omega ),\dots ,X_{n}(\omega )\}$ .

Pour chaque x, la variable aléatoire $\mathbf {1} _{(X_{i}\leq x)}$ est une variable aléatoire de Bernoulli, de paramètre $p = F (x)$ . Par conséquent, la variable aléatoire $\omega \to nF_{n}(x,\omega )$ , qu'on notera $nF_{n}(x,.)$ , est distribuée selon une loi binomiale, avec pour moyenne $nF (x)$ et pour variance $nF (x)(1 - F (x))$ . En particulier, $F n (x)$ est un estimateur non-biaisé de $F (x)$ .

Propriétés asymptotiques

Par la loi forte des grands nombres,

pour tout x,

F_{n}(x,.)\to F(x)

presque sûrement.

Par le théorème central limite,

{\sqrt {n}}(F_{n}(x,.)-F(x))

converge en loi vers une loi normale

{\mathcal {N}}(0,F(x)(1-F(x))

pour un x fixé.

Le théorème de Berry–Esseen procure le taux de convergence.

Par le théorème de Glivenko-Cantelli, presque sûrement, la convergence uniforme ${\textstyle \ F_{n}\to F\ }$ a lieu, ou bien, de manière équivalente :

\|F_{n}-F\|_{\infty }=\sup _{x\in \mathbb {R} }\|F_{n}(x,.)-F(x)\|~{\xrightarrow[{n\to \infty }]{}}~0

presque sûrement.

L' inégalité de Dvoretzky-Kiefer-Wolfowitz procure le taux de convergence.

Kolmogorov a montré que

{\sqrt {n}}\|F_{n}-F\|_{\infty }

converge en distribution vers la distribution de Kolmogorov, à condition que F soit continue.

Le test de Kolmogorov-Smirnov de goodness-of-fit est basé sur ce fait.

Par le théorème de Donsker,

{\sqrt {n}}(F_{n}-F)

, en tant que processus indexé par x, converge faiblement dans

\ell ^{\infty }(\mathbb {R} )

vers un pont brownien B(F(x)).

Bibliographie

(en) Galen R. Shorack et Jon A. Wellner, Empirical Processes With Applications to Statistics, Society for Industrial & Applied Mathematics, 4 septembre 2009, 998 p. (ISBN 978-0-89871-684-9 et 0-89871-684-5, lire en ligne)
van der Vaart, A.W. and Wellner, J.A. (1996) "Weak Convergence and Empirical Processes", Springer. (ISBN 0-387-94640-3).

Portail des probabilités et de la statistique