En probabilité, la mesure empirique est une mesure aléatoire calculée à partir de la réalisation d'un échantillon, c'est-à-dire de la réalisation d'une séquence de variables aléatoires. Cette notion est très utilisée en statistique. La motivation principale de l'étude de cette mesure vient du fait qu'elle nous permet de connaître la mesure de probabilité réelle qui est inconnue. Les théorèmes concernant les processus empiriques permettent de donner les vitesses de convergence de cette mesure.

Définition et propriétés modifier

Soit   une suite de variables aléatoires indépendantes et identiquement distribuées (i.i.d.) de mesure de probabilité   (pas nécessairement connue) à valeurs dans un ensemble  .

Définition modifier

La mesure empirique   est la mesure de probabilité discrète définie par    est la fonction indicatrice et   est la mesure de Dirac. On peut généraliser cette définition à des classes de fonctions mesurables à valeurs réelles en définissant la mesure empirique   par   pour toute fonction   mesurable.

En particulier, la mesure empirique   est la mesure empirique de la fonction indicatrice  .

Propriétés modifier

Propriétés de la mesure empirique classique

  • Pour un ensemble mesurable  ,   est une variable aléatoire binomiale de paramètres  . En particulier,   est un estimateur non biaisé de  .
  • Si   forme une partition de   alors les variables aléatoires   sont des multinomiales de paramètres   et  .
  • Si on note   le processus empirique défini par  , on peut définir ce dernier via la mesure empirique :  

Propriétés de la mesure empirique généralisée

  • Pour une fonction mesurable fixée   est une variable aléatoire de moyenne   et de variance  .
  • D'après la loi forte des grands nombres,   converge p.s. vers   pour une fonction mesurable   fixée.
  • La mesure empirique indexée par une classe de fonctions s'exprime avec le processus empirique indexé par une classe de fonctions de la même manière que la mesure empirique :
     .

Principe des grandes déviations modifier

En 1957, Sanov[1] établit que la mesure empirique suit le principe des grandes déviations avec pour fonction taux la divergence de Kullback-Leibler. En particulier, la probabilité que la mesure empirique appartienne à un ensemble auquel n'appartient pas la loi mère (i.e.  ) de l'échantillon est exponentiellement décroissante par rapport à la taille de l'échantillon. Une preuve simple faisant appel à des résultats élémentaires de topologie a été proposée en 2006 par Csiszár[2].

Classes de Glivenko-Cantelli et de Donsker modifier

Classe de Glivenko-Cantelli modifier

Le théorème de Glivenko-Cantelli affirme que la fonction de répartition empirique   converge uniformément vers la fonction de répartition   de la variable étudiée. Pour généraliser ce résultat, on nomme les classes de Glivenko-Cantelli les classes des fonctions mesurables à valeurs réelles pour lesquels la mesure empirique converge uniformément vers la mesure théorique. En d'autres mots,   est une classe de Glivenko-Cantelli si

 .

Classe de Donsker modifier

Le théorème de Donsker affirme lui que le processus empirique   converge en loi vers un pont brownien. Pour généraliser cela, on nomme classes de Donsker les classes des fonctions auxquelles la mesure empirique centrée et normalisée converge en loi vers un pont brownien. En d'autres mots,   est une classe de Donsker si  .

Articles connexes modifier

Ouvrages modifier

Références modifier

  1. (en) I. N. Sanov, « On the probability of large deviations of random variables », Matematicheskii Sbornik,‎ , p. 11-44 (lire en ligne)
  2. (en) I. Csiszár, « A simple proof of Sanov’s theorem », Bull Braz Math Soc, vol. 37,‎ , p. 453-459 (lire en ligne)