U-statistique

classe de statistiques

Les U-statistiques, ou U-estimateurs, forment une classe de statistiques introduite par le statisticien finlandais Wassily Hoeffding en 1948, jouant un rôle important en théorie de l'estimation. La lettre U est l'initiale de «unbiased» en anglais, qui signifie «non biaisé». Les U-statistiques sont les statistiques qui peuvent s'écrire comme la moyenne empirique d'une fonction symétrique à variables prise sur toutes les sous-parties de taille d'un échantillon. Ces statistiques partagent des propriétés intéressantes et permettent entre autres de construire des estimateurs non biaisés. Les U-statistiques comprennent de nombreux estimateurs classiques tels que la moyenne empirique ou la variance empirique non biaisée .

Définition modifier

Définition comme statistique modifier

Soit   et   une fonction symétrique.

Alors l'application qui à un échantillon   de taille   associe :

 

est appelée une U-statistique d'ordre   et de kernel  [1].

Cette statistique est la moyenne de   prise sur toutes les parties   de  .

Définition en tant que fonctionnelle modifier

On peut aussi définir une U-statistique en tant que fonctionnelle, c'est-à-dire une application partant d'un espace de distributions de probabilité, et à valeurs dans  .

Soit   l'ensemble des distributions de probabilité sur un ensemble mesurable  , une U-statistique est une fonctionnelle de la forme :

 

Cette définition en tant que fonctionnelle est une généralisation de la première. En effet on remarque que si   est la distribution empirique d'un échantillon  , alors

 

C'est-à-dire que la fonctionnelle   évaluée en   est égale à la statistique   appliquée à l'échantillon  . La définition par une fonctionnelle permet de parler d'une U-statistique évaluée en une distribution qui ne serait pas une distribution empirique, ce que ne permet pas la première définition.

Si   sont des variables aléatoires identiquement distribuées, si   est mesurable, par linéarité de l'espérance,   est un estimateur non biaisé de  . Ce qui explique le nom U-statistique venant de Unbiased.

Exemples modifier

De nombreux estimateurs classiques peuvent s'écrire comme des U-estimateurs:

  • L'estimateur classique la moyenne empirique   est un U-estimateur d'ordre 1, et de kernel  .
  • L'estimateur non biaisé de la variance   peut se réécrire  . Il s'agit donc d'un U-estimateur d'ordre 2 et de kernel  .
  • L'estimateur du tau de Kendall peut s'écrire   . Il s'agit donc d'un U-estimateur d'ordre 2.
  • L'estimateur de l'écart absolu moyen   est une U-statistique d'ordre 2 et de kernel  .
  • La statistique d'un test de Wilcoxon sur   : « Mediane » peut s'écrire  , soit    et   sont deux U-statistiques:   d'ordre 1 et de kernel   et   d'ordre 2 et de kernel   [2]

Propriétés modifier

Dans ce qui suit, les échantillons   sont tous supposés indépendant et identiquement distribués par défaut.

Normalité asymptotique modifier

  • Les U-statistiques sont asymptotiquement normales, l'analogue du théorème central limite pour les U-statistiques a été établi par Hoeffding en 1948 :

Normalité asymptotique des U-statistiques — (Hoeffding, 1948)

Soit   une loi de probabilité,   une suite de variables aléatoires indépendantes et identiquement distribuées de loi   et une U-statistique   d'ordre   et kernel  .

Alors, si   existe,

 

  et  

Variance d'une U-statistique modifier

La variance d'une U-statistique d'ordre   et de kernel   est donnée par[3] :

 

où pour  ,  


Estimateurs non biaisé modifier

Paul Halmos a démontré en 1946 que les seules fonctionnelles admettant un estimateur non biaisé quelle que soit la distribution des données sont les U-statistiques (en tant que fonctionnelles). Alors, l'estimateur non biaisé de variance minimum est la U-statistique correspondante. Plus formellement[4],

Absence de biais des U-statistiques — (Halmos, 1946)

Soit   une fonctionnelle. S'il existe un estimateur   de   non biaisé indépendamment de la distribution de  , c'est-à-dire telle que pour toute distribution de probabilité  ,

 
alors il existe un entier   et une fonction symétrique   à   variables tels que
 ,

et le U-estimateur   a la plus petite variance parmi les estimateurs   vérifiant   pour toute distribution  .

En particulier, Tout U-estimateur de kernel   et d'ordre   est un estimateur non biaisé de  .

Ce résultat ne signifie pas que les seuls estimateurs non biaisés sont des U-estimateurs, mais que les seules quantités estimables de manière non biaisée, indépendamment de la distribution des données sont des fonctionnelles associées à des U-statistiques. Par exemple, il n'existe pas d'estimateur non biaisé de la médiane d'une distribution pour toute distribution, car la médiane d'une distribution ne peut pas être écrite comme une U-fonctionnelle. Il est certes possible de trouver des estimateurs de la médiane qui soient sans biais pour certaines distributions (la moyenne empirique est un estimateur sans biais de la médiane de toute distribution symétrique admettant une espérance), mais il existe nécessairement des distributions pour lesquelles ces estimateurs seront biaisés.

De même, les U-estimateurs associés à une U-fonctionnelle ne sont pas nécessairement les estimateurs les plus efficaces. Ce sont simplement les estimateurs efficaces parmi les estimateurs non biaisés indépendamment de la distribution des données. Par exemple, sur des données issues d'une loi de Laplace, la médiane empirique est plus efficace que la moyenne empirique pour estimer l'espérance. Mais cela ne contredit pas le résultat précédent, puisque la médiane empirique n'est pas un estimateur non biaisé indépendamment de la distribution des données.

Références modifier

  1. (en) Wassily Hoeffding, « A Class of Statistics with Asymptotically Normal Distribution », The Annals of Mathematical Statistics, vol. 19, no 3,‎ , p. 293-325 (lire en ligne)
  2. Notes du cours «Large sample theory» donnée par Thomas S. Frugusson à l'Université de Californie Los Angeles
  3. Note du cours de statistiques donné par David Hunter à la Pennsylvania State University
  4. (en) Paul R. Halmos, « The Theory of Unbiased Estimation », The Annals of Mathematical Statistics, vol. 17, no 1,‎ , p. 34-43 (lire en ligne)