Paradoxe de Stein

phénomène statistique

Le paradoxe de Stein est un résultat de statistique, dû au statisticien Charles Stein, exposé dans un article de 1956[1], puis étendu dans un article co-écrit avec Willard James en 1961[2]. Ce résultat n'est pas paradoxal à proprement parler, mais surprenant et contre intuitif. Il constitue un pas important dans l'introduction des estimateurs contractants (en) (shrinkage estimators en anglais) en montrant que l'estimateur de James-Stein (en) domine strictement l'estimateur du maximum de vraisemblance (au sens que l'erreur quadratique moyenne est plus petite). Son caractère paradoxal vient du fait qu'il justifie de combiner des observations sans rapport entre elles pour estimer leurs espérances.

Énoncé modifier

Soient     variables aléatoires réelles indépendantes ayant des distributions normales d'espérances  , et toutes de variance  . Le paradoxe concerne l'estimation des espérances  .

Comme il y a qu'une seule donnée, l'estimateur du maximum de vraisemblance de   est  , de   est  , ... , de   est  .

Notons   le vecteur aléatoire de   ayant pour coordonnées   et   le vecteur de  ayant pour coordonnées  . L'estimateur du maximum de vraisemblance de   est alors simplement  . Cet estimateur est non biaisé, et il s'agit de l'estimateur non biaisé de plus petite variance. Cependant, le paradoxe de Stein est que si  , il existe un meilleur estimateur : l'estimateur de James-Stein (nommé d'après Willard James et Charles Stein), défini par  , où   est le carré de la norme euclidienne de  .

Le mot meilleur ici est à prendre au sens du risque quadratique. Le risque quadratique d'un estimateur   est défini par :   (ce risque correspond à une erreur quadratique moyenne multiparamétrique). L'estimateur de James-Stein est meilleur au sens qu'il a un plus faible risque quadratique que l'estimateur du maximum de vraisemblance, et ce quel que soit  . On dit que l'estimateur de James-Stein domine l'estimateur du maximum de vraisemblance. Cette domination est stricte car il existe des valeurs de   pour lesquelles le risque de l'estimateur de James-Stein est strictement plus petit que celui de l'estimateur du maximum de vraisemblance.

Énoncé formel modifier

Ce résultat peut être énoncé de manière plus concise[réf. nécessaire] :

Théorème — Soit  ,   et  . Soit   et  . Alors  . De plus, il existe au moins un   pour lequel l'inégalité précédente est stricte.

Démonstration modifier

Reprenons les notations précédentes et calculons le risques quadratiques des deux estimateurs.

Risque quadratique de l'estimateur du maximum de vraisemblance

Le risque quadratique de   vaut :

  car on a supposé que les variances des variables   vaut 1.

Risque quadratique de l'estimateur de James-Stein

Le risque quadratique de   est

 

que l'on peut réécrire

 .

Or,

   désigne le produit scalaire.

Donc

 

Calculons maintenant  .

 

Chaque intégrale de cette somme peut-être simplifiée en utilisant une intégration par partie en écrivant :

 
  et  .

D'où

 

En sommant sur  , on obtient que

 

Et donc, le risque de l'estimateur de James-Stein est

 

Étant donné que  , on a ainsi que le risque quadratique de l'estimateur de James-Stein est strictement inférieur à celui du maximum de vraisemblance.

Remarques modifier

On remarque que le risque de l'estimateur de James-Stein ne dépend que la norme de  , et qu'il atteint sa valeur minimale, 2, lorsque  . En effet,   suit alors une Loi inverse χ² d'espérance  , donnant alors le risque  . Pour toute valeur de  , le gain d'utiliser l'estimateur de James-Stein augmente avec  .

Interprétation modifier

Paradoxe

Ce résultat est qualifié de paradoxe car il serait naturel de s'attendre à ce que l'estimateur du maximum de vraisemblance soit meilleur. En effet, l'estimation de   dans l'estimateur de James-Stein utilise toutes les observations, même si   ne sont porteurs d'aucune information sur   puisque leurs distributions ne dépendent pas de  et qu'elles sont indépendantes de  . Il en va de même pour les estimations de  . Les variables aléatoires   n'ayant possiblement aucun rapport, il est étrange que la meilleure stratégie ne soit pas d'estimer l'espérance   en utilisant uniquement l'observation  .

Pour illustrer cela[3], supposons qu'on s'intéresse à la proportion d'électeurs qui comptent voter pour Trump à une élection, à la proportion de nouveau-nés filles en Chine, et à la proportion de britanniques ayant les yeux bleus. Pour cela, on dispose de trois observations : le résultat d'un sondage électoral, le nombre de filles nées dans un hôpital chinois et le nombre de personnes aux yeux bleus dans une ville anglaise (ces observations sont issues de lois binomiales, mais elles peuvent facilement être approximées, après transformation, par des lois normales). Alors, en utilisant l'estimateur de James-Stein, on estimera en particulier la proportion de votant pour Trump en utilisant le nombre de filles nées dans l'hôpital chinois et le nombre de personnes aux yeux bleus dans la ville anglaise !


Explication

En réalité, il serait peu judicieux d'utiliser l'estimateur de James-Stein dans l'exemple précédent. Cet estimateur a certes le plus petit risque quadratique combiné sur les trois estimations, mais il n'a pas le plus petit risque quadratique pour une estimation particulière. En général, l'estimateur de James-Stein a tendance à dégrader la plupart des estimations mais à en améliorer sensiblement quelques-unes, ces quelques améliorations compensent les dégradations. Dans l'exemple précédent, il est probable que deux des trois estimations soient moins bonnes avec l'estimateur de James-Stein qu'avec le maximum de vraisemblance, mais que la troisième soit suffisamment meilleure pour réduire le risque quadratique total. En pratique, un statisticien intéressé uniquement à la proportion de filles parmi les nouveau-nés en Chine n'aurait très certainement pas intérêt à utiliser cet estimateur comme décrit précédemment, de même pour quelqu'un intéressé uniquement par la proportion d'électeurs de Trump ou uniquement par le nombre de personnes aux yeux bleus. Pour que cet estimateur ait un intérêt, il faut qu'un statisticien soit intéressé simultanément à ces trois estimations, ce qui est peu probable.

Estimateur contractant modifier

L'estimateur de James-Stein est un exemple d'estimateur contractant (en), c'est-à-dire qu'il ramène artificiellement les valeurs estimées vers 0. D'autres exemple de tels estimateurs sont les estimateurs de type Lasso ou ceux utilisant une régularisation de Tikhonov (Ridge regression en anglais). Il est donc naturel que le gain de risque quadratique obtenu en utilisant l'estimateur de James-Stein plutôt que le maximum de vraisemblance soit maximal lorsque  .

Le risque quadratique d'un estimateur peut se décomposer en  . Le premier terme de cette décomposition augmente avec le biais de l'estimateur et le second avec sa variance. La contraction des estimations a pour effet d'augmenter le biais mais de diminuer la variance. La diminution de variance surpasse l'augmentation du biais de telle sorte que le risque quadratique diminue.

Le choix de contracter vers 0 est arbitraire et des estimateurs de James-Stein peuvent être construits en contractant vers n'importe quelle valeur   selon:

 .

Quelle que soit la valeur de  , l'estimateur de James Stein contractant vers   domine strictement le maximum de vraisemblance. Bradley Efron et Carl Morris ont montré en 1973[4], qu'utiliser   lorsque   est un meilleur choix que  .

Généralisations du résultat modifier

L'estimateur de James-Stein peut être amélioré en prenant la partie positive du facteur de contraction donnant l'estimateur :    désigne la partie positive.

Le résultat de Stein de 1956 utilise 3 hypothèses : les   ont des distributions normales, leurs variances sont connues et identiques, et ils sont indépendants. Cependant ce résultat a été étendu et toutes ces hypothèses ne sont pas nécessaires : le paradoxe de Stein a été généralisé à des problèmes d'estimations où les variances des différentes variables aléatoires peuvent être différentes et inconnus, et même à des problèmes où les distributions ne sont pas normales.

L'utilisation du risque quadratique n'est pas indispensable non plus. L'estimateur de James-Stein peut être adapté à une large classe de fonctions de risque pour lesquelles il domine toujours l'estimateur du maximum de vraisemblance[5].

Références modifier

  1. (en) Charles Stein, « Inadmissibility of the Usual Estimator for the Mean of a Multivariate Normal Distribution », Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, The Regents of the University of California,‎ (lire en ligne, consulté le )
  2. (en) Willard James et Charles Stein, « Estimation with quadratic loss », Breakthroughs in statistics,‎ , p. 443-460 (lire en ligne)
  3. (en) Richard J. Samworth, « Stein's Paradox », Eureka,‎ , p. 38-41 (lire en ligne)
  4. (en) Bradley Efron et Carl Morris, « Stein's Estimation rule and its competitors - an empirical Bayes approach », Journal of the American Statistical Association,‎ (lire en ligne)
  5. Lawrence D. Brown, « On the Admissibility of Invariant Estimators of One or More Location Parameters », Annals of Mathematical Statistics,‎ (lire en ligne)