Théorème de Pitman-Koopman-Darmois

(Redirigé depuis Théorème de Darmois)

Le théorème de Pitman-Koopman-Darmois, aussi appelé théorème de Koopman-Darmois, de Darmois ou parfois de Fisher-Pitman-Koopman-Darmois (parfois le terme lemme est employé au lieu de théorème), est un résultat de statistique établi indépendamment par Bernard Koopman[1], Edwin Pitman[2] et Georges Darmois[3] dans les années 30, d'après une intuition de Ronald Fisher[4]. Ce théorème établit, sous certaines conditions, que parmi les modèles statistiques générant des variables réelles indépendantes et identiquement distribuées, les seuls admettant une statistique exhaustive non triviale sont ceux issus de la famille exponentielle. Ce théorème est considéré comme un résultat fondamental des statistiques et a donné lieu à de nombreux développements[5] et généralisations[6],[7].

Énoncé modifier

Énoncé et démonstration modifier

Théorème de Pitman-Koopman-Darmois — Soit  ,   variables aléatoires réelles indépendantes suivant une loi admettant une densité  , indexée par un paramètre   à valeur dans un espace  .

Supposons que le support de   (c'est-à-dire l'ensemble des valeurs de   telles que  ) soit un intervalle   de   qui ne dépende pas de  , et que   soit dérivable par rapport à   sur   pour tout  .

S'il existe une fonction continue   de   dans   avec   telle que   soit une statistique exhaustive pour  , alors   est une densité de la famille exponentielle, c'est-à-dire qu'elle peut s'écrire sous la forme   avec   ;   une fonction de   dans  ;  ,   fonctions de   dans   ;   et     fonctions de   dans   .

Remarques modifier

  • Ce théorème ne s'applique qu'aux variables aléatoires continues.
  • La statistique   est alors aussi une statistique exhaustive (d'après le critère de factorisation de Fisher-Neyman). De plus, si   est le plus petit entier pour laquelle   peut s'écrire sous la forme  , alors cette statistique est aussi minimale, et   est appelé le rang de la famille de distribution  [8].
  • L'hypothèse de continuité de la statistique exhaustive   est cruciale. Il est en effet possible de créer des fonctions non continues bijectives de   dans  . Une telle fonction, inutile en pratique par sa complexité, conserverait toute l'information d'une réalisation de l'échantillon   en la compressant en un seul nombre réel, et formerait donc une statistique exhaustive (puisque l'échantillon   est lui-même une statistique exhaustive), que la loi des   appartienne à la famille exponentielle ou non.
  • Si le support de   est une réunion finie d'intervalles disjoints  , alors on peut appliquer le théorème de Pitman-Koopman-Darmois à la variable aléatoire  , dont le support est l'intervalle   et dont la densité est  . Il en résulte que sur chaque intervalle  , la densité de   s'écrit sous la forme d'un membre de famille exponentielle.
  • On trouve des versions du théorème requérant que la fonction   soit différentiable[9], ou que la densité   soit strictement positive sur   tout entier[10]. Ces conditions, plus strictes que celles de l'énoncé ci-dessus, sont suffisantes puisque la différentiabilité de   implique sa continuité, et que le stricte positivité de   sur   implique que son support soit indépendant de  , cependant elle ne sont pas nécessaires.
  • Dans l'énoncé ci-dessus le théorème a pour hypothèse que la dimension de   soit strictement inférieure à la taille d'échantillon  . Cette hypothèse est souvent remplacée par l'hypothèse, plus restrictive, que la dimension de   n'augmente pas avec  . Cette hypothèse est suffisante puis qu'alors, lorsque   augmente, il dépasse à un moment donné la dimension de   qui elle reste fixe. Cependant elle est plus stricte que nécessaire. Par exemple, une statistique exhaustive   de dimension   garantit l'appartenance de   à la famille exponentielle, si les autres hypothèses du théorème sont respectées.

Réciproque modifier

Le théorème de Pitman-Koopman-Darmois admet une réciproque : si une variable aléatoire   est distribuée suivant une loi de la famille exponentielle, alors il existe une statistique suffisante pour le paramètre de cette loi. Ceci est une simple conséquence de la définition de la famille exponentielle et du critère de factorisation de Fisher-Neymann. Cette réciproque s'applique aussi aux variables aléatoires discrètes.

Exemples modifier

Loi normale modifier

  • Soit   des variables indépendantes et identiquement distribuées selon une loi normale   d'espérance   et de variance  . Soit   la moyenne empirique et   l'estimateur non biaisé de la variance. Alors   est une statistique exhaustive pour le couple de paramètres  , et la loi normale appartient bien à la famille exponentielle. De plus, la statistique   est aussi minimale et la loi normale (d'espérance et de variances inconnues) est bien de rang 2.

Contre exemples modifier

Loi de Cauchy modifier

La loi de Cauchy de densité   sur   n'appartient pas à la famille exponentielle. Il n'existe donc pas de statistique exhaustive non triviale pour le paramètre  .

Loi uniforme modifier

Soit  ,   variables aléatoires indépendantes et identiquement distribuées selon une loi uniforme sur l'intervalle   pour   . Cette distribution n'appartient pas à la famille exponentielle mais elle admet la statistique   comme statistique exhaustive. Cela est possible car la loi uniforme ne satisfait pas les conditions du théorème de Pitman-Koopman-Darmois puisque son support dépend du paramètre  .

Cas des variables aléatoires discrètes modifier

Le théorème de Pitman-Koopman-Darmois énoncé plus haut n'est valide que pour les variables aléatoires continues à valeurs dans  . En effet, plusieurs hypothèses ne sont pas pertinentes pour des variables discrètes, notamment la continuité de la fonction  . Cette continuité est cruciale pour interdire des fonctions qui seraient des bijections entre   et  , et qui pourraient donc former des statistiques exhaustives pour toute loi de probabilité, puisqu'il serait possible de retrouver les valeurs de   depuis la valeur de  . Dans le cas de variables aléatoires discrètes, la fonction   a pour ensemble de départ en ensemble discret. La continuité de   n'est donc pas une notion pertinente.

Il existe bien une version du théorème de Pitman-Koopman-Darmois pour les variables aléatoires discrètes[11] pour laquelle la condition de continuité de   est adaptée au . Cependant, cette condition devient non-triviale et peu intuitive.

Théorème de Pitman-Koopman-Darmois pour des variables discrètes — Soit  ,   variables aléatoires discrètes à valeur dans un sous ensemble discret   de   (typiquement  ), indépendantes et identiquement distribuées suivant une loi de probabilité discrète de fonction de masse  , dépendante d'un paramètre   à valeurs dans un ensemble  . Si le support de   ne dépend pas du paramètre   et s'il existe une fonction   de   dans un ensemble   telle que   est exhaustive pour   et qui satisfait les deux conditions suivantes :

  1. l'ensemble   est totalement ordonné, c'est-à-dire qu'il existe une relation «   » telle que pour tout  , on ait soit   soit  . De plus, on a   et   si et seulement si  .
  2. pour tout  , si   sont trois valeurs possibles de   telle que   et  . Si   est entre   et  , alors il existe   entre   et   tel que  .

Alors la loi des   fait partie de la famille exponentielle avec un rang 1, c'est-à-dire que   peut s'écrire sous la forme    est une fonction de   dans  ,   est une fonction de   dans  ,   et   sont des fonctions de   dans  .

Remarques modifier

  • Cette version discrète du théorème se limite aux familles exponentielles de rang 1. La statistique   est donc typiquement de dimension 1.
  • La condition 2 portant sur la statistique   est satisfaite pour tous les moments, c'est-à-dire pour les statistiques de la forme   pour  .

Exemple modifier

Si   sont   variables aléatoires discrètes indépendantes et identiquement distribuées suivant une loi géométrique ou une loi de Poisson de paramètre inconnu, alors la statistique   est une statistique exhaustive pour le paramètre de la loi et elle vérifie les conditions du théorème de Pitman-Koopman-Darmois pour les variables discrètes. Les lois géométrique et de Poisson appartiennent bien à la famille exponentielle et sont de rang 1. Dans ces deux cas, la statistique   est aussi minimale.

Contre-exemples modifier

  • Si  sont   variables aléatoires discrètes indépendantes et identiquement distribuées suivant une loi uniforme sur   pour  . Comme le support de cette loi dépend du paramètre  , les conditions du théorème ne sont pas satisfaits. La statistique   est exhaustive pour   et satisfait les conditions du théorème Pitman-Koopman-Darmois pour les variables discrètes. Cependant, la loi uniforme n'appartient pas à la famille exponentielle.
  • Si  sont   variables aléatoires discrètes à valeurs dans  , indépendantes et identiquement distribuées suivant une loi de fonction de masse   dépendant d'un paramètre  . Alors, la statistique   est exhaustive pour  , que   appartienne à la famille exponentielle ou non. Cela semble contredire le théorème de Pitman-Koopman-Darmois pour les variables discrètes mais en réalité la statistique   ne satisfait pas la condition 2 de ce théorème. Pour une valeur de   donnée, il est en fait possible de retrouver les valeurs   correspondantes, à l'ordre près. Formellement, si  , alors  à une permutation près[11] (cela se montre en utilisant la transcendance du nombre  ). Cela signifie que la statistique   contient autant d'information que les données elles-mêmes, à l'exception de leur ordre. Puisque celles-ci sont exhaustives,   l'est aussi.

Autres généralisations modifier

Il existe diverses généralisations du théorème de Pitman-Koopman-Darmois. Entre autres, il existe des versions du théorème pour :

  • des variables aléatoires dont la loi a un support dépendant du paramètre[8],
  • des variables aléatoires indépendantes mais non identiquement distribuées[6],
  • des processus stochastiques[10].

Voir aussi modifier

Références modifier

  1. a et b B. O. Koopman, « On Distributions Admitting a Sufficient Statistic », Transactions of the American Mathematical Society, vol. 39, no 3,‎ , p. 399 (ISSN 0002-9947, DOI 10.2307/1989758, lire en ligne, consulté le )
  2. E. J. G. Pitman, « Sufficient statistics and intrinsic accuracy », Mathematical Proceedings of the Cambridge Philosophical Society, vol. 32, no 4,‎ , p. 567–579 (ISSN 0305-0041 et 1469-8064, DOI 10.1017/s0305004100019307, lire en ligne, consulté le )
  3. Georges Darmois, « Sur les lois de probabilité à estimation exhaustive », Comptes rendus hebdomadaires des séances de l'Académie des sciences, vol. 200,‎ , p. 1265-1266
  4. « Two new properties of mathematical likelihood », Proceedings of the Royal Society of London. Series A, Containing Papers of a Mathematical and Physical Character, vol. 144, no 852,‎ , p. 285–307 (ISSN 0950-1207 et 2053-9150, DOI 10.1098/rspa.1934.0050, lire en ligne, consulté le )
  5. D. A. S. Fraser, « On Sufficiency and the Exponential Family », Journal of the Royal Statistical Society Series B: Statistical Methodology, vol. 25, no 1,‎ , p. 115–123 (ISSN 1369-7412 et 1467-9868, DOI 10.1111/j.2517-6161.1963.tb00489.x, lire en ligne, consulté le )
  6. a et b (en) « Generalizing Koopman-Pitman-Darmois - LessWrong », sur www.lesswrong.com (consulté le )
  7. Edward W. Barankin et Ashok P. Maitra, « Generalization of the Fisher-Darmois-Koopman-Pitman Theorem on Sufficient Statistics », Sankhyā: The Indian Journal of Statistics, Series A (1961-2002), vol. 25, no 3,‎ , p. 217–244 (ISSN 0581-572X, lire en ligne, consulté le )
  8. a et b (en) Evgeniĭ Borisovich Dynkin et Gary M. Seitz, Selected Papers of E. B. Dynkin with Commentary, American Mathematical Soc., (ISBN 978-0-8218-1065-1, lire en ligne)
  9. (en) « Is Pitman-Koopman-Darmois Theorem valid for discrete random variables? », sur Cross Validated (consulté le )
  10. a et b Frederick Daum, « The Fisher-Darmois-Koopman-Pitman theorem for random processes », 1986 25th IEEE Conference on Decision and Control, IEEE,‎ (DOI 10.1109/cdc.1986.267536, lire en ligne, consulté le )
  11. a et b Erling Bernhard Andersen, « Sufficiency and Exponential Families for Discrete Sample Spaces », Journal of the American Statistical Association, vol. 65, no 331,‎ , p. 1248 (ISSN 0162-1459, DOI 10.2307/2284291, lire en ligne, consulté le )