Loi de probabilité d'entropie maximale

En statistique et en théorie de l'information, une loi de probabilité d'entropie maximale a une entropie qui est au moins aussi grande que celle de tous les autres membres d'une classe spécifiée de lois de probabilité. Selon le principe d'entropie maximale, si rien n'est connu sur une loi , sauf qu'elle appartient à une certaine classe (généralement définie en termes de propriétés ou de mesures spécifiées), alors la loi avec la plus grande entropie doit être choisie comme la moins informative par défaut. La motivation est double : premièrement, maximiser l'entropie minimise la quantité d'informations a priori intégrées à la loi ; deuxièmement, de nombreux systèmes physiques ont tendance à évoluer vers des configurations d'entropie maximale au fil du temps.

Définition de l'entropie et de l'entropie différentielle modifier

Si X est une variable aléatoire discrète de loi donnée par

 

alors l'entropie de   est définie comme

 

Si   est une variable aléatoire continue de loi de probabilité p(x), alors l'entropie différentielle de X est définie par[1],[2]

 

La quantité p(x) log p(x) est considérée comme nulle chaque fois que p(x) = 0.

Il s'agit d'un cas particulier des formes plus générales décrites dans les articles Entropie (théorie de l'information), Principe d'entropie maximale et Entropie différentielle. Dans le cadre des lois d'entropie maximale, c'est la seule nécessaire, car la maximisation de   maximisera également les formes plus générales.

La base du logarithme n'est pas importante tant que la même est utilisée de manière cohérente : le changement de base entraîne simplement une remise à l'échelle de l'entropie. Les théoriciens de l'information peuvent préférer utiliser la base 2 pour exprimer l'entropie en bits ; les mathématiciens et les physiciens préféreront souvent le logarithme naturel, résultant en une unité de nats pour l'entropie.

Le choix de la mesure dx est cependant cruciale pour déterminer l'entropie et la loi d'entropie maximale qui en résulte, même si l'utilisation habituelle à la mesure de Lebesgue est souvent défendue comme "naturel".

Lois avec constantes mesurées modifier

De nombreuses distributions statistiques d'intérêt applicable sont celles pour lesquelles les moments ou d'autres quantités mesurables sont contraints d'être des constantes. Le théorème suivant de Ludwig Boltzmann donne la forme de la densité de probabilité sous ces contraintes.

Cas continu modifier

On suppose que S est un sous-ensemble fermé de nombres réels   et on choisit de spécifier n fonctions mesurables f1, ... , fn et n nombres a1, ... , an. On considère la classe C de toutes les variables aléatoires à valeur réelle prises en charge sur S (c'est-à-dire dont la fonction de densité est nulle en dehors de S) et qui satisfont aux n conditions instantanées :

 

S'il y a un membre dans C dont la fonction de densité est positive partout dans S, et s'il existe une distribution d'entropie maximale pour C, alors sa densité de probabilité p(x) a la forme suivante :

 

où l'on suppose que f0(x) = 1. La constante λ0 et les n multiplicateurs de Lagrange   résolvent le problème d'optimisation contrainte avec   (cette condition assure que p soit d'intégrale égale à 1)[3]:

 

En utilisant les conditions de Karush-Kuhn-Tucker, on peut montrer que le problème d'optimisation a une solution unique car la fonction objectif de l'optimisation est concave en λ.

On note que si les conditions de moment sont des égalités (au lieu d'inégalités), c'est-à-dire

 

alors la condition de contrainte λ0 est supprimée, ce qui rend l'optimisation sur les multiplicateurs de Lagrange sans contrainte.

Cas discret modifier

On considère   un sous-ensemble discret (fini ou infini) des réels et on choisit de spécifier n fonctions f1, ... , fn et n nombres a1, ... , an. On considère la classe C de toutes les variables aléatoires discrètes X qui s'appuient sur S et qui satisfont les n conditions de moment

 

S'il existe un membre de C qui attribue une probabilité positive à tous les membres de S et s'il existe une distribution d'entropie maximale pour C, alors cette distribution a la forme suivante :

 

où l'on suppose que   et les constantes   sont solutions du problème d'optimisation contrainte avec  [4] :

 

Encore une fois, si les conditions de moment sont des égalités (au lieu d'inégalités), alors la condition de contrainte λ0 n'est pas présent dans l'optimisation.

Preuve dans le cas des contraintes d'égalité modifier

Dans le cas des contraintes d'égalité, ce théorème est démontré avec le calcul des variations et des multiplicateurs de Lagrange. Les contraintes peuvent s'écrire sous la forme

 

On considère la fonctionnelle

 

  et   sont les multiplicateurs de Lagrange. La contrainte zéro garantit le deuxième axiome de probabilité. Les autres contraintes sont que les mesures de la fonction soient des constantes données jusqu'à l'ordre  . L'entropie atteint un extremum lorsque la dérivée fonctionnelle s'annule :

 

On peut vérifier que cet extremum est bien un maximum. Par conséquent, la distribution de probabilité d'entropie maximale dans ce cas doit être de la forme (   )

 

La preuve de la version discrète est essentiellement la même.

Unicité du maximum modifier

On suppose  ,   sont des lois satisfaisant les contraintes attendues. Soit   et compte tenu de la distribution   il est clair que cette distribution satisfait les mêmes contraintes et a de plus pour support   . Par les propriétés basiques de l'entropie, il vient que   . COnsidérer les valeurs limites pour   et   donne respectivement   .

Il s'ensuit qu'une distribution satisfaisant les contraintes d'attente et maximisant l'entropie doit nécessairement avoir un support complet — c'est-à-dire que la distribution est presque partout positive. Il s'ensuit que la distribution maximisante doit être un point interne dans l'espace des distributions satisfaisant les contraintes d'espérance, c'est-à-dire qu'elle doit être un extremum local. Ainsi, il suffit de montrer que l'extremum local est unique, pour montrer à la fois que la distribution maximisant l'entropie est unique (et cela montre aussi que l'extremum local est le maximum global).

Supposons que   sont des extrema locaux. En reformulant les calculs ci-dessus, ceux-ci sont caractérisés par des paramètres   passant par   et de même pour  , où   . On note maintenant une série d'identités : par la satisfaction des contraintes d'attente et l'utilisation de gradients/dérivées directionnelles, on a   et de même pour   . En posant   on obtient :

 

  pour certains   . En calculant plus loin on a

 

  est similaire à la loi ci-dessus, uniquement paramétrée par   . En supposant qu'aucune combinaison linéaire non triviale des observables n'est presque partout constante (ce qui, par exemple, est vrai si les observables sont indépendantes et non constantes presque partout), on considère que   a une variance non nulle, sauf si  . Par l'équation ci-dessus, il est donc clair que ce dernier doit être le cas. Ainsi  , donc les paramètres caractérisant les extrema locaux   sont identiques, ce qui signifie que les lois elles-mêmes sont identiques. Ainsi, l'extremum local est unique et d'après la discussion ci-dessus, le maximum est unique, à condition qu'un extremum local existe réellement.

Mises en garde modifier

Il faut noter que toutes les classes de distributions ne contiennent pas une loi d'entropie maximale. Il est possible qu'une classe contienne des lois d'entropie arbitrairement grande (par exemple la classe de toutes les lois continues sur R avec une moyenne nulle mais un écart type arbitraire), ou que les entropies soient bornées au-dessus mais qu'aucune loi n'atteigne l'entropie maximale[Notes 1]. Il est également possible que les restrictions de valeur attendue pour la classe C forcent la loi de probabilité à être nulle dans certains sous-ensembles de S . Dans ce cas, ce théorème ne s'applique pas, mais on peut contourner ce problème en réduisant l'ensemble S.

Exemples modifier

Chaque loi de probabilité est trivialement une loi de probabilité d'entropie maximale sous la contrainte que la loi a sa propre entropie. Pour voir cela, on réécrit la densité comme   et on la compare à l'expression du théorème ci-dessus. En choisissant   comme fonction mesurable et

 

être la constante,   est la loi de probabilité d'entropie maximale sous la contrainte

  .

Des exemples non triviaux sont des lois soumises à de multiples contraintes différentes de l'affectation de l'entropie. Ceux-ci sont souvent trouvés en commençant par la même procédure   et en remarquant que   peut être séparée en parties.

Un tableau d'exemples de lois d'entropie maximale est donné dans Lisman (1972)[5] et Park & Bera (2009)[6].

Lois uniformes et uniformes par morceaux modifier

La loi uniforme continue sur l'intervalle [a , b] est la loi d'entropie maximale parmi toutes les distributions continues qui sont prises en charge dans l'intervalle [a , b], et donc la densité de probabilité est de 0 en dehors de l'intervalle. Cette densité uniforme peut être mise en relation avec le principe d'indifférence (en) de Laplace, parfois appelé principe de raison insuffisante. Plus généralement, si on donne une subdivision a = a0 < a1 < ... < ak = b de l'intervalle [a , b] et des probabilités p1 , ... , pk dont la somme vaut 1, alors on peut considérer la classe de toutes les lois continues telles que

 

La densité de la loi d'entropie maximale pour cette classe est constante sur chacun des intervalles [aj–1 , aj[. La loi uniforme sur l'ensemble fini x1 , ... , xn (qui attribue une probabilité de 1/ n à chacune de ces valeurs) est la loi d'entropie maximale parmi toutes les distributions discrètes supportées sur cet ensemble.

Moyenne positive et spécifiée : la loi exponentielle modifier

La loi exponentielle, pour laquelle la fonction de densité est

 

est la loi d'entropie maximale parmi toutes les loi continues définies sur [0,+∞[ qui ont une moyenne fixée à 1/λ.

Moyenne et variance spécifiées : la loi normale modifier

La loi normale  , pour laquelle la fonction de densité est

 

a une entropie maximale parmi toutes les distributions à valeurs réelles supportées sur ]−∞,∞[ avec une variance spécifiée σ2 (un moment particulier). Par conséquent, l'hypothèse de normalité impose la contrainte structurelle a priori minimale au-delà de ce moment. (Voir l'article sur l'entropie différentielle pour une dérivation).

Dans le cas des lois définies sur [0,+∞[, la distribution d'entropie maximale dépend des relations entre le premier et le second moments. Dans des cas spécifiques, il peut s'agir de la distribution exponentielle, ou peut être une autre distribution, voire peut être indéfinissable[7].

Lois discrètes avec une moyenne spécifiée modifier

Parmi toutes les lois discrètes supportées sur l'ensemble { x 1 ,..., x n } avec une moyenne spécifiée μ, la loi d'entropie maximale a la forme suivante :

 

où les constantes positives C et r peuvent être déterminées par les exigences selon lesquelles la somme de toutes les probabilités doit être 1 et l'espérance doit valoir μ.

Par exemple, si un grand nombre N de dés sont lancés et qu'on dit que la somme de tous les nombres affichés est S . Sur la base de ces seules informations, quelle serait une hypothèse raisonnable pour le nombre de dés indiquant 1, 2, ..., 6 ? Ceci est un exemple de la situation considérée ci-dessus, avec {x1 ,..., x6} = {1,...,6} et μ = S / N.

Enfin, parmi toutes les distributions discrètes supportées sur l'ensemble infini   de moyenne μ, la distribution d'entropie maximale a la forme :

 

où à nouveau les constantes C et r ont été déterminées par les exigences selon lesquelles la somme de toutes les probabilités doit être 1 et la valeur attendue doit être μ. Par exemple, dans le cas où x k = k, cela donne

 

telle que la loi d'entropie maximale respective est la loi géométrique.

Variables aléatoires circulaires modifier

Pour une variable aléatoire continue   distribuée autour du cercle unité, la loi de Von Mises maximise l'entropie lorsque les parties réelle et imaginaire du premier moment circulaire sont spécifiées[8] ou, de manière équivalente, la moyenne circulaire et la variance circulaire sont spécifiées.

Lorsque la moyenne et la variance des angles   modulo   sont spécifiées, la loi normale enveloppée maximise l'entropie[8].

Maximiseur pour la moyenne, la variance et l'asymétrie spécifiées modifier

Il existe une borne supérieure sur l'entropie des variables aléatoires continues sur   avec une moyenne, une variance et un biais spécifiés. Cependant, il n'y a pas de distribution qui atteint cette borne supérieure, car   n'est pas borné lorsque   (voir Cover & Thomas (2006 : chapitre 12)).

Cependant, l'entropie maximale est ε -atteignable : l'entropie d'une loi peut être arbitrairement proche de la borne supérieure. On commence avec une loi normale de moyenne et de variance spécifiées. Pour introduire un biais positif, on perturbe la loi normale vers le haut d'une petite quantité à une valeur plusieurs σ supérieure à la moyenne. L'asymétrie, étant proportionnelle au troisième moment, sera plus affectée que les moments d'ordre inférieur.

Il s'agit d'un cas particulier du cas général dans lequel l'exponentielle de tout polynôme d'ordre impair en x sera illimitée sur   . Par exemple,   sera également illimité sur  , mais lorsque le support est limité à un intervalle borné ou semi-borné, la borne supérieure d'entropie peut être atteinte (par exemple, si x se situe dans l'intervalle [0, ∞ ] et λ < 0, la loi exponentielle en résultera).

Maximisateur pour la moyenne et la mesure de risque d'écart spécifiées modifier

Chaque loi avec une densité log-concave est une distribution d'entropie maximale avec une moyenne spécifiée μ et une mesure de risque de déviation D[9].

En particulier, la loi d'entropie maximale avec une moyenne spécifiée   et de déviation   est:

  • La loi normale  , si   est l'écart type ;
  • La loi de Laplace, si   est l'écart absolu moyen[5] ;
  • La loi avec densité de la forme   si   est le demi-écart inférieur standard, où  , et a,b,c sont des constantes[9].

Autres exemples modifier

Dans le tableau ci-dessous, chaque loi répertoriée maximise l'entropie pour un ensemble particulier de contraintes fonctionnelles répertoriées dans la troisième colonne, et la contrainte que x soit inclus dans le support de la densité de probabilité, qui est répertoriée dans la quatrième colonne[5],[6]. Plusieurs exemples (Bernoulli, géométrique, exponentielle, Laplace, Pareto) listés sont trivialement vrais car leurs contraintes associées sont équivalentes à l'affectation de leur entropie. Ils sont inclus simplement parce que leur contrainte est liée à une quantité commune ou facilement mesurable. Pour référence,   est la fonction gamma,   est la fonction digamma,   est la fonction bêta, et γE est la constante d'Euler-Mascheroni.

Table de lois de probabilités et contraintes d'entropie maximale correspondantes
Distribution Densité Contrainte d'entropie maximale Support
Uniforme (discrète)   Aucune  
Uniforme (continue)   Aucune  
Bernoulli      
Géométrique      
Exponentielle      
Laplace      
Laplace asymétrique      
Pareto      
Normale      
Tronquée (voir article dédié)    
von Mises      
Rayleigh      
Beta   pour    

 
 
Cauchy      
Chi      
Chi-2      
Erlang      
Gamma      
Log-normale      
Maxwell–Boltzmann      
Weibull      
Normale miltidimensionnelle  

 
   
Binomiale      
Poisson    [10]  
Logistique      

Le principe d'entropie maximale peut être utilisé pour majorer l'entropie des mélanges statistiques[11].

Articles connexes modifier

Remarques modifier

  1. Par exemple, la classe de toutes les lois continues X si R avec E(X) = 0 et E(X2) = E(X3) = 1 (voir Cover, Ch 12).

Citations modifier

  1. (en) D. Williams, Weighing the Odds, Cambridge University Press, , p. 197-199 (ISBN 0-521-00618-X).
  2. (en) J. M. Bernardo et A. F. M. Smith, Bayesian Theory, Wiley, , p. 209, 366 (ISBN 0-471-49464-X)
  3. (en) Botev et Kroese, « The Generalized Cross Entropy Method, with Applications to Probability Density Estimation », Methodology and Computing in Applied Probability, vol. 13, no 1,‎ , p. 1–27 (DOI 10.1007/s11009-009-9133-7, S2CID 18155189, lire en ligne)
  4. Botev et Kroese, « Non-asymptotic Bandwidth Selection for Density Estimation of Discrete Data », Methodology and Computing in Applied Probability, vol. 10, no 3,‎ , p. 435 (DOI 10.1007/s11009-007-9057-z, S2CID 122047337)
  5. a b et c Lisman et van Zuylen, « Note on the generation of most probable frequency distributions », Statistica Neerlandica, vol. 26, no 1,‎ , p. 19–23 (DOI 10.1111/j.1467-9574.1972.tb00152.x)
  6. a et b Park et Bera, « Maximum entropy autoregressive conditional heteroskedasticity model », Journal of Econometrics, vol. 150, no 2,‎ , p. 219–230 (DOI 10.1016/j.jeconom.2008.12.014, CiteSeerx 10.1.1.511.9750, lire en ligne [archive du ], consulté le )
  7. Dowson et Wragg, « Maximum-entropy distributions having prescribed first and second moments », IEEE Transactions on Information Theory, vol. 19, no 5,‎ , p. 689–693 (ISSN 0018-9448, DOI 10.1109/tit.1973.1055060)
  8. a et b S. Rao Jammalamadaka et SenGupta, A., Topics in circular statistics, New Jersey, World Scientific, (ISBN 978-981-02-3778-3, lire en ligne)
  9. a et b (en) B. Grechuk, A. Molyboha et M. Zabarankin, « Maximum Entropy Principle with General Deviation Measures », Mathematics of Operations Research, vol. 34, no 2,‎ , p. 445--467 (lire en ligne).
  10. (en) Peter Harremös, « Binomial and Poisson distributions as maximum entropy distributions », IEEE Transactions on Information Theory, vol. 47, no 5,‎ , p. 2039–2041 (DOI 10.1109/18.930936).
  11. (en) Frank Nielsen et Richard Nock, « MaxEnt upper bounds for the differential entropy of univariate continuous distributions », IEEE Signal Processing Letters, IEEE, vol. 24,‎ , p. 402-406 (DOI 10.1109/LSP.2017.2666792, Bibcode 2017ISPL...24..402N, S2CID 14092514)

Références modifier

  • (en) T. M. Cover et J. A. Thomas, Elements of Information Theory, Wiley, (ISBN 978-0471241959, lire en ligne), « 2, Maximum Entropy »
  • (en) F. Nielsen et R. Nock, « MaxEnt upper bounds for the differential entropy of univariate continuous distributions », IEEE Signal Processing Letters, vol. 24, no 4,‎ , p. 402-406 (lire en ligne)
  • (en) I. J. Taneja, Generalized Information Measures and Their Applications, (lire en ligne). Chapter 1
  • (en) Nader Ebrahimi, Ehsan S. Soofi et Refik Soyer, « Multivariate maximum entropy identification, transformation, and dependence », Journal of Multivariate Analysis, vol. 99,‎ , p. 1217–1231 (DOI 10.1016/j.jmva.2007.08.004)