En théorie de l'information, l'entropie croisée entre deux lois de probabilité mesure le nombre de bits moyen nécessaires pour identifier un événement issu de l'« ensemble des événements » sur l'univers , si la distribution des événements est basée sur une loi de probabilité , en utilisant un système de codage défini sur une distribution de référence .

L'entropie croisée pour deux distributions et sur le même espace probabilisé est définie de la façon suivante :

,

est l'entropie de , et est la divergence de Kullback-Leibler entre et .

Pour et discrets, cela signifie

La formule est analogue pour des variables aléatoires continues :

NB: La notation est parfois utilisées à la fois pour l'entropie croisée et l'entropie conjointe de et .

Minimisation de l'entropie croisée modifier

La minimisation de l'entropie croisée est souvent utilisée en optimisation et en estimation de probabilité d'événements rares ; voir méthode de l'entropie croisée.

Quand on compare une distribution   avec une distribution de référence  , l'entropie croisée et la divergence de Kullback-Leibler sont identiques à une constante additive près (quand   est fixé): les deux atteignent leur minimum lorsque  , ce qui donne   pour la divergence KL, et   pour l'entropie croisée.

Cependant, comme expliqué dans l'article divergence de Kullback-Leibler, la distribution   est parfois la loi fixée a priori, et la distribution   est optimisée pour être la plus proche possible de  , sous certaines contraintes. Dans ce cas les deux minimisations ne sont pas équivalentes. Cela conduit à des ambiguïtés dans la littérature, avec des auteurs tentant de réduire la confusion en définissant l'entropie croisée par   plutôt que par  .

Voir aussi modifier

Références modifier