Entropie conditionnelle

En théorie de l'information, l'entropie conditionnelle décrit la quantité d'information nécessaire pour connaitre le comportement d'une variable aléatoire $Y$ , lorsque l'on connait exactement une variable aléatoire $X$ . On note $\mathrm {H} (Y|X)$ l'entropie conditionnelle de $Y$ sachant $X$ . On dit aussi parfois entropie de $Y$ conditionnée par $X$ ^[1]. Comme les autres entropies, elle se mesure généralement en bits.

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article ne cite pas suffisamment ses sources (juillet 2023).

Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».

En pratique : Quelles sources sont attendues ? Comment ajouter mes sources ?

Définitions modifier

On peut introduire l'entropie conditionnelle de plusieurs façons, soit directement à partir des probabilités conditionnelles, soit en passant par l'entropie conjointe. Les deux définitions sont équivalentes.

Définition directe modifier

On définit l'entropie conditionnelle à partir de la probabilité conditionnelle de $Y$ relativement à $X$ :

\mathrm {H} (Y|X):=\sum _{y\in {\mathcal {Y}},x\in {\mathcal {X}}}-\mathbb {P} (X=x,Y=y)\log _{2}(\mathbb {P} (Y=y|X=x))

où ${\mathcal {Y}}$ et ${\mathcal {X}}$ sont respectivement les supports des variables $Y$ et $X$ .

Par l'entropie conjointe modifier

Étant donné deux variables aléatoires $X$ et $Y$ avec pour entropies respectives $\mathrm {H} (X)$ et $\mathrm {H} (Y)$ , et pour entropie conjointe $\mathrm {H} (X,Y)$ , l'entropie conditionnelle de $Y$ sachant $X$ est définie par :

\mathrm {H} (Y|X)\equiv \mathrm {H} (X,Y)-\mathrm {H} (X)

Équivalence des définitions modifier

Ces deux définitions sont équivalentes, c'est-à-dire qu'avec la première définition de $\mathrm {H} (Y|X)$ ,

\mathrm {H} (Y|X)=\mathrm {H} (X,Y)-\mathrm {H} (X)

Démonstration

${\begin{aligned}\mathrm {H} (X,Y)-\mathrm {H} (X)&=-\sum _{x\in X,y\in Y}\mathbb {P} (X=x,Y=y)\log _{2}(\mathbb {P} (X=x,Y=y))+\sum _{x\in X,y\in Y}\mathbb {P} (X=x,Y=y)\log _{2}(\mathbb {P} (X=x))\\&=-\sum _{x\in X,y\in Y}\mathbb {P} (X=x,Y=y)\log _{2}\left({\frac {\mathbb {P} (X=x,Y=y)}{\mathbb {P} (X=x)}}\right)\\&=\mathrm {H} (Y|X)\end{aligned}}$

Propriétés modifier

$\mathrm {H} (Y|X)=\mathrm {H} (Y)$ si et seulement si $Y$ et $X$ sont indépendantes.

Démonstration

$\mathrm {H} (Y|X)=\sum _{x\in X}\mathbb {P} (X=x)\mathrm {H} (Y|X=x)=0$ lorsque tous les termes de la somme sont nulles. Soit $x\in X$ tel que $\mathbb {P} (X=x)\neq 0$ , on a donc $\mathrm {H} (Y|X=x)=0$ , ce qui implique qu'il existe un unique élément $y\in Y$ vérifiant $\mathbb {P} (Y=y|X=x)=1$ . On peut donc définir une fonction $f$ telle que $g(y)=x$ pour tous les éléments de probabilité non nulle. Comme toutes les probabilités somment à $1$ , la probabilité de $Y$ est entièrement définie

Règle de la chaîne : avec $X_{1},...X_{n}$ variables aléatoires,

\mathrm {H} (X_{1},...,X_{n})=\sum _{i=1}^{n}\mathrm {H} (X_{i}|X_{1},...,X_{i-1})

Démonstration

On connait la relation équivalente pour des probabilités :

\mathbb {P} (X_{1}=x_{1},...,X_{n}=x_{n})=\prod _{i=1}^{n}\mathbb {P} (X_{i}=x_{i}|X_{i-1}=x_{i-1},...,X_{1}=x_{1})

Par conséquent,

\mathrm {H} (X_{1},...,X_{n})=-\sum _{x_{1},...,x_{n}}\mathbb {P} (X_{1}=x_{1},...,X_{n}=x_{n})\log _{2}(\mathbb {P} (X_{1}=x_{1},...,X_{n}=x_{n}))=-\sum _{x_{1},...,x_{n}}\sum _{i=1}^{n}\mathbb {P} (X_{1}=x_{1},...,X_{n}=x_{n})\log _{2}(\mathbb {P} (X_{i}=x_{i}|X_{i-1}=x_{i-1},...,X_{1}=x_{1}))

D'où en inversant les sommes

=\sum _{i=1}^{n}\mathrm {H} (X_{i}|X_{i-1},...X_{1})

Intuition modifier

Intuitivement, si le système combiné contient $\mathrm {H} (X,Y)$ bits d'information, et si nous connaissons parfaitement la variable aléatoire $X$ , pour coder le système on peut économiser $\mathrm {H} (X)$ bits, et on n'a plus besoin que de $\mathrm {H} (Y|X)$ bits.

Références modifier

↑ Antoine Cornuéjols, Laurent Miclet et Vincent Barra, Apprentissage artificiel: Deep learning, concepts et algorithmes, EYROLLES, 2018 (ISBN 978-2-212-67522-1, lire en ligne), p. 446

Voir aussi modifier

[1] Antoine Cornuéjols, Laurent Miclet et Vincent Barra, Apprentissage artificiel: Deep learning, concepts et algorithmes, EYROLLES, 2018 (ISBN 978-2-212-67522-1, lire en ligne), p. 446

[1]