Distance statistique

En mathématiques, et plus précisément en théorie des probabilités et en statistique, la notion de distance statistique sert à mesurer l'écart entre deux lois de probabilité. Les distances statistiques sont notamment utilisées en théorie de l'information, en statistique, en apprentissage automatique, et en cryptologie.

Lorsqu'aucune précision n'est donnée, la « distance statistique » entre deux lois fait généralement référence à la distance en variation totale.

Il existe cependant d'autres notions de distance statistique, plus spécialisées, qui ne sont pas nécessairement équivalentes à la distance en variation totale. Comme il ne s'agit bien souvent pas de distances, au sens des espaces métriques, le terme de divergence est parfois utilisé.

Familles de divergences modifier

Soit P et Q des lois de probabilité, définies sur un espace $\Omega$ , avec P absolument continue par rapport à Q. Pour toute fonction convexe f telle que f(1) = 0, on définit la « f-divergence^[1]^,^[2]^,^[3] » de P par rapport à Q par :

D_{f}(P\parallel Q)=\int _{\Omega }f\left({\frac {\mathrm {d} P}{\mathrm {d} Q}}\right)\,\mathrm {d} Q.

Les choix possibles de la fonction f permettent d'obtenir plusieurs constructions classiques^[4]^,^[5] :

la distance en variation totale correspond au choix $f(t)=|t-1|/2$ .
la divergence de Kullback-Leibler correspond au choix $f(t)=t\log t$ ^{[Note 1]}.
la distance de Hellinger correspond au choix $f(t)=2(1-{\sqrt {t}})$ ^[6].

Une autre construction est la « α-divergence^[7]^,^{[Note 2]} » qui est plus adaptée aux lois discrètes, et est définie pour tout $\alpha \in \mathbb {R} ^{+}\cup \{\infty \}$ par

D_{\alpha }(P\|Q)=\lim _{x\to \alpha }{\frac {1}{x-1}}\log {\Bigg (}\sum _{i=1}^{n}{\frac {p_{i}^{x}}{q_{i}^{x-1}}}{\Bigg )}\,

Ici encore des choix particuliers de $\alpha$ permettent d'obtenir des mesures de distance classiques :

la distance de Bhattacharyya correspond (à un facteur multiplicatif près) au choix $\alpha =1/2$ ^[8]^,^[9].
la divergence de Kullback-Leibler correspond au choix $\alpha =1$ .

Il existe encore d'autres familles, notamment les β- et γ-divergences^[10] et les divergences de Bregman, qui recoupent en partie les deux familles discutées ci-dessus.

Autres constructions modifier

D'autres distances statistiques n'appartiennent pas aux familles discutées ci-dessus, notamment :

Notes et références modifier

Notes modifier

↑ La « divergence inverse » de Kullback-Leibler est obtenue en prenant $f(t)=-\log t$ .
↑ Parfois appelée « divergence de Rényi » du fait de sa proximité avec l'entropie de Rényi.

Références modifier

↑ (de) Imre Czizár, « Eine informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizität von Markoffschen Ketten », Publ. Math. Inst. Hungar. Acad. Sci.,‎ 1963, p. 85–108
↑ (en) Tetsuzo Morimoto, « Markov Processes and the H-Theorem », Journal of the Physical Society of Japan, vol. 18, n^o 3,‎ 15 mars 1963, p. 328–331 (ISSN 0031-9015 et 1347-4073, DOI 10.1143/jpsj.18.328, lire en ligne, consulté le 4 septembre 2018)
↑ (en) S. M. Ali et S. D. Silvey, « A General Class of Coefficients of Divergence of One Distribution from Another », Journal of the Royal Statistical Society. Series B (Methodological), vol. 28, n^o 1,‎ 1966, p. 131–142 (lire en ligne, consulté le 4 septembre 2018)
↑ (en) F. Liese et I. Vajda, « On Divergences and Informations in Statistics and Information Theory », IEEE Transactions on Information Theory, vol. 52, n^o 10,‎ octobre 2006, p. 4394–4412 (ISSN 0018-9448, DOI 10.1109/tit.2006.881731, lire en ligne, consulté le 4 septembre 2018)
↑ (en) Yihong Wu, « ECE598YW: Information-theoretic methods in high-dimensional statistics », sur www.stat.yale.edu, University of Illinois, 2016 (consulté le 4 septembre 2018)
↑ (en) Vaart, A. W. van der., Asymptotic statistics, Cambridge University Press, 1998 (ISBN 0-521-49603-9, 9780521496032 et 0521784506, OCLC 38738910, lire en ligne)
↑ (en) Amari, Shunichi., Differential-Geometrical Methods in Statistics, Springer New York, 1985, 294 p. (ISBN 978-1-4612-5056-2 et 1461250560, OCLC 840279903, lire en ligne)
↑ (en) Frank Nielsen et Sylvain Boltz, « The Burbea-Rao and Bhattacharyya Centroids », IEEE Transactions on Information Theory, vol. 57, n^o 8,‎ août 2011, p. 5455–5466 (ISSN 0018-9448 et 1557-9654, DOI 10.1109/tit.2011.2159046, lire en ligne, consulté le 4 septembre 2018)
↑ (en) T. Kailath, « The Divergence and Bhattacharyya Distance Measures in Signal Selection », IEEE Transactions on Communications, vol. 15, n^o 1,‎ février 1967, p. 52–60 (ISSN 0096-2244, DOI 10.1109/tcom.1967.1089532, lire en ligne, consulté le 4 septembre 2018)
↑ (en) Andrzej Cichocki, Shun-ichi Amari, Andrzej Cichocki et Shun-ichi Amari, « Families of Alpha- Beta- and Gamma- Divergences: Flexible and Robust Measures of Similarities », Entropy, vol. 12, n^o 6,‎ 14 juin 2010, p. 1532–1568 (DOI 10.3390/e12061532, lire en ligne, consulté le 4 septembre 2018)

[6] La « divergence inverse » de Kullback-Leibler est obtenue en prenant $f(t)=-\log t$ .

[9] Parfois appelée « divergence de Rényi » du fait de sa proximité avec l'entropie de Rényi.

[1] (de) Imre Czizár, « Eine informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizität von Markoffschen Ketten », Publ. Math. Inst. Hungar. Acad. Sci.,‎ 1963, p. 85–108

[2] (en) Tetsuzo Morimoto, « Markov Processes and the H-Theorem », Journal of the Physical Society of Japan, vol. 18, n^o 3,‎ 15 mars 1963, p. 328–331 (ISSN 0031-9015 et 1347-4073, DOI 10.1143/jpsj.18.328, lire en ligne, consulté le 4 septembre 2018)

[3] (en) S. M. Ali et S. D. Silvey, « A General Class of Coefficients of Divergence of One Distribution from Another », Journal of the Royal Statistical Society. Series B (Methodological), vol. 28, n^o 1,‎ 1966, p. 131–142 (lire en ligne, consulté le 4 septembre 2018)

[4] (en) F. Liese et I. Vajda, « On Divergences and Informations in Statistics and Information Theory », IEEE Transactions on Information Theory, vol. 52, n^o 10,‎ octobre 2006, p. 4394–4412 (ISSN 0018-9448, DOI 10.1109/tit.2006.881731, lire en ligne, consulté le 4 septembre 2018)

[5] (en) Yihong Wu, « ECE598YW: Information-theoretic methods in high-dimensional statistics », sur www.stat.yale.edu, University of Illinois, 2016 (consulté le 4 septembre 2018)

[7] (en) Vaart, A. W. van der., Asymptotic statistics, Cambridge University Press, 1998 (ISBN 0-521-49603-9, 9780521496032 et 0521784506, OCLC 38738910, lire en ligne)

[8] (en) Amari, Shunichi., Differential-Geometrical Methods in Statistics, Springer New York, 1985, 294 p. (ISBN 978-1-4612-5056-2 et 1461250560, OCLC 840279903, lire en ligne)

[10] (en) Frank Nielsen et Sylvain Boltz, « The Burbea-Rao and Bhattacharyya Centroids », IEEE Transactions on Information Theory, vol. 57, n^o 8,‎ août 2011, p. 5455–5466 (ISSN 0018-9448 et 1557-9654, DOI 10.1109/tit.2011.2159046, lire en ligne, consulté le 4 septembre 2018)

[11] (en) T. Kailath, « The Divergence and Bhattacharyya Distance Measures in Signal Selection », IEEE Transactions on Communications, vol. 15, n^o 1,‎ février 1967, p. 52–60 (ISSN 0096-2244, DOI 10.1109/tcom.1967.1089532, lire en ligne, consulté le 4 septembre 2018)

[12] (en) Andrzej Cichocki, Shun-ichi Amari, Andrzej Cichocki et Shun-ichi Amari, « Families of Alpha- Beta- and Gamma- Divergences: Flexible and Robust Measures of Similarities », Entropy, vol. 12, n^o 6,‎ 14 juin 2010, p. 1532–1568 (DOI 10.3390/e12061532, lire en ligne, consulté le 4 septembre 2018)

[1]

[2]

[3]

[4]

[5]

[Note 1]

[6]

[7]

[Note 2]

[8]

[9]

[10]