Distance statistique

Mesure de l'écart entre deux lois de probabilités

En mathématiques, et plus précisément en théorie des probabilités et en statistique, la notion de distance statistique mesure l'écart entre deux lois ou mesures de probabilité. De telles mesures sont utilisées en théorie de l'information, en statistique, en apprentissage automatique, et en cryptologie notamment.

Lorsqu'aucune précision n'est donnée, la « distance statistique » entre deux distributions fait généralement référence à la distance de variation totale : si P, Q sont des lois de probabilité définies sur un espace X, alors la distance statistique est définie ainsi

Il existe cependant d'autres notions de distance statistique, plus spécialisées, qui ne sont pas nécessairement équivalentes à la distance de variation totale. Comme il ne s'agit bien souvent pas de métriques, le terme de divergence est parfois utilisé.

Familles de divergencesModifier

Soit P et Q des lois de probabilités, définies sur un espace  , avec P absolument continue par rapport à Q. Pour toute fonction convexe f telle que f(1) = 0, on définit la « f-divergence[1],[2],[3] » de P par rapport à Q par :

 
Les choix possibles de la fonction f permettent d'obtenir plusieurs constructions classiques[4],[5] :

Une autre construction est la « α-divergence[7],[Note 2] » qui est plus adaptée aux lois discrètes, et est définie pour tout   par

 

Ici encore des choix particuliers de   permettent d'obtenir des mesures de distance classiques :

Il existe encore d'autres familles, notamment les β- et γ-divergences[10] et les divergences de Bregman, qui recoupent en partie les deux familles discutées ci-dessus.

Autres constructionsModifier

D'autres distances statistiques n'appartiennent pas aux familles discutées ci-dessus, notamment :

Notes et référencesModifier

NotesModifier

  1. La « divergence inverse » de Kullback-Leibler est obtenue en prenant  .
  2. Parfois appelée « divergence de Rényi » du fait de sa proximité avec l'entropie de Rényi.

RéférencesModifier

  1. (de) Imre Czizár, « Eine informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizität von Markoffschen Ketten », Publ. Math. Inst. Hungar. Acad. Sci.,‎ , p. 85–108
  2. (en) Tetsuzo Morimoto, « Markov Processes and the H-Theorem », Journal of the Physical Society of Japan, vol. 18, no 3,‎ , p. 328–331 (ISSN 0031-9015 et 1347-4073, DOI 10.1143/jpsj.18.328, lire en ligne, consulté le 4 septembre 2018)
  3. (en) S. M. Ali et S. D. Silvey, « A General Class of Coefficients of Divergence of One Distribution from Another », Journal of the Royal Statistical Society. Series B (Methodological), vol. 28, no 1,‎ , p. 131–142 (lire en ligne, consulté le 4 septembre 2018)
  4. (en) F. Liese et I. Vajda, « On Divergences and Informations in Statistics and Information Theory », IEEE Transactions on Information Theory, vol. 52, no 10,‎ , p. 4394–4412 (ISSN 0018-9448, DOI 10.1109/tit.2006.881731, lire en ligne, consulté le 4 septembre 2018)
  5. (en) Yihong Wu, « ECE598YW: Information-theoretic methods in high-dimensional statistics », sur www.stat.yale.edu, University of Illinois, (consulté le 4 septembre 2018)
  6. (en) Vaart, A. W. van der., Asymptotic statistics, Cambridge University Press, (ISBN 0-521-49603-9, 9780521496032 et 0521784506, OCLC 38738910, lire en ligne)
  7. (en) Amari, Shunichi., Differential-Geometrical Methods in Statistics, Springer New York, , 294 p. (ISBN 978-1-4612-5056-2 et 1461250560, OCLC 840279903, lire en ligne)
  8. (en) Frank Nielsen et Sylvain Boltz, « The Burbea-Rao and Bhattacharyya Centroids », IEEE Transactions on Information Theory, vol. 57, no 8,‎ , p. 5455–5466 (ISSN 0018-9448 et 1557-9654, DOI 10.1109/tit.2011.2159046, lire en ligne, consulté le 4 septembre 2018)
  9. (en) T. Kailath, « The Divergence and Bhattacharyya Distance Measures in Signal Selection », IEEE Transactions on Communications, vol. 15, no 1,‎ , p. 52–60 (ISSN 0096-2244, DOI 10.1109/tcom.1967.1089532, lire en ligne, consulté le 4 septembre 2018)
  10. (en) Andrzej Cichocki, Shun-ichi Amari, Andrzej Cichocki et Shun-ichi Amari, « Families of Alpha- Beta- and Gamma- Divergences: Flexible and Robust Measures of Similarities », Entropy, vol. 12, no 6,‎ , p. 1532–1568 (DOI 10.3390/e12061532, lire en ligne, consulté le 4 septembre 2018)