Loi de von Mises-Fisher

Dans les statistiques directionnelles, la loi de von Mises-Fisher (du nom de Richard von Mises et Ronald Fisher), est une loi de probabilité sur la p–1-sphère dans . Si p = 2, la loi se réduit à la loi de von Mises sur le cercle.

Définition modifier

La fonction de densité de probabilité de la loi de von Mises-Fisher pour le vecteur unitaire aléatoire de dimension p aléatoire   est donnée par :

 

  et la constante de normalisation   est égale à

 

  désigne la fonction de Bessel modifiée de première espèce à l'ordre v. Si p = 3, la constante de normalisation se réduit à

 

Les paramètres   et   sont appelés respectivement la direction moyenne et le paramètre de concentration. Plus la valeur de   est élevée, plus la masse de la loi est concentrée autour de la direction moyenne   . La distribution est unimodale pour  , et est uniforme sur la sphère pour  .

La loi de von Mises-Fisher pour p = 3 est aussi appelée loi de Fisher[1],[2]. Elle a d'abord été utilisée pour modéliser l'interaction de dipôles électriques dans un champ électrique [3]. D'autres applications se trouvent dans la géologie, la bio-informatique et la fouille de textes.

Remarque sur la constante de normalisation modifier

Dans le manuel de Mardia et Jupp[3], la constante de normalisation donnée pour la densité de probabilité de Von Mises-Fisher est apparemment différente de celle donnée ici, soit  . Dans ce livre, la constante de normalisation est spécifiée comme suit :

 

L'explication vient du fait que Mardia et Jupp donnent la densité "par rapport à la loi uniforme", alors que la densité est ici spécifiée de la manière classique, par rapport à la mesure de Lebesgue. La densité (par rapport à la mesure de Lebesgue) de la loi uniforme est l'inverse de la surface de la p–1-sphère, de sorte que la fonction de densité uniforme est donnée par la constante :

 

Il s'ensuit alors que :

 

Alors que la valeur de   a été dérivée ci-dessus via l'aire de la surface, le même résultat peut être obtenu en fixant   dans la formule ci-dessus pour  . Cela peut être fait en notant que le développement en série pour   divisé par   n'a qu'un terme non nul en  . (Pour évaluer ce terme, il faut utiliser la convention  ).

Relation avec la loi normale modifier

À partir d'une loi normale de covariance isotrope   et de moyenne   de longueur  , dont la fonction de densité est :

 

la loi de von Mises-Fisher est obtenue en imposant   . En développant

 

et en utilisant le fait que les deux premiers termes de droite sont fixes, la densité de von Mises-Fisher,   est récupéré en recalculant la constante de normalisation en intégrant   sur la sphère unité. Si  , on obtient la distribution uniforme, de densité   .

Plus succinctement, la restriction de toute densité normale multivariée isotrope à l'hypersphère unitaire, donne une densité de Von Mises-Fisher, à normalisation près.

Cette construction peut être généralisée en partant d'une distribution normale avec une matrice de covariance générale, auquel cas en conditionnant sur   donne la distribution de Fisher-Bingham.

Estimation des paramètres modifier

Direction moyenne modifier

Une série de N vecteurs unitaires indépendants   sont tirées selon une loi de von Mises-Fisher. L'estimation du maximum de vraisemblance de la direction moyenne   est simplement la moyenne arithmétique normalisée, une statistique suffisante[3]:

 

Paramètre de concentration modifier

En utilisant la fonction de Bessel du premier type pour définir

 

Alors :

 

Ainsi   est la solution à

 

Une simple approximation de   est (Sra, 2011)

 

Une inversion plus précise peut être obtenue en itérant plusieurs fois la méthode de Newton

 
 

Erreur standard modifier

Pour N ≥ 25, l'erreur type sphérique estimée de la direction moyenne de l'échantillon peut être calculée comme suit [4]:

 

 

Il est alors possible d'approximer un intervalle de confiance sphérique à   (soit un cône de confiance) sur   avec angle semi-vertical :

 

Par exemple, pour un cône de confiance à 95 %,   Et ainsi  

Espérance modifier

L'espérance de la loi de Von Mises-Fisher n'est pas sur l'hypersphère unitaire, mais a plutôt une longueur inférieure à un. Cette longueur est donnée par la constante   définie supra. Pour une loi de Von Mises-Fisher de direction moyenne   et de concentration  , l'espérance est :

  .

Pour  , l'espérance est à l'origine. Pour   fini, la longueur de l'espérance, est strictement comprise entre zéro et 1 et est une fonction croissante monotone de  .

La moyenne empirique (arithmétique) d'une collection de points sur l'hypersphère unité se comporte de manière similaire, étant proche de l'origine pour les données largement répandues et proches de la sphère pour les données concentrées. En effet, pour la loi de Von Mises-Fisher, l'espérance de l'estimateur du maximum de vraisemblance basée sur un ensemble de points est égale à la moyenne empirique de ces points.

Entropie et divergence de Kullback-Leibler modifier

L'espérance peut être utilisée pour calculer l'entropie différentielle et la divergence de Kullback-Leibler.

L'entropie différentielle de   est:

  .

Il faut noter que l'entropie est une fonction de   seulement.

La divergence KL entre   et   est :

 

Transformation modifier

Les lois de Von Mises-Fisher (VMF) sont fermées sous les transformées linéaires orthogonales. Soit   une matrice orthogonale carrée. On suppose   et on applique la transformation linéaire inversible :   . La transformée inverse est  , car l'inverse d'une matrice orthogonale est sa transposée :   . Le jacobien de la transformation est  , pour lequel la valeur absolue de son déterminant est 1, également à cause de l'orthogonalité. En utilisant ces faits et la forme de la densité VMF, il s'ensuit que :

 

On peut vérifier que puisque   et   sont des vecteurs unitaires, puis par l'orthogonalité,   et   le sont également.

Généralisations modifier

La loi matricielle de von Mises-Fisher (également connue sous le nom de loi matricielle de Langevin [5],[6] ) a la densité

 

définie sur la variété de Stiefel de   p-cadres orthonormés  , où   est une matrice réelle   [7],[8].

Distribution de l'angle polaire modifier

Pour  , l'angle θ entre   et   vérifie   . Il a la répartition

  ,

qui peut être facilement évalué comme

  .

Articles connexes modifier

Références modifier

  1. Fisher, « Dispersion on a sphere », Proc. R. Soc. Lond. A, vol. 217, no 1130,‎ , p. 295–305 (DOI 10.1098/rspa.1953.0064, Bibcode 1953RSPSA.217..295F, S2CID 123166853)
  2. Watson, « Distributions on the Circle and on the Sphere », J. Appl. Probab., vol. 19,‎ , p. 265–280 (DOI 10.2307/3213566, JSTOR 3213566)
  3. a b et c Kanti Mardia et P. E. Jupp, Directional Statistics, John Wiley & Sons Ltd., (ISBN 978-0-471-95333-3)
  4. N. I. Fisher, T. Lewis, B. J. J. Embleton, Statistical analysis of spherical data, Cambridge, 1st pbk., , 115–116 (ISBN 0-521-45699-1, lire en ligne)
  5. Pal, Sengupta, Mitra et Banerjee, « Conjugate Priors and Posterior Inference for the Matrix Langevin Distribution on the Stiefel Manifold », Bayesian Analysis, vol. 15, no 3,‎ , p. 871–908 (ISSN 1936-0975, DOI 10.1214/19-BA1176, lire en ligne, consulté le )
  6. (en) Chikuse, « Concentrated matrix Langevin distributions », Journal of Multivariate Analysis, vol. 85, no 2,‎ , p. 375–394 (ISSN 0047-259X, DOI 10.1016/S0047-259X(02)00065-9)
  7. Jupp, « Maximum likelihood estimators for the matrix von Mises-Fisher and Bingham distributions », The Annals of Statistics, vol. 7, no 3,‎ , p. 599–606 (DOI 10.1214/aos/1176344681, lire en ligne)
  8. Downs, « Orientational statistics », Biometrika, vol. 59, no 3,‎ , p. 665–676 (DOI 10.1093/biomet/59.3.665)

Notes et références modifier

  • (en) I. Dhillon et S. Sra, Modeling Data using Directional Distributions, University of Texas, Austin, Tech. rep., .
  • (en) A. Banerjee, I.S. Dhillon, J. Ghosh , J. et S. Sra, « Clustering on the unit hypersphere using von Mises-Fisher distributions », Journal of Machine Learning Research, vol. 6,‎ , p. 1345-1382.
  • S. Sra, « A short note on parameter approximation for von Mises-Fisher distributions: And a fast implementation of I_s(x) », Computational Statistics, vol. 27,‎ , p. 177–190 (DOI 10.1007/s00180-011-0232-x, S2CID 3654195, CiteSeerx 10.1.1.186.1887)