En statistique, le coefficient RV[1] (pour rhô-vectoriel) est une généralisation multivariée du coefficient de corrélation de Pearson au carré (car le coefficient RV prend des valeurs comprises entre 0 et 1)[2]. Dans sa version population, il mesure le lien entre deux groupes de variables aléatoires en se basant sur la matrice de variance-covariance. Il peut être estimé via la matrice de covariance empirique calculée à partir d'un échantillon.

Les principales approches de l'analyse statistique multivariée des données peuvent toutes être intégrées dans un cadre commun dans lequel le coefficient RV est maximisé sous réserve de contraintes pertinentes. Plus précisément, ces méthodologies statistiques comprennent[1] :

Un exemple d'application du coefficient RV est en neuroimagerie fonctionnelle où il peut mesurer la similitude entre les séries de scans cérébraux de deux sujets[3] ou entre différents scans d'un même sujet[4].

Définitions modifier

Supposons que le couples de variables aléatoires vectorielles   admette une matrice de variance covariance

 


La définition du coefficient RV fait intervenir idées[5] permettant de définir des grandeurs scalaires qui sont appelées «variance» et «covariance» de variables aléatoires à valeurs vectorielles. En utilisant ces définitions, le coefficient RV est alors défini de manière analogue au coefficient de corrélation entre variables univariées.

Quand les vecteurs aléatoires (vecteurs colonnes) sont centrés, on peut écrire

 

et la covariance scalaire (notée COVV) est définie par [5]

 

La variance scalaire est définie de manière correspondante

 

Avec ces définitions, la variance et la covariance ont certaines propriétés additives par rapport à la formation de nouvelles quantités vectorielles en étendant un vecteur existant avec les éléments d'un autre[5].

Alors le coefficient RV est défini par [5]

 

Défaut du coefficient et version ajustée modifier

Par construction, le coefficient prend des valeurs comprises entre 0 et 1. Cependant, il atteint rarement des valeurs proches de 1 car le dénominateur est trop grand par rapport aux valeurs possibles du numérateur[6].

Étant donné deux matrices   and   de dimensions   et   respectively, en supposant sans perte de généralité que  , on peut démontrer[7] que la valeur maximale possible du numérateur est    (resp.  ) est la matrice des valeurs propres de  (resp.  ) ordonnées de manière décroissante en partant du coin supérieur gauche et où   est la matrice de taille   égale à  .

À la suite de cela, Mordant et Segers[7] ont proposé une version ajustée du coefficient RV où le dénominateur prend la plus grande valeur atteignable du numérateur. Cette version ajustée est alors

 

L'intérêt de cet ajustement est clairement visible dans certains cas en pratique[7].

Voir également modifier

  • Coefficient de congruence
  • Corrélation de distance

Références modifier

  1. a et b (en) P. Robert et Y. Escoufier, « A Unifying Tool for Linear Multivariate Statistical Methods: The RV-Coefficient », Applied Statistics, vol. 25, no 3,‎ , p. 257–265 (DOI 10.2307/2347233, JSTOR 2347233)
  2. Hervé Abdi, RV coefficient and congruence coefficient, Thousand Oaks, (ISBN 978-1-4129-1611-0)
  3. Ferath Kherif, Jean-Baptiste Poline, Sébastien Mériaux et Habib Banali, « Group analysis in functional neuroimaging: selecting subjects using similarity measures », NeuroImage, vol. 20, no 4,‎ , p. 2197–2208 (PMID 14683722, DOI 10.1016/j.neuroimage.2003.08.018, lire en ligne)
  4. Herve Abdi, Joseph P. Dunlop et Lynne J. Williams, « How to compute reliability estimates and display confidence and tolerance intervals for pattern classiffers using the Bootstrap and 3-way multidimensional scaling (DISTATIS) », NeuroImage, vol. 45, no 1,‎ , p. 89–95 (PMID 19084072, DOI 10.1016/j.neuroimage.2008.11.008)
  5. a b c et d Y. Escoufier, « Le Traitement des Variables Vectorielles », Biometrics, International Biometric Society, vol. 29, no 4,‎ , p. 751–760 (DOI 10.2307/2529140, JSTOR 2529140)
  6. Pucetti, G., « Measuring Linear Correlation Between Random Vectors », SSRN,‎ (lire en ligne)
  7. a b et c Mordant Gilles et Segers Johan, « Measuring dependence between random vectors via optimal transport, », Journal of Multivariate Analysis, vol. 189,‎