Loi T² d'Hotelling

En statistiques, plus particulièrement dans les tests d'hypothèses, la loi T2 de Hotelling, proposée par Harold Hotelling[1], est une loi de probabilité multivariée qui est étroitement liée à la loi de Fisher et qui se distingue surtout par le fait qu'elle apparaît comme la loi d'un ensemble de statistiques d'échantillon qui sont des généralisations naturelles des statistiques sous-jacentes à la loi t de Student. La statistique t2 de Hotelling est une généralisation de la statistique t de Student qui est utilisée dans les tests d'hypothèses multivariées . [2]

Loi T² d'Hotelling
Image illustrative de l’article Loi T² d'Hotelling
Densité de probabilité

Image illustrative de l’article Loi T² d'Hotelling
Fonction de répartition

Paramètres p - dimension des variables aléatoires
m - nombre de variables
Support si
sinon.

Motivation

modifier

La loi apparaît dans les statistiques multivariées lors de la réalisation de tests sur les différences entre les moyennes (multivariées) de différentes populations, où les tests pour les problèmes univariés utiliseraient un test t . La loi porte le nom de Harold Hotelling, qui l'a développée comme une généralisation de la loi t de Student[1].

Définition

modifier

Si le vecteur   est une loi normale multivariée avec une moyenne nulle et une matrice de covariance unitaire   et   est une matrice   aléatoire suivant un loi de Wishart   avec une matrice d'échelle unitaire et à m degrés de liberté, et d et M sont indépendants l'un de l'autre, alors la forme quadratique   suit une loi de Hotelling (de paramètres   et  [3])

 

On peut montrer que si une variable aléatoire X a la loi T2 de Hotelling,  , alors[1]:

 

  est la loi de Fisher de paramètres p et m − p + 1.

Statistique t2 d'Hotelling

modifier

Soit   la covariance de l'échantillon :

 

où l'exposant T désigne la transposition. On peut montrer que   est une matrice semi-définie positive et   suit une loi de Wishart p-variée à n − 1 degrés de liberté. [4] L'échantillon de matrice de covariance de la moyenne s'obtient par   .

La statistique t2 de Hotelling est alors définie comme[5]:

 

qui est proportionnelle à la distance de Mahalanobis entre la moyenne de l'échantillon et   . Pour cette raison, on devrait s’attendre à ce que la statistique prenne des valeurs faibles si  , et des valeurs élevées si elles sont différentes.

Par la définition de la loi,

 

  est la loi de Fisher avec les paramètres p et n − p .

Afin de calculer une valeur p (sans rapport avec la variable p ici), il faut remarquer que la loi de   implique de manière équivalente que

 

Ensuite, on utilise la quantité sur le côté gauche pour évaluer la valeur p correspondant à l'échantillon, qui provient de la loi de Fisher. Un ellipsoïde de confiance peut également être déterminé en utilisant une logique similaire.

Motivation

modifier

Soit   une loi normale p-variée de vecteur moyenne   et matrice de covariance connue  . Soient

 

n variables aléatoires indépendantes identiquement distribuées (iid), qui peuvent être représentées comme   vecteurs colonnes de nombres réels. On pose

 

comme la moyenne de l'échantillon avec de covariance   . On peut montrer que

 

  est la loi du chi carré avec p degrés de liberté.

Statistique sur deux échantillons

modifier

Si on définit   et  , avec les échantillons tirés indépendamment de deux lois normales multivariées indépendantes avec la même moyenne et la même covariance, et on pose

 
 

comme les moyennes des échantillons, et

 

comme les matrices de covariance d'échantillon respectives. Alors

 

est l'estimateur non biaisé de la matrice de covariance groupée (une extension de la variance composite).

Enfin, la statistique t2 à deux échantillons de Hotelling est

 

Notions associées

modifier

Cela peut être lié à la loi de Fisher par [4]

 

La loi non nulle de cette statistique est la loi de Fisher non centrée (le rapport d'une variable aléatoire suivant la loi du χ² non centrée et d'une variable aléatoire centrale indépendante suivant une loi du χ² )

 

avec

 

  est le vecteur de différence entre les moyennes de la population.

Dans le cas à deux variables, la formule se simplifie bien, permettant d'apprécier comment la corrélation   entre les variables affecte   . Si l'on définit

 

et

 

alors

 

Ainsi, si les différences entre les deux lignes du vecteur   sont du même signe, en général,   devient plus petit à mesure   devient plus positif. Si les différences sont de signes opposés,   devient plus grand à mesure   devient plus positif.

Un cas particulier univarié peut être trouvé dans le test t de Welch.

Des tests plus robustes et plus puissants que le test à deux échantillons de Hotelling ont été proposés dans la littérature, voir par exemple les tests basés sur la distance entre points qui peuvent également être appliqués lorsque le nombre de variables est comparable, voire supérieur, au nombre de sujets[7],[8].

Voir également

modifier
  • Test de Student pour les statistiques univariées
  • Loi de Student pour les probabilités univariées
  • Loi de Student multivariée
  • Loi de Fisher (généralement tabulée ou disponible dans les bibliothèques numériques, et donc utilisée pour tester la statistique T2 en utilisant la relation donnée ci-dessus)
  • Loi du lambda de Wilks (dans les statistiques multivariées, le Λ de Wilks est au T 2 de Hotelling ce que la loi de Snedecor est à la loi de Student dans les statistiques univariées)

Références

modifier
  1. a b et c (en) Hotelling, « The generalization of Student's ratio », Annals of Mathematical Statistics, vol. 2, no 3,‎ , p. 360–378 (DOI 10.1214/aoms/1177732979)
  2. Johnson, R.A. et Wichern, D.W., Applied multivariate statistical analysis, vol. 5, Prentice hall (no 8),
  3. (en) Eric W. Weisstein, « Hotelling T-Squared Distribution », sur MathWorld
  4. a et b (en) K. V. Mardia, J. T. Kent et J. M. Bibby, Multivariate Analysis, Academic Press, (ISBN 978-0-12-471250-8)
  5. « 6.5.4.3. Hotelling's T squared »
  6. (en) Billingsley, P., Probability and measure, 3rd, (ISBN 978-0-471-00710-4), « 26. Characteristic Functions »
  7. (en) Marozzi, « Multivariate tests based on interpoint distances with application to magnetic resonance imaging », Statistical Methods in Medical Research, vol. 25, no 6,‎ , p. 2593–2610 (PMID 24740998, DOI 10.1177/0962280214529104)
  8. (en) Marozzi, « Multivariate multidistance tests for high-dimensional low sample size case-control studies », Statistics in Medicine, vol. 34, no 9,‎ , p. 1511–1526 (PMID 25630579, DOI 10.1002/sim.6418)

Liens externes

modifier