Matrice des liaisons

On se situe dans le cadre de l'analyse de données dans lesquelles un ensemble d'individus est décrit par un ensemble de variables. La matrice des liaisons rassemble les indicateurs de liaison entre les variables prises deux à deux. Elle généralise la matrice des corrélations au cas où l’on dispose simultanément de variables quantitatives et de variables qualitatives.

Contexte

modifier

En statistique, il est utile de mesurer l’intensité de la liaison entre deux variables par un indicateur. Le plus connu est le coefficient de corrélation, ou son carré noté classiquement  , calculé entre deux variables quantitatives.
Entre une variable quantitative et une variable qualitative, l’intensité de la liaison est mesurée par le carré du rapport de corrélation (noté classiquement  )[b 1].
Entre deux variables qualitatives, les deux indicateurs classiques sont le   (noté  ) et le coefficient   de Cramer[b 2].

Lorsque l’on est en présence de plusieurs variables, il est utile de rassembler ces coefficients dans une matrice telle que, à l’intersection de la ligne   et de la colonne   on trouve la mesure d’intensité de la liaison entre les variables   et  . Ceci est fait couramment lorsque les variables sont toutes quantitatives, auquel cas on calcule la matrice des corrélations.

Définition

modifier

En présence de variables des deux types, une extension de la matrice des corrélations est la matrice des liaisons dans laquelle, à l’intersection de la ligne   et de la colonne   on trouve :

  1. si   et   sont quantitatives :  .
  2. si   est quantitative et   qualitative :  .
  3. si   et   sont qualitatives :  .

La diagonale de cette matrice comporte la valeur 1 si la variable est quantitative et le nombre de modalités moins 1 si la variable est qualitative.

Exemple numérique

modifier

Six individus   sont décrits par trois variables quantitatives   et trois variables qualitatives   ayant respectivement 3, 2 et 3 modalités. À partir des données du tableau 1, on calcule la matrice des liaisons du tableau 2.

Tableau 1. Données
           
  2 4.5 4  -A  -B  -C
  5 4.5 4  -C  -B  -C
  3 1 2  -B  -B  -B
  4 1 2  -B  -B  -B
  1 1 1  -A  -A  -A
  6 1 2  -C  -A  -A
Tableau 2. Matrice des liaisons associée au tableau 1.
           
  1 0.00 0.05 0.91 0.00 0.00
  0.00 1 0.90 0.25 0.25 1.00
  0.05 0.90 1 0.13 0.40 0.93
  0.91 0.25 0.13 2 0.25 1.00
  0.00 0.25 0.40 0.25 1 1.00
  0.00 1.00 0.93 1.00 1.00 2

Lecture

modifier

Variables quantitatives. Les variables   et   sont étroitement corrélées entre elles   et non corrélés à  .

Variables qualitatives. La variable   n’est pratiquement pas liée à     et est liée à    . Les variables   et   sont liées  .

Variables quantitatives et qualitatives. La variable   est liée uniquement (et étroitement) à    . Les variables   et   sont liées étroitement à     ou   et ne sont pas liées aux deux autres variables qualitatives  .

Synthèse et visualisation

modifier
 
Tableau 3. Tableau 2 dont les lignes et les colonnes ont été réordonnées selon le premier axe de l'AFDM.

De même qu’une matrice des corrélations peut être utilement visualisée par l’Analyse en composantes principales (ACP), une matrice des liaisons peut être utilement visualisée par l’Analyse Factorielle des Données Mixtes (AFDM)[b 3]. En particulier l’AFDM fournit un graphique dit « carré des liaisons »[b 4], sur lequel les variables quantitatives et qualitatives sont simultanément représentées. Si l’on réordonne les variables selon le premier axe de l’AFDM, la matrice des liaisons fait apparaître des groupes de variables liées entre elles. Si l’on veut expliciter des groupes, il vaut mieux ne pas imposer à ces groupes d’être disjoints puisqu’une variable qualitative peut être parfaitement liée à deux variables quantitatives non corrélées.
Dans l’exemple, cela conduit au tableau 3 dans lequel on peut voir trois groupes de variables :
  : ces trois variables caractérisent les individus   et  .
  : ces deux variables caractérisent les individus   et   (on pourrait aussi ajouter  , liée à   mais pas à  ).
  : ces deux variables opposent les individus   et  .

Références

modifier

Ouvrages spécialisés

modifier
  1. Dagnélie 1998, p. 222 et suiv.
  2. Saporta 2006, p. 149 et suiv.
  3. Pagès 2002
  4. Pagès 2013, p. 72 et suiv.

Voir aussi

modifier

Bibliographie

modifier
  • (fr) Gilbert Saporta, Probabilités, analyse des données et statistique, Technip, Paris, 2006, 2e éd. (1re éd. 1990), 622 p. (ISBN 978-2-7108-0814-5, lire en ligne)
  • (fr) Pierre Dagnélie, Statistique théorique et appliquée. Tome 2. Inférence statistique à une et à deux dimensions, Bruxelles/Paris, Bruxelles, De Boeck, 2011, 3e éd. (1re éd. 1998), 736 p. (ISBN 978-2-8041-6336-5)
  • (fr) Jérôme Pagès, « Analyse factorielle de données mixtes », Revue de Statistique appliquée, vol. 52, no 4,‎ , p. 93-111 (lire en ligne [PDF])
  • (fr) Jérôme Pagès, Analyse factorielle multiple avec R, Les Ulis, EDP sciences, Paris, , 253 p. (ISBN 978-2-7598-0963-9)