Réduction de la dimensionnalité

remplacer des données dans un espace de grande dimension par des données dans un espace de plus petite dimension

La réduction de la dimensionnalité (ou réduction de (la) dimension) est un processus étudié en mathématiques et en informatique, qui consiste à prendre des données dans un espace de grande dimension, et à les remplacer par des données dans un espace de plus petite dimension. Pour que l'opération soit utile il faut que les données en sortie représentent bien les données d'entrée.

Animation présentant la projection de points en deux dimensions sur les axes obtenus par analyse en composantes principales, une méthode populaire de réduction de la dimensionnalité

Définition et buts modifier

La réduction de dimensionnalité consiste à prendre des données dans un espace de grande dimension, et à les remplacer par des données dans un espace de plus petite dimension[1],[2].

La raison pour laquelle une telle opération est utile est que les données de plus petites dimension peuvent être traitées plus rapidement[1]. Cette opération est cruciale en apprentissage automatique par exemple, pour lutter contre le fléau de la dimension.

Approches modifier

Il existe plusieurs approches pour faire cette opération, et plusieurs objectifs possibles à atteindre. Les méthodes classiques sont la sélection de caractéristiques qui consiste à sélectionner un ensemble de variables qui vont être conservées, et l'extraction de caractéristiques qui consiste à créer de nouvelles variables plus pertinentes[1]. Des méthodes plus récentes, qui se basent sur un processus de diffusion, permettent de réduire la dimension des données tout en préservant leurs structures locales et globales[3].

Notes et références modifier

  1. a b et c Christian Gagné, « Réduction de la dimensionnalité », sur Université de Laval
  2. Hassan Chouaib, Sélection de caractéristiques : méthodes et applications (thèse de doctorat), (lire en ligne).
  3. (en) Kevin R. Moon, David van Dijk, Zheng Wang, Scott Gigante et al., « Visualizing structure and transitions in high-dimensional biological data », Nature Biotechnology, vol. 37, no 12,‎ , p. 1482–1492 (ISSN 1546-1696, PMID 31796933, PMCID PMC7073148, DOI 10.1038/s41587-019-0336-3, lire en ligne, consulté le )

Articles connexes modifier