Utilisateur:Nesrinehr/Brouillon

Apprentissage non supervisé

L’apprentissage non supervisé (Unsupervised Learning) consiste à ne disposer que de données d’entrée (X) et pas de variables de sortie correspondantes.

L’objectif de l’apprentissage non supervisé est de modéliser la structure ou la distribution sous-jacente dans les données afin d’en apprendre davantage sur les données.

On l’appelle apprentissage non supervisé car, contrairement à l’apprentissage supervisé ci-dessus, il n’y a pas de réponse correcte ni d’enseignant. Les algorithmes sont laissés à leurs propres mécanismes pour découvrir et présenter la structure intéressante des données.

L’apprentissage non supervisé comprend deux catégories d’algorithmes: Algorithmes de regroupement et d’association.[1]


Regroupement ou Clustering :

modifier

La mise en cluster consiste à séparer ou à diviser un ensemble de données en un certain nombre de groupes, de sorte que les ensembles de données appartenant aux mêmes groupes se ressemblent davantage que ceux d’autres groupes. En termes simples, l’objectif est de séparer les groupes ayant des traits similaires et de les assigner en grappes.

Voyons cela avec un exemple. Supposons que vous soyez le chef d’un magasin de location et que vous souhaitiez comprendre les préférences de vos clients pour développer votre activité. Vous pouvez regrouper tous vos clients en 10 groupes en fonction de leurs habitudes d’achat et utiliser une stratégie distincte pour les clients de chacun de ces 10 groupes. Et c’est ce que nous appelons le Clustering.[2]

Méthodes:

Le clustering consiste à grouper des points de données en fonction de leurs similitudes, tandis que l’association consiste à découvrir des relations entre les attributs de ces points de données:

Les techniques de clustering cherchent à décomposer un ensemble d'individus en plusieurs sous ensembles les plus homogènes possibles

 On ne connaît pas la classe des exemples (nombre, forme, taille)

 Les méthodes sont très nombreuses, typologies généralement employées pour les distinguer  Méthodes de partitionnement / Méthodes hiérarchiques

 Avec recouvrement / sans recouvrement

 Autre : incrémental / non incrémental

 D'éventuelles informations sur les classes ou d'autres informations sur les données n'ont pas d'influence sur la formation des clusters, seulement sur leur interprétation[3]


La liste de certains algorithmes d’apprentissage automatique non supervisés:

  • K-means clustering
  • Dimensionality Reduction (Réduction de la dimensionnalité)
  • Neural networks / Deep Learning
  • Principal Component Analysis (Analyse des composants principaux)
  • Singular Value Decomposition (Décomposition en valeur singulière)
  • Independent Component Analysis (Analyse en composantes indépendantes)
  • Distribution models (Modèles de distribution)
  • Hierarchical clustering (Classification hiérarchique)[4]


  1. « Apprentissage Supervisé Vs. Non Supervisé », sur Le DataScientist, (consulté le )
  2. « Apprentissage Supervisé Vs. Non Supervisé », sur Le DataScientist, (consulté le )
  3. vincent lemaire, « http://www.vincentlemaire-labs.fr/cours/2.2-ApprentissageNonSupervise.pdf »
  4. « Apprentissage Supervisé Vs. Non Supervisé », sur Le DataScientist, (consulté le )