Modèle de fondation

paradigme de modèle d'intelligence artificielle

Un modèle de fondation est un modèle d'intelligence artificielle de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé). Le modèle résultant peut être adapté à un large éventail de tâches en aval (downstream tasks en anglais)[1],[2]. Depuis leur introduction en 2018, les modèles de fondation ont induit une transformation majeure dans la manière de construire les systèmes d'IA. Les premiers modèles de fondation étaient de grands modèles de langage pré-entraînés, notamment BERT[3] et GPT-3. Par la suite, des modèles de fondation multimodaux, tels DALL-E, Flamingo[4], et Florence[5], qui intègrent image et texte, ont fait leur apparition. Ce terme a été popularisé par le centre de recherche sur les modèles de fondation (CRFM) du Stanford Institute for Human-Centered Artificial Intelligence (HAI)[1].

Définitions modifier

Le centre de recherche sur les modèles de base (CRFM) du Stanford Institute for Human-Centered Artificial Intelligence (HAI) a inventé le terme de modèle de fondation pour désigner « tout modèle entraîné sur un gros volume de données (généralement en utilisant l'apprentissage auto-supervisé à grande échelle sur des données non annotées) qui peut être adapté (par exemple, affiné) à un large éventail de tâches en aval »[6]. La technique n'est en soi pas nouvelle, étant basée sur des réseaux de neurones profonds et un apprentissage auto-supervisé, mais son échelle d'entraînement, sur un large volume de données, et le potentiel d'utilisation d'un même modèle pour de nombreuses tâches en aval justifie l'introduction d'un nouveau concept, affirme le groupe de Stanford[6].

De par sa capacité à s'adapter à de nombreuses tâches en aval, un modèle de fondation est un « paradigme pour la construction de systèmes d'IA », dans lequel un modèle pré-entraîné sur une grande quantité de données non étiquetées peut être adapté à de nombreuses applications[7],[8],[9].

Les principales caractéristiques des modèles de fondation sont l'émergence et l'homogénéisation[6]. Dans le cas de l'apprentissage auto-supervisé, les données d'entraînement n'étant pas étiquetées, la structuration de la représentation de l'information par le modèle est émergente plutôt que d'être explicitement encodée. Des propriétés qui n'étaient pas prévues peuvent alors apparaître. Par exemple, un modèle entraîné sur un grand ensemble de données linguistiques peut apprendre à générer ses propres histoires ou à faire de l'arithmétique, sans être explicitement entraîné pour le faire[10]. Par ailleurs, l'homogénéisation signifie que la même méthode est utilisée dans de nombreux domaines, ce qui permet des avancées mutualisées, mais aussi la possibilité de « points uniques de défaillance »[6].

Opportunités et risques modifier

La publication du CRFM[6] a répertorié les capacités des modèles de fondation en ce qui concerne « le langage, la vision, la robotique, le raisonnement et l'interaction humaine » et ses principes techniques, tels que « les architectures de modèles, les algorithmes d'entraînement, la gestion des données, la sécurité, leur évaluation », leurs applications, par exemple dans « le droit, les soins de santé, l'éducation » et enfin leur impact potentiel sur la société, y compris « l'iniquité, l'utilisation abusive, l'impact économique et environnemental, les considérations juridiques et éthiques ».

Un article sur les modèles de fondation dans The Economist note que « pour certaines personnes, le développement sans précaution de la technologie risque de concentrer davantage le pouvoir économique et politique »[10],[11].

Références modifier

  1. a et b (en) « Introducing the Center for Research on Foundation Models (CRFM) », Stanford HAI (consulté le ).
  2. (en-US) Goldman, « Foundation models: 2022’s AI paradigm shift », VentureBeat, (consulté le ).
  3. (en) Anna Rogers, Olga Kovaleva et Anna Rumshisky, « A Primer in BERTology: What we know about how BERT works », arXiv:2002.12327 [cs],‎ (lire en ligne, consulté le ).
  4. (en) « Tackling multiple tasks with a single visual language model », sur www.deepmind.com (consulté le ).
  5. (en) Lu Yuan, Dongdong Chen, Yi-Ling Chen et Noel Codella, « Florence: A New Foundation Model for Computer Vision », arXiv:2111.11432 [cs],‎ (lire en ligne, consulté le ).
  6. a b c d et e (en) Rishi Bommasani, Drew A. Hudson, Ehsan Adeli et Russ Altman, « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258 [cs],‎ (lire en ligne  , consulté le ).
  7. « Stanford CRFM » (consulté le ).
  8. (en) « What are foundation models? », IBM Research Blog, (consulté le ).
  9. (en) Fei, Lu, Gao et Yang, « Towards artificial general intelligence via a multimodal foundation model », Nature Communications, vol. 13, no 1,‎ , p. 3094 (ISSN 2041-1723, PMID 35655064, PMCID 9163040, DOI 10.1038/s41467-022-30761-2, lire en ligne).
  10. a et b (en) « Huge “foundation models” are turbo-charging AI progress », The Economist,‎ (ISSN 0013-0613, lire en ligne, consulté le ).
  11. Texte original : Some worry that the technology’s heedless spread will further concentrate economic and political power […].