Modèle de fondation

Un modèle de fondation est un modèle d'intelligence artificielle de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé). Le modèle résultant peut être adapté à un large éventail de tâches en aval (downstream tasks en anglais)^[1]^,^[2]. Depuis leur introduction en 2018, les modèles de fondation ont induit une transformation majeure dans la manière de construire les systèmes d'IA. Les premiers modèles de fondation étaient de grands modèles de langage pré-entraînés, notamment BERT^[3] et GPT-3. Par la suite, des modèles de fondation multimodaux, tels DALL-E, Flamingo^[4], et Florence^[5], qui intègrent image et texte, ont fait leur apparition. Ce terme a été popularisé par le centre de recherche sur les modèles de fondation (CRFM) du Stanford Institute for Human-Centered Artificial Intelligence (HAI)^[1].

Définitions modifier

Le centre de recherche sur les modèles de base (CRFM) du Stanford Institute for Human-Centered Artificial Intelligence (HAI) a inventé le terme de modèle de fondation pour désigner « tout modèle entraîné sur un gros volume de données (généralement en utilisant l'apprentissage auto-supervisé à grande échelle sur des données non annotées) qui peut être adapté (par exemple, affiné) à un large éventail de tâches en aval »^[6]. La technique n'est en soi pas nouvelle, étant basée sur des réseaux de neurones profonds et un apprentissage auto-supervisé, mais son échelle d'entraînement, sur un large volume de données, et le potentiel d'utilisation d'un même modèle pour de nombreuses tâches en aval justifie l'introduction d'un nouveau concept, affirme le groupe de Stanford^[6].

De par sa capacité à s'adapter à de nombreuses tâches en aval, un modèle de fondation est un « paradigme pour la construction de systèmes d'IA », dans lequel un modèle pré-entraîné sur une grande quantité de données non étiquetées peut être adapté à de nombreuses applications^[7]^,^[8]^,^[9].

Les principales caractéristiques des modèles de fondation sont l'émergence et l'homogénéisation^[6]. Dans le cas de l'apprentissage auto-supervisé, les données d'entraînement n'étant pas étiquetées, la structuration de la représentation de l'information par le modèle est émergente plutôt que d'être explicitement encodée. Des propriétés qui n'étaient pas prévues peuvent alors apparaître. Par exemple, un modèle entraîné sur un grand ensemble de données linguistiques peut apprendre à générer ses propres histoires ou à faire de l'arithmétique, sans être explicitement entraîné pour le faire^[10]. Par ailleurs, l'homogénéisation signifie que la même méthode est utilisée dans de nombreux domaines, ce qui permet des avancées mutualisées, mais aussi la possibilité de « points uniques de défaillance »^[6].

Opportunités et risques modifier

La publication du CRFM^[6] a répertorié les capacités des modèles de fondation en ce qui concerne « le langage, la vision, la robotique, le raisonnement et l'interaction humaine » et ses principes techniques, tels que « les architectures de modèles, les algorithmes d'entraînement, la gestion des données, la sécurité, leur évaluation », leurs applications, par exemple dans « le droit, les soins de santé, l'éducation » et enfin leur impact potentiel sur la société, y compris « l'iniquité, l'utilisation abusive, l'impact économique et environnemental, les considérations juridiques et éthiques ».

Un article sur les modèles de fondation dans The Economist note que « pour certaines personnes, le développement sans précaution de la technologie risque de concentrer davantage le pouvoir économique et politique »^[10]^,^[11].

Références modifier

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Foundation_models » (voir la liste des auteurs).

↑ ^{a et b} (en) « Introducing the Center for Research on Foundation Models (CRFM) », Stanford HAI (consulté le 11 juin 2022).
↑ (en-US) Goldman, « Foundation models: 2022’s AI paradigm shift », VentureBeat, 13 septembre 2022 (consulté le 24 octobre 2022).
↑ (en) Anna Rogers, Olga Kovaleva et Anna Rumshisky, « A Primer in BERTology: What we know about how BERT works », arXiv:2002.12327 [cs],‎ 9 novembre 2020 (lire en ligne, consulté le 1^er novembre 2022).
↑ (en) « Tackling multiple tasks with a single visual language model », sur www.deepmind.com (consulté le 1^er novembre 2022).
↑ (en) Lu Yuan, Dongdong Chen, Yi-Ling Chen et Noel Codella, « Florence: A New Foundation Model for Computer Vision », arXiv:2111.11432 [cs],‎ 22 novembre 2021 (lire en ligne, consulté le 1^er novembre 2022).
↑ ^{a b c d et e} (en) Rishi Bommasani, Drew A. Hudson, Ehsan Adeli et Russ Altman, « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258 [cs],‎ 12 juillet 2022 (lire en ligne , consulté le 1^er novembre 2022).
↑ « Stanford CRFM » (consulté le 10 juin 2022).
↑ (en) « What are foundation models? », IBM Research Blog, 9 février 2021 (consulté le 10 juin 2022).
↑ (en) Fei, Lu, Gao et Yang, « Towards artificial general intelligence via a multimodal foundation model », Nature Communications, vol. 13, n^o 1,‎ décembre 2022, p. 3094 (ISSN 2041-1723, PMID 35655064, PMCID 9163040, DOI 10.1038/s41467-022-30761-2, lire en ligne).
↑ ^{a et b} (en) « Huge “foundation models” are turbo-charging AI progress », The Economist,‎ 11 juin 2022 (ISSN 0013-0613, lire en ligne, consulté le 29 juin 2023).
↑ Texte original : Some worry that the technology’s heedless spread will further concentrate economic and political power […].

[CRFM-1] {a et b} (en) « Introducing the Center for Research on Foundation Models (CRFM) », Stanford HAI (consulté le 11 juin 2022).

[2] (en-US) Goldman, « Foundation models: 2022’s AI paradigm shift », VentureBeat, 13 septembre 2022 (consulté le 24 octobre 2022).

[3] (en) Anna Rogers, Olga Kovaleva et Anna Rumshisky, « A Primer in BERTology: What we know about how BERT works », arXiv:2002.12327 [cs],‎ 9 novembre 2020 (lire en ligne, consulté le 1^er novembre 2022).

[deepmind_20220428-4] (en) « Tackling multiple tasks with a single visual language model », sur www.deepmind.com (consulté le 1^er novembre 2022).

[5] (en) Lu Yuan, Dongdong Chen, Yi-Ling Chen et Noel Codella, « Florence: A New Foundation Model for Computer Vision », arXiv:2111.11432 [cs],‎ 22 novembre 2021 (lire en ligne, consulté le 1^er novembre 2022).

[Bommasani_20210818-6] {a b c d et e} (en) Rishi Bommasani, Drew A. Hudson, Ehsan Adeli et Russ Altman, « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258 [cs],‎ 12 juillet 2022 (lire en ligne , consulté le 1^er novembre 2022).

[7] « Stanford CRFM » (consulté le 10 juin 2022).

[8] (en) « What are foundation models? », IBM Research Blog, 9 février 2021 (consulté le 10 juin 2022).

[9] (en) Fei, Lu, Gao et Yang, « Towards artificial general intelligence via a multimodal foundation model », Nature Communications, vol. 13, n^o 1,‎ décembre 2022, p. 3094 (ISSN 2041-1723, PMID 35655064, PMCID 9163040, DOI 10.1038/s41467-022-30761-2, lire en ligne).

[:0-10] {a et b} (en) « Huge “foundation models” are turbo-charging AI progress », The Economist,‎ 11 juin 2022 (ISSN 0013-0613, lire en ligne, consulté le 29 juin 2023).

[11] Texte original : Some worry that the technology’s heedless spread will further concentrate economic and political power […].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]