Modèle de langage

modèle statistique de la structure du langage

En traitement automatique des langues, un modèle de langage, modèle de langue ou modèle linguistique[1] est un modèle statistique de la distribution de symboles distincts (lettres, phonèmes, mots) dans une langue naturelle. Un modèle de langage vise fondamentalement à prédire le mot suivant dans une séquence de mots[2].

Type de modèles modifier

n-gram modifier

Un modèle de langage n-gramme est un modèle de langage qui modélise des séquences de mots comme un processus de Markov. Il utilise l'hypothèse simplificatrice selon laquelle la probabilité du mot suivant dans une séquence ne dépend que d'une fenêtre de taille fixe de mots précédents. Un modèle bigramme considère un mot précédent, un modèle trigramme en considère deux, et en général, un modèle n-gramme considère n-1 mots du contexte précédent.

Les modèles n-grammes ne sont plus couramment utilisés dans la recherche et les applications du traitement du langage naturel, car ils ont été supplantés par l'état de l'art méthodes d'apprentissage en profondeur, plus récemment grand modèle de langages.

Réseaux de neurones modifier

Un modèle de langage de grande taille (large language model ou LLM en anglais) s'appuie sur de vastes corpus de textes de diverses sources, tels que livres, articles de presse, pages Web, forums, réseaux sociaux, etc. pour prédire, à partir d'un mot donné, les mots et les phrases suivants dans un texte.

Les LLM sont utilisés pour une variété de tâches, telles que la génération de texte, la traduction automatique, la classification de texte et la réponse aux questions. Parmi les exemples de LLM les plus connus, on peut citer GPT-3 et GPT-4 de OpenAI et BERT de Google.

Outre les grands modèles de langage, les petits modèles de langage (SLM ou small langage model) nécessitent moins de données et de puissance de calcul pour fonctionner. Cette caractéristique les rend plus pratiques pour une utilisation dans des appareils avec des ressources limitées ou pour des applications nécessitant une réponse rapide[3].

Usage modifier

Les LLM sont utilisés pour une variété de tâches, telles que la génération de texte, la traduction automatique, la classification de texte et la réponse aux questions.

Plus précisement, Solaiman, I. et al. rapportent des usages dits bénéfiques dans une grande variété de domaines[4]. Ils ressortent :

Domaine Exemple d’usage
Génie logiciel Autocomplétion de code
Écriture Assistance grammaticale
Arts Générations de poèmes
Divertissement Jeux vidéos
Santé Systèmes médicaux de question-réponse

Critiques modifier

Bender et al. 2021 remet en cause la pertinence des énormes modèles de langage préentraînés[5]. Ils extraient 3 catégories de problèmes : le coût environnemental de l’entraînement et de l’utilisation de modèles de grande taille, les problèmes issus des jeux d'entraînements tirés d’Internet, et les problèmes introduits par la “cohérence apparente” de ces modèles. Parmi les problèmes issus des jeux d’entraînements, se trouvent les biais que les modèles statistiques encodent souvent, le manque de supervision et de responsabilité dans le traitement des jeux de données, ainsi que l’idée que les mœurs sociales changent, mais que les modèles de langages sont incapables de se modifier sans réentraînement actif avec de nouvelles données.

Bender et al. critiquent aussi le fait qu’il n’y a pas de pensée derrière la communication des LLM ; parce que c’est un modèle statistique, la sortie ne serait donc qu’une imitation d’une communication réelle.

Question des droits d’auteur modifier

La question des droits d'auteur liés à l'utilisation de données textuelles protégées pour l'entraînement de modèles de langage préentraînés est une préoccupation majeure, comme l'explique Christopher T. Zirpoli 2023[6]. La controverse réside principalement dans la distinction entre l'utilisation transformative, qui peut être considérée comme une utilisation équitable, et la reproduction de travaux protégés par le droit d'auteur. Bien que ces modèles ne reproduisent pas directement le contenu source, ils génèrent des sorties basées sur ces données, pouvant éventuellement reproduire des segments de textes protégés. La législation actuelle ne couvre pas explicitement ce domaine, laissant une zone d'incertitude juridique. Cela souligne la nécessité d'une clarification légale et d'un débat éthique autour de la propriété intellectuelle dans le contexte de l'intelligence artificielle générative.

Adaptation au contexte modifier

L'article “Challenges of Context and Time in Reinforcement Learning : Introducing Space Fortress as a Benchmark” par Akshat Agarwal et al. (2018) aborde des problématiques essentielles dans le domaine de l'apprentissage par renforcement. Les auteurs mettent l'accent sur la complexité d'intégrer le contexte et le facteur temporel dans les algorithmes. Ces derniers font face à des défis majeurs lorsqu'il s'agit de prendre des décisions optimales en temps réel, en raison des incertitudes et de la complexité inhérente aux situations réelles. La problématique est d'autant plus pressante qu'une mauvaise interprétation du contexte ou un manque d'adaptation à l'évolution rapide des environnements peut conduire à des résultats imprévus et loin d'être optimaux[7].

Présence de biais et proliférations de fausses informations modifier

Tel que mentionné par Bender et al., les modèles de langage sont directement impactés par la qualité de leurs données d'entraînement. Plusieurs biais ont donc pu être démontrés dans des versions de modèles. On peut nommer comme exemple la priorisation des productions anglophones, pour les modèles entraînés en anglais. Les modèles peuvent aussi être affectés par les biais humains comme les stéréotypes de genre, religion, race, etc.[4]

De plus, il est possible d’utiliser des modèles open-source, même si souvent moins perfectionnés que ceux de l’industrie privée, et d’en accentuer une idéologie désirée en lui fournissant des données la supportant. Fraioli croit que cette facilité à automatiser la génération de textes pourrait augmenter la quantité de contenu de propagande accessible sur le web[8].

La présence d’opinion dans les modèles de langage peut influencer les opinions de ses utilisateurs, selon une étude de Jakesch et al[9]. Solaiman, I. et al. soutiennent qu’il est alors primordial d’analyser les modèles et de les tester pour ces biais. Selon eux, des méthodes standardisées au travers de l'industrie sont nécessaires[4].

Influence géopolitique modifier

D’un point de vue politique, plusieurs pays prévoient une influence des modèles de langage sur leurs affaires internes. Par exemple, avec la montée de la désinformation, Fraioli croit qu’il faut surveiller les campagnes électorales prochaines et y mesurer l’impact des modèles[8].

De plus, la dynamique de la recherche en IA est largement dominée par quelques grandes entreprises technologiques, souvent américaines, qui disposent des ressources nécessaires pour développer et déployer des jeux de données volumineux, des modèles et des clusters de calcul. Les relations internationales se sont donc vues impactées par la montée en popularité des modèles de langage, car leur développement a créé une dynamique de nationalisme de l’IA avec une course à la scalabilité ascendante, principalement entre les États-Unis et la Chine. Fraioli ressort le contrôle par les États-Unis des exportations de semiconducteurs, souvent utilisés en AI, vers la Chine comme un exemple de ces nouvelles mesures. Il estime que ce serait pour préserver les avancées américaines dans le domaines ou pour limiter l’influence Chinoise à l’international. Par contre, il soutient que ça pourrait encourager la Chine à investir dans ses propres infrastructures[8].

Finalement, tous les pays n’ont pas la même approche quant à la régularisation des modèles de langage. L’Union Européenne, par exemple, prévoit être plus sévère et cela pourrait ralentir les développements de l’IA à long terme en Europe[8].

Liens externes modifier

Notes et références modifier

  1. « modèle linguistique », Grand Dictionnaire terminologique, Office québécois de la langue française (consulté le ).
  2. (en) Yoshua Bengio, « Neural net language models », dans Scholarpedia (lire en ligne).
  3. (en) Margaret Rouse, « Small Language Model (SLM) », sur Techopedia, (consulté le )
  4. a b et c (en) Irene Solaiman, « Release Strategies and the Social Impacts of Language Models », Aucun,‎ (lire en ligne, consulté le )
  5. (en) Emily Bender, Timnit Gebru, Angelina McMillan-Major et Shmargaret Shmitchell, « On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜 », FAccT '21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency,‎ , p. 610–623 (DOI 10.1145/3442188.3445922)
  6. Christopher Zirpoli, « Generative Artifical Intelligence and Copyright Law »
  7. Akshat Agarwal, Ryan Hope et Katia Sycara, « Learning Context-Sensitive Strategies in Space Fortress », 2019 28th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN), IEEE,‎ (DOI 10.1109/ro-man46459.2019.8956452, lire en ligne, consulté le )
  8. a b c et d « Large language models: fast proliferation and budding international competition », Strategic Comments, vol. 29, no 2,‎ , iv–vi (ISSN 1356-7888, DOI 10.1080/13567888.2023.2198430, lire en ligne, consulté le )
  9. Maurice Jakesch, Advait Bhat, Daniel Buschek et Lior Zalmanson, « Co-Writing with Opinionated Language Models Affects Users' Views », Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems,‎ , p. 1–15 (DOI 10.1145/3544548.3581196, lire en ligne, consulté le )