LLaMA

LLaMA (Large Language Model Meta AI) est un grand modèle linguistique open source développé par Meta^[1]. Deux autres versions du modèle plus spécifiques, optimisées à partir de LLaMA, ont également été publiées par Meta : un agent conversationnel, appelé Llama Chat, et un assistant de programmation, Code Llama. D'autres modèles de langage comme Alpaca ont également vu le jour en entrainant les poids de Llama sur de nouvelles données^[2].

Origine du nom

LLaMA est l'accronyme de Large Language Model Meta AI (Grand modèle de Language Meta IA en français). Cet accronyme ressemble au nom du lama, un camélidé sud-américain. Cette homonymie^[3] est probablement souhaitée pour une meilleur mémorabilité. Ce nom est ce qui justifie le choix d'Alpaca comme nom d'agent conversationnel basé sur LLaMA, l'alpaga (alpaca en anglais) étant un autre camélidé d'Amérique du Sud.

Version initiale

La version initiale a été publiée en février 2023, en quatre tailles différentes : 7, 13, 33 et 65 milliards de paramètres. À l'origine, seuls la méthodologie, l'architecture des modèles et les résultats expérimentaux furent publiés. Seuls certains chercheurs qui en ont fait la demande peuvent avoir accès au modèle^[4].

Le 3 mars 2023, une semaine après la publication de la méthodologie et de l'architecture, un fichier torrent contenant l'intégralité du modèle est publié sur 4chan^[5].

Llama 2

En juillet 2023, Meta publie une deuxième version, en trois tailles différentes cette fois: 7B^[6], 13B^[7] et 70B^[8]. La version en 34B a été entrainé par Meta également mais dû à un manque de temps, ils n'ont pas pu publier ce modèle. L'architecture est sensiblement la même mais l'entrainement a été réalisé à partir d'un corpus environ 40% plus volumineux^[9]. Cette-fois, Meta publie elle-même les paramètres dès la sortie du modèle.

Avec la publication de Llama 2, Meta publie Llama 2-Chat, une version de Llama optimisée pour les dialogues^[9]. Trois versions du modèle sont disponibles: 7B, 13B et 70B.

Code Llama

Peu de temps après, en août 2023, Meta dévoile Code Llama et ses variations Code Llama Instruct et Code Llama Python^[10]. Ces modèles sont basés sur Llama 2 et ajustés finement sur du code. Ils sont d'abord disponibles en open source en version 7B, 13B et 34B, puis le 29 janvier 2024 une version en 70B est également publiée^[11].

Llama 3

Le 18 avril 2024, Meta a lancé le Llama 3 en deux versions : 8 milliards et 70 milliards de paramètres. Ces modèles ont été pré-entraînés sur environ 15 000 milliards de jetons de texte provenant de « sources disponibles publiquement »^[12], les modèles d'instructions étant fine-tunés sur « des ensembles de données d'instructions disponibles publiquement, ainsi que sur plus de 10 millions d'exemples annotés par des humains ». Meta prévoit de sortir des modèles multimodaux, des modèles capables de converser dans plusieurs langues, et des modèles avec des fenêtres de contexte plus larges. Une version comportant plus de 400 milliards de paramètres est actuellement en cours d'entraînement^[13].

Open source

LLaMA se présente comme un outil open source, une partie de son code source est notamment accessible sur GitHub^[14]. Le dépôt contient le code source d'inférence et de la documentation (guide de l'utilisateur, guide de l'utilisateur responsable et model card) permettant une bonne utilisation du modèle. Utiliser LLaMA implique accepter les termes de la license de LLaMA qui notamment interdit certains cas d'utilisation du modèle^[15]. En respectant les termes de la license, il est possible d'utiliser, de reproduire, de distribuer, de copier, de créer des œuvres dérivées et d'apporter des modifications aux différents composants de LLaMA mis à disposition, y compris pour une activité lucrative.

LLaMA peut fonctionner en local sur votre propre ordinateur sans connexion à internet. Certains services en ligne proposent de passer par leur serveur pour utiliser LLaMA. La contrepartie d'une utilisation en ligne du service est que vous n'avez pas accès à tous les paramètres et vous ne pouvez pas charger vos propres modèles.

Malgré l'appélation open model utilisé par Meta pour décrire LLaMA, la license de LLaMA n'est pas une license Open Source^[16].

Notes et références

↑ (en) « Llama », sur Llama (consulté le 26 février 2024)
↑ « Alpaca: A Strong, Replicable Instruction-Following Model », sur crfm.stanford.edu (consulté le 26 février 2024)
↑ Le nom anglais du lama s'écrit llama.
↑ Antoine Messina, « LLaMA, le modèle de langage de Meta, a fuité », sur Siècle Digital, 10 mars 2023 (consulté le 26 février 2024)
↑ Mélicia Poitiers, « LLaMA, le dernier modèle d'IA générative de Meta, a été partagé illicitement sur Internet », Usine Digitale,‎ 9 mars 2023 (lire en ligne, consulté le 26 février 2024)
↑ « meta-llama/Llama-2-7b · Hugging Face », sur huggingface.co (consulté le 26 février 2024)
↑ « meta-llama/Llama-2-13b · Hugging Face », sur huggingface.co (consulté le 26 février 2024)
↑ « meta-llama/Llama-2-70b · Hugging Face », sur huggingface.co (consulté le 26 février 2024)
↑ ^{a et b} Hugo Touvron, Louis Martin, Kevin Stone et Peter Albert, « Llama 2: Open Foundation and Fine-Tuned Chat Models », arXiv,‎ 2023 (DOI 10.48550/ARXIV.2307.09288, lire en ligne, consulté le 26 février 2024)
↑ (en) « Introducing Code Llama, a state-of-the-art large language model for coding », sur ai.meta.com (consulté le 26 février 2024)
↑ « Avec Code Llama 70B, Meta améliore la génération de code - Le Monde Informatique », sur LeMondeInformatique, 30 janvier 2024 (consulté le 26 février 2024)
↑ (en) « LLaMa3 Model », 6 mai 2024 (consulté le 6 mai 2024)
↑ (en) « Introducing Meta Llama 3: The most capable openly available LLM to date », sur ai.meta.com, 18 avril 2024 (consulté le 21 avril 2024)
↑ (en) « GitHub - facebookresearch/llama at llama_v1 », sur GitHub (consulté le 26 février 2024)
↑ (en) « Download Llama », sur Llama (consulté le 26 février 2024)
↑ (en) « Meta’s LLaMa 2 license is not Open Source », sur opensource.org

Voir aussi

Articles connexes

Liens externes

(en) Site officiel

Portail de l’intelligence artificielle

[1] (en) « Llama », sur Llama (consulté le 26 février 2024)

[2] « Alpaca: A Strong, Replicable Instruction-Following Model », sur crfm.stanford.edu (consulté le 26 février 2024)

[3] Le nom anglais du lama s'écrit llama.

[4] Antoine Messina, « LLaMA, le modèle de langage de Meta, a fuité », sur Siècle Digital, 10 mars 2023 (consulté le 26 février 2024)

[5] Mélicia Poitiers, « LLaMA, le dernier modèle d'IA générative de Meta, a été partagé illicitement sur Internet », Usine Digitale,‎ 9 mars 2023 (lire en ligne, consulté le 26 février 2024)

[6] « meta-llama/Llama-2-7b · Hugging Face », sur huggingface.co (consulté le 26 février 2024)

[7] « meta-llama/Llama-2-13b · Hugging Face », sur huggingface.co (consulté le 26 février 2024)

[8] « meta-llama/Llama-2-70b · Hugging Face », sur huggingface.co (consulté le 26 février 2024)

[Article_Llama_2-9] {a et b} Hugo Touvron, Louis Martin, Kevin Stone et Peter Albert, « Llama 2: Open Foundation and Fine-Tuned Chat Models », arXiv,‎ 2023 (DOI 10.48550/ARXIV.2307.09288, lire en ligne, consulté le 26 février 2024)

[10] (en) « Introducing Code Llama, a state-of-the-art large language model for coding », sur ai.meta.com (consulté le 26 février 2024)

[11] « Avec Code Llama 70B, Meta améliore la génération de code - Le Monde Informatique », sur LeMondeInformatique, 30 janvier 2024 (consulté le 26 février 2024)

[12] (en) « LLaMa3 Model », 6 mai 2024 (consulté le 6 mai 2024)

[13] (en) « Introducing Meta Llama 3: The most capable openly available LLM to date », sur ai.meta.com, 18 avril 2024 (consulté le 21 avril 2024)

[14] (en) « GitHub - facebookresearch/llama at llama_v1 », sur GitHub (consulté le 26 février 2024)

[15] (en) « Download Llama », sur Llama (consulté le 26 février 2024)

[16] (en) « Meta’s LLaMa 2 license is not Open Source », sur opensource.org

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]