Mamba (apprentissage profond)

Mamba est une architecture d'apprentissage profond introduite en décembre 2023 par deux chercheurs de Carnegie Mellon et de Princeton, Albert Gu et Tri Dao^[1]

Mamba s'est rapidement imposé en 2024 comme la principale alternative à l'architecture Transformeur pour le traitement automatique des langues (TAL) et pour les grands modèles de langage comme GPT-3 ou Llama.

Description

Mamba appartient à une famille élargie de modèles à espace d'états (Structured State Space).

Mamba se dispense du mécanisme d'attention qui est au cœur des modèles Transformeur et "remplace la complexité des briques d'attention et de perceptron multicouche avec une brique SSM unifiée" afin de proposer une architecture simplifiée "réduisant la complexité computationnelle et accélérant la génération de nouvelles données^[1]. À la différence des autres approches reposant sur des modèles à espace d'état ou des réseaux de neurones récurrents (RNN), Mamba est "sélectif" et filtre les données les moins pertinentes en entrée pour générer des données nouvelles^[1].

Le design de Mamba permet d'intégrer plus efficacement un plus grand nombre de données en entrées (ou "contexte long") et de générer plus rapidement de nouvelles données en sortie^[2]. À la différence des modèles transformeur, le temps d'inférence de Mamba croît linéairement avec le nombre de mots à traiter : il n'y a pas d'explosion combinatoire concomitante au mécanisme classique d'attention où chaque mot affecte potentiellement l'ensemble des autres mots dans le texte ( $O(n^{2})$ ).

Concrètement, l'un des principaux débouchés de Mamba est de faciliter le traitement de documents entiers, par exemple sous forme de résumés ou de synthèses, alors que la plupart des modèles de langue ne parviennent pas encore à traiter efficacement des textes d'une longueur supérieure à 25 000 mots (32 000 "tokens").

Usage

Mamba est simultanément le nom du premier modèle de langue reposant sur cette architecture, un modèle expérimental à 3 milliards de paramètres.

Le design particulier de Mamba a rendu possible des expériences inédites de grands modèles de langue. MambaByte ne recourt plus à une division du texte en "tokens" (des mots ou des morceaux de mots) mais en byte (la plus petite unité de signal utilisée pour encoder les lettres), comme l'allongement du contexte rend possible un découpage beaucoup plus fin des séquences textuelles^[3].

Fin mars 2024, la sortie d'un modèle hybride Mamba-Transformer Jamba par AI21 Labs confirme la faisabilité de l'entraînement de Mamba à très grande échelle et les gains de performance de l'architecture pour du contexte long (jusqu'à 256 000 tokens, soit environ 200 000 mots)^[4].

Tout comme Transformeur, l'architecture Mamba est versatile. L'allongement du contexte facilite en réalité l'intégration de données non textuelles, telles que des données audiovisuelles ou génomiques.

Notes et références

↑ ^{a b et c} (en) Albert Gu et Tri Dao, « Mamba: Linear-Time Sequence Modeling with Selective State Spaces », arXiv:2312.00752 [cs],‎ 2023 (lire en ligne).
↑ Hasan Chowdhury, The tech powering ChatGPT won't make AI as smart as humans. Others might., BusinessInsider, 6 décembre 2023]
↑ (en) Junxiong Wang et Tushaar Gangavarapu, « Mamba: MambaByte: Token-free Selective State Space Model », arXiv:2312.00752 [cs],‎ 24 janvier 2024 (lire en ligne).
↑ Announcing Jamba, AI21 Labs

Voir aussi

Articles connexes

Portail de l'informatique théorique

[Gu_Dao-1] {a b et c} (en) Albert Gu et Tri Dao, « Mamba: Linear-Time Sequence Modeling with Selective State Spaces », arXiv:2312.00752 [cs],‎ 2023 (lire en ligne).

[2] Hasan Chowdhury, The tech powering ChatGPT won't make AI as smart as humans. Others might., BusinessInsider, 6 décembre 2023]

[Wang-3] (en) Junxiong Wang et Tushaar Gangavarapu, « Mamba: MambaByte: Token-free Selective State Space Model », arXiv:2312.00752 [cs],‎ 24 janvier 2024 (lire en ligne).

[4] Announcing Jamba, AI21 Labs

[1]

[2]

[3]

[4]