BERT (modèle de langage)

BERT

Informations
Développé par	Google Research (d)
Première version	2018
Dépôt	github.com/google-research/bert
Taille des données	110 M paramètre et 340 M paramètre
Type	Grand modèle de langage Modèle transformateur Modèle de langage entraîné par masquage (d)
Licence	Licence Apache version 2.0
Site web	arxiv.org/abs/1810.04805

En traitement automatique du langage naturel, BERT, acronyme anglais de Bidirectional Encoder Representations from Transformers, est un modèle de langage développé par Google en 2018. Cette méthode a permis d'améliorer significativement les performances en traitement automatique des langues.

Usage dans des applications modifier

Le 25 octobre 2019, Google annonce officiellement que BERT est désormais intégré à certains de ses services pour les entreprises (Cloud TPU, bibliothèque pour TensorFlow)^[1] et que son déploiement s'effectuera les jours suivants, d'abord pour la langue anglaise, puis les autres. La firme de Mountain View qualifie ce changement de modification la plus importante apportée à l'algorithme Google depuis 5 ans, date à laquelle RankBrain avait été lancé.

La méthode a été adaptée à la langue française en 2019 avec les modèles CamemBERT^[2] et FlauBERT^[3]. CamemBERT a été pré-entraîné sur un corpus de 138 Go de texte et FlauBERT sur un corpus de 71 Go de texte.

Bibliographie modifier

(en) Toutanova, Kristina, « BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding », sur arXiv.org, 11 octobre 2018 (consulté le 21 décembre 2023).

Voir aussi modifier

Articles connexes modifier

Liens externes modifier

(en) répertoire Github

Notes et références modifier

↑ (en) Jacob Devlin et Ming-Wei Chang, « Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing », sur Google AI Blog, 2 novembre 2018 (consulté le 30 octobre 2019).
↑ (en) Louis Martin et al., « CamemBERT: a Tasty French Language Model », 2020.
↑ (en) Hang Le et al., « FlauBERT: Unsupervised Language Model Pre-Training for French », 2020.

[1] (en) Jacob Devlin et Ming-Wei Chang, « Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing », sur Google AI Blog, 2 novembre 2018 (consulté le 30 octobre 2019).

[2] (en) Louis Martin et al., « CamemBERT: a Tasty French Language Model », 2020.

[3] (en) Hang Le et al., « FlauBERT: Unsupervised Language Model Pre-Training for French », 2020.

[1]

[2]

[3]