MuZero

programme informatique

MuZero est un programme informatique développé par DeepMind (une entreprise britannique spécialisée dans l'intelligence artificielle) dont l'objectif est de maîtriser des jeux variés (jeux de société, jeux vidéos, etc.) sans en connaître les règles[1],[2],[3]. Il a été rendu public en 2019, avec des données précises sur ses résultats aux échecs, au shōgi, au go, ainsi que sur un ensemble standardisé de jeux sur Atari ; ses performances dans chacun de ces jeux étaient égales ou supérieures à celles des meilleurs programmes spécialisés existant. L'algorithme utilise une approche analogue à celle de AlphaZero, mais il démarre sans aucune connaissance des règles, en ayant simplement l'information selon laquelle un mouvement qu'il tente est ou non permis, et quelles en sont les conséquences[4].

Historique modifier

« MuZero est vraiment en train de découvrir par lui-même comment construire un modèle et le comprendre en partant seulement de principes généraux. »

— David Silver, DeepMind, Wired[5]

Le 19 novembre 2019, l'équipe de DeepMind introduisit MuZero dans une prépublication décrivant ses méthodes et ses résultats.

Comparaison avec AlphaZero modifier

MuZero (MZ) combine les performances de l'algorithme de planification de AlphaZero (AZ) avec des techniques d'apprentissage par renforcement indépendantes du modèle. Cela permet un apprentissage plus efficace dans des jeux demandant une planification profonde, comme le go, tout en permettant de traiter des situations où les données d'entrée sont beaucoup plus complexes à chaque étape, comme dans le cas des jeux vidéos.

MuZero utilise les mêmes règles qu'AlphaZero pour initialiser ses hyperparamètres. Parmi les différences entre les deux approches, il y a[6] :

  • L'ignorance des règles par MZ : AZ utilise pour sa planification un simulateur, qui connaît les règles du jeu, et qui doit être programmé explicitement ; MZ utilise un réseau neuronal pour découvrir les règles, qu'il transmet ensuite au simulateur, lequel évolue donc avec la compréhension que MZ a du jeu, et peut rester imparfait si certaines règles (comme la sous-promotion aux échecs) n'interviennent que dans des situations rarement rencontrées.
  • AZ a un modèle unique pour le jeu (de l'état du plateau aux prédictions) ; MZ a des modèles séparés pour la représentation de l'état actuel (de l'état du plateau à son modèle interne), pour la dynamique des états (comment les actions changent les représentations des états du plateau), et pour la prédiction de la stratégie à suivre et de la valeur d'une position future (étant donné la représentation d'un état).
  • AZ est prévu pour des jeux à deux personnes avec comme seuls résultats possible le gain, la perte ou la partie nulle. MZ est prévu également pour deux adversaires, mais envisage des récompenses intermédiaires de tailles variées, ainsi que la gestion du temps (par exemple une action rapportera plus ou moins de bénéfices selon le moment où elle commence et la durée de son exécution).

Comparaison avec R2D2 modifier

Le meilleur programme spécialisé pour l'ensemble des 57 jeux vidéos d'Atari servant de référence (Arcade Learning environment, souvent référencé comme Atari57) était R2D2[N 1] (Recurrent Replay Distributed DQN, soit Jeu répété par Deep Q-learning distribué), un autre programme développé par DeepMind[7].

MuZero améliore les performances moyennes et médianes de R2D2 sur l'ensemble des 57 jeux, mais n'est pas meilleur que lui dans tous, et reste bien en dessous des performances des meilleurs experts humains dans 6 de ces jeux[N 2].

Entrainement et résultats modifier

MuZero a utilisé 16 TPU de troisième génération pour l'entraînement et 1000 TPU pour jouer contre lui-même pour les jeux de société, avec 800 simulations par étape. ainsi que 8 TPU pour l'entraînement et 32 TPU pour l'auto-exécution pour les jeux d'Atari, avec 50 simulations par étape.

AlphaZero a utilisé 64 TPU de première génération pour l'entraînement et 5 000 TPU de deuxième génération pour le selfplay. La conception des TPU s'étant améliorée (les puces de troisième génération sont deux fois plus puissantes individuellement que celles de deuxième génération, avec des progrès supplémentaires en matière de bande passante et de mise en réseau entre les puces d'un même module), ces configurations d'entraînement sont comparables.

R2D2 a été entraîné pendant 5 jours à travers 2 millions d'étapes d'entraînement.

Performances initiales modifier

MuZero a atteint des performances comparables à AlphaZero aux échecs et au shōgi après environ un million d'étapes d'entraînement, et au go après cinq cent mille étapes. De même, il a dépassé les performances moyennes et médianes de R2D2 après environ un million d'étapes, bien qu'il ait gardé des performances médiocres sur 6 jeux de la suite.

Réactions et travaux dérivés modifier

MuZero est jugé comme une avancée significative sur AlphaZero[9], et comme une approche nouvelle et généralisable des techniques d'apprentissage[10],[11] ; ce travail a été également vu comme une amélioration des méthodes de construction de systèmes complexes à partir de composants simples, et donc lié à la conception de logiciels en général, et non simplement à l'apprentissage automatique[12].

DeepMind n'a fourni qu'une description de MuZero en pseudo-code, mais Werner Duvaud l'a utilisée pour en créer une implémentation open source[13].

MuZero a également été utilisé comme référence pour d'autres travaux, par exemple pour créer des comportements basés sur des modèles[14].

Voir aussi modifier

Notes et références modifier

Notes modifier

  1. C'est une allusion au personnage de Star Wars.
  2. En mars 2020, DeepMind publia un nouveau programme, Agent57, dont les performances dépassent de manière systématique celles des meilleurs humains dans tous les jeux d'Atari57[8].

Références modifier

  1. (en) Kyle Wiggers, « DeepMind's MuZero teaches itself how to win at Atari, chess, shogi, and Go », VentureBeat (consulté le )
  2. Frederic Friedel, « MuZero figures out chess, rules and all », ChessBase GmbH,‎ (lire en ligne, consulté le )
  3. (en) Jesus Rodriguez, « DeepMind Unveils MuZero, a New Agent that Mastered Chess, Shogi, Atari and Go Without Knowing the Rules », sur KDnuggets, (consulté le )
  4. (en) Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel et Timothy Lillicrap, « Mastering Atari, Go, chess and shogi by planning with a learned model », Nature, vol. 588, no 7839,‎ , p. 604–609 (PMID 33361790, DOI 10.1038/s41586-020-03051-4, Bibcode 2020Natur.588..604S, arXiv 1911.08265, S2CID 208158225)
  5. (en) « What AlphaGo Can Teach Us About How People Learn », Wired,‎ (ISSN 1059-1028, lire en ligne)
  6. (en) David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai et al., « Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm », .
  7. (en) Steven Kapturowski, Georg Ostrovski, John Quan, Remi Munos et Will Dabney « Recurrent experience replay in distributed reinforcement learning » (lire en ligne)
    Seventh International Conference on Learning Representations (lire en ligne) (La Nouvelle-Orléans, 6-9 mai 2019)
  8. (en) « Agent57 : Outperforming the human Atari benchmark », sur deepmind.com, (consulté le ).
  9. (en) Connor Shorten, « The Evolution of AlphaGo to MuZero », sur Medium, (consulté le )
  10. (en) « [AN #75]: Solving Atari and Go with learned game models, and thoughts from a MIRI employee - LessWrong 2.0 », sur www.lesswrong.com (consulté le )
  11. (en) Jun Wu, « Reinforcement Learning, Deep Learning's Partner », sur Forbes (consulté le )
  12. (en) « Machine Learning & Robotics: My (biased) 2019 State of the Field », sur cachestocaches.com (consulté le )
  13. (en) Werner Duvaud, « werner-duvaud/muzero-general », (consulté le )
  14. (en) Harm van Seijen, Hadi Nekoei, Evan Racah et Sarath Chandar, « The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in Reinforcement Learning », .

Liens externes modifier