MuZero

MuZero est un programme informatique développé par DeepMind (une entreprise britannique spécialisée dans l'intelligence artificielle) dont l'objectif est de maîtriser des jeux variés (jeux de société, jeux vidéos, etc.) sans en connaître les règles^[1]^,^[2]^,^[3]. Il a été rendu public en 2019, avec des données précises sur ses résultats aux échecs, au shōgi, au go, ainsi que sur un ensemble standardisé de jeux sur Atari ; ses performances dans chacun de ces jeux étaient égales ou supérieures à celles des meilleurs programmes spécialisés existant. L'algorithme utilise une approche analogue à celle de AlphaZero, mais il démarre sans aucune connaissance des règles, en ayant simplement l'information selon laquelle un mouvement qu'il tente est ou non permis, et quelles en sont les conséquences^[4].

Historique

« MuZero est vraiment en train de découvrir par lui-même comment construire un modèle et le comprendre en partant seulement de principes généraux. »

— David Silver, DeepMind, Wired^[5]

Le 19 novembre 2019, l'équipe de DeepMind introduisit MuZero dans une prépublication décrivant ses méthodes et ses résultats.

Comparaison avec AlphaZero

Comparaison avec R2D2

Le meilleur programme spécialisé pour l'ensemble des 57 jeux vidéos d'Atari servant de référence (Arcade Learning environment, souvent référencé comme Atari57) était R2D2^{[N 1]} (Recurrent Replay Distributed DQN, soit Jeu répété par Deep Q-learning distribué), un autre programme développé par DeepMind^[7].

MuZero améliore les performances moyennes et médianes de R2D2 sur l'ensemble des 57 jeux, mais n'est pas meilleur que lui dans tous, et reste bien en dessous des performances des meilleurs experts humains dans 6 de ces jeux^{[N 2]}.

Entrainement et résultats

MuZero a utilisé 16 TPU de troisième génération pour l'entraînement et 1000 TPU pour jouer contre lui-même pour les jeux de société, avec 800 simulations par étape. ainsi que 8 TPU pour l'entraînement et 32 TPU pour l'auto-exécution pour les jeux d'Atari, avec 50 simulations par étape.

AlphaZero a utilisé 64 TPU de première génération pour l'entraînement et 5 000 TPU de deuxième génération pour le selfplay. La conception des TPU s'étant améliorée (les puces de troisième génération sont deux fois plus puissantes individuellement que celles de deuxième génération, avec des progrès supplémentaires en matière de bande passante et de mise en réseau entre les puces d'un même module), ces configurations d'entraînement sont comparables.

R2D2 a été entraîné pendant 5 jours à travers 2 millions d'étapes d'entraînement.

Performances initiales

MuZero a atteint des performances comparables à AlphaZero aux échecs et au shōgi après environ un million d'étapes d'entraînement, et au go après cinq cent mille étapes. De même, il a dépassé les performances moyennes et médianes de R2D2 après environ un million d'étapes, bien qu'il ait gardé des performances médiocres sur 6 jeux de la suite.

Réactions et travaux dérivés

MuZero est jugé comme une avancée significative sur AlphaZero^[9], et comme une approche nouvelle et généralisable des techniques d'apprentissage^[10]^,^[11] ; ce travail a été également vu comme une amélioration des méthodes de construction de systèmes complexes à partir de composants simples, et donc lié à la conception de logiciels en général, et non simplement à l'apprentissage automatique^[12].

DeepMind n'a fourni qu'une description de MuZero en pseudo-code, mais Werner Duvaud l'a utilisée pour en créer une implémentation open source^[13].

MuZero a également été utilisé comme référence pour d'autres travaux, par exemple pour créer des comportements basés sur des modèles^[14].

Voir aussi

Apprentissage non supervisé

Notes et références

Notes

↑ C'est une allusion au personnage de Star Wars.
↑ En mars 2020, DeepMind publia un nouveau programme, Agent57, dont les performances dépassent de manière systématique celles des meilleurs humains dans tous les jeux d'Atari57^[8].

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « MuZero » (voir la liste des auteurs).

↑ (en) Kyle Wiggers, « DeepMind's MuZero teaches itself how to win at Atari, chess, shogi, and Go », VentureBeat (consulté le 22 juillet 2020)
↑ Frederic Friedel, « MuZero figures out chess, rules and all », ChessBase GmbH,‎ décembre 2019 (lire en ligne, consulté le 22 juillet 2020)
↑ (en) Jesus Rodriguez, « DeepMind Unveils MuZero, a New Agent that Mastered Chess, Shogi, Atari and Go Without Knowing the Rules », sur KDnuggets, décembre 2019 (consulté le 22 juillet 2020)
↑ (en) Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel et Timothy Lillicrap, « Mastering Atari, Go, chess and shogi by planning with a learned model », Nature, vol. 588, n^o 7839,‎ 2020, p. 604–609 (PMID 33361790, DOI 10.1038/s41586-020-03051-4, Bibcode 2020Natur.588..604S, arXiv 1911.08265, S2CID 208158225)
↑ (en) « What AlphaGo Can Teach Us About How People Learn », Wired,‎ 2020 (ISSN 1059-1028, lire en ligne)
↑ (en) David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai et al., « Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm », 5 décembre 2017.
↑ (en) Steven Kapturowski, Georg Ostrovski, John Quan, Remi Munos et Will Dabney « Recurrent experience replay in distributed reinforcement learning » (lire en ligne)
—Seventh International Conference on Learning Representations (lire en ligne) (La Nouvelle-Orléans, 6-9 mai 2019)
↑ (en) « Agent57 : Outperforming the human Atari benchmark », sur deepmind.com, 31 mars 2020 (consulté le 27 septembre 2021).
↑ (en) Connor Shorten, « The Evolution of AlphaGo to MuZero », sur Medium, 18 janvier 2020 (consulté le 7 juin 2020)
↑ (en) « [AN #75]: Solving Atari and Go with learned game models, and thoughts from a MIRI employee - LessWrong 2.0 », sur www.lesswrong.com (consulté le 7 juin 2020)
↑ (en) Jun Wu, « Reinforcement Learning, Deep Learning's Partner », sur Forbes (consulté le 15 juillet 2020)
↑ (en) « Machine Learning & Robotics: My (biased) 2019 State of the Field », sur cachestocaches.com (consulté le 15 juillet 2020)
↑ (en) Werner Duvaud, « werner-duvaud/muzero-general », 15 juillet 2020 (consulté le 15 juillet 2020)
↑ (en) Harm van Seijen, Hadi Nekoei, Evan Racah et Sarath Chandar, « The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in Reinforcement Learning », 2020.

Liens externes

Prépublication de MuZero (en).
Implémentations open source (en).

[7] C'est une allusion au personnage de Star Wars.

[10] En mars 2020, DeepMind publia un nouveau programme, Agent57, dont les performances dépassent de manière systématique celles des meilleurs humains dans tous les jeux d'Atari57^[8].

[1] (en) Kyle Wiggers, « DeepMind's MuZero teaches itself how to win at Atari, chess, shogi, and Go », VentureBeat (consulté le 22 juillet 2020)

[2] Frederic Friedel, « MuZero figures out chess, rules and all », ChessBase GmbH,‎ décembre 2019 (lire en ligne, consulté le 22 juillet 2020)

[3] (en) Jesus Rodriguez, « DeepMind Unveils MuZero, a New Agent that Mastered Chess, Shogi, Atari and Go Without Knowing the Rules », sur KDnuggets, décembre 2019 (consulté le 22 juillet 2020)

[4] (en) Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel et Timothy Lillicrap, « Mastering Atari, Go, chess and shogi by planning with a learned model », Nature, vol. 588, n^o 7839,‎ 2020, p. 604–609 (PMID 33361790, DOI 10.1038/s41586-020-03051-4, Bibcode 2020Natur.588..604S, arXiv 1911.08265, S2CID 208158225)

[5] (en) « What AlphaGo Can Teach Us About How People Learn », Wired,‎ 2020 (ISSN 1059-1028, lire en ligne)

[preprint-6] (en) David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai et al., « Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm », 5 décembre 2017.

[8] (en) Steven Kapturowski, Georg Ostrovski, John Quan, Remi Munos et Will Dabney « Recurrent experience replay in distributed reinforcement learning » (lire en ligne)
—Seventh International Conference on Learning Representations (lire en ligne) (La Nouvelle-Orléans, 6-9 mai 2019)

[9] (en) « Agent57 : Outperforming the human Atari benchmark », sur deepmind.com, 31 mars 2020 (consulté le 27 septembre 2021).

[11] (en) Connor Shorten, « The Evolution of AlphaGo to MuZero », sur Medium, 18 janvier 2020 (consulté le 7 juin 2020)

[12] (en) « [AN #75]: Solving Atari and Go with learned game models, and thoughts from a MIRI employee - LessWrong 2.0 », sur www.lesswrong.com (consulté le 7 juin 2020)

[13] (en) Jun Wu, « Reinforcement Learning, Deep Learning's Partner », sur Forbes (consulté le 15 juillet 2020)

[14] (en) « Machine Learning & Robotics: My (biased) 2019 State of the Field », sur cachestocaches.com (consulté le 15 juillet 2020)

[15] (en) Werner Duvaud, « werner-duvaud/muzero-general », 15 juillet 2020 (consulté le 15 juillet 2020)

[16] (en) Harm van Seijen, Hadi Nekoei, Evan Racah et Sarath Chandar, « The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in Reinforcement Learning », 2020.

[1]

[2]

[3]

[4]

[5]

[6]

[N 1]

[7]

[N 2]

[9]

[10]

[11]

[12]

[13]

[14]

[8]