Optimisation de politique proximale

L'optimisation de politique proximale (PPO en anglais dans la littérature) est un algorithme dans le domaine de l'apprentissage par renforcement qui entraîne la fonction de décision d'un agent informatique à accomplir des tâches difficiles. PPO a été développé par John Schulman en 2017 [1] et était devenu l'algorithme d'apprentissage par renforcement par défaut de la société américaine d'intelligence artificielle OpenAI[2]. En 2018, PPO a remporté de nombreux succès, tels que le contrôle d'un bras robotique, la victoire contre des joueurs professionels de Dota 2 et d'excellentes performances sur les jeux Atari[3]. PPO est considérée comme l'état de l'art dans les méthodes d'apprentissage par renforcement car elle allie performance et compréhension.[citation nécessaire ] Par rapport à d'autres algorithmes, les trois principaux avantages de PPO sont la simplicité, la stabilité et l'efficacité d'échantillonage[4].

PPO est classé comme une méthode à gradient de politique pour former le réseau de la politique d'un agent. Le réseau est la fonction que l'agent utilise pour prendre des décisions. Essentiellement, pour trouver la politique appropriée au problème, PPO effectue une petite modification de la politique de référence (proportionelle à la taille du pas), afin que l'agent puisse atteindre de manière fiable la solution optimale. Un pas trop important risque d’orienter la politique dans la mauvaise direction, avec ainsi peu de chances de recouvrement; un pas trop petit réduit l’efficacité algorithmique globalement. Par conséquent, PPO implémente un écrêtage qui empêche la mise à jour de la politique d'un agent d'être trop grande ou trop petite[4].

Développement modifier

L'apprentissage par renforcement (RL en anglais dans la littérature), auquel appartient l'optimisation de politique proximale, a ses racines dans la psychologie et les neurosciences. Comparé à d’autres domaines de l’apprentissage automatique, l’apprentissage par renforcement imite fidèlement le type d’apprentissage effectué par les humains et les autres animaux. Nombreux algorithmes fondamentaux, y compris PPO, s'inspirent à l'origine des systèmes d'apprentissage biologique, comme l'apprentissage par essais et erreurs du psychologue Edward Thorndike (1913)[5],[6].

En 2015, John Schulman a introduit l'optimisation de politique en intervalle de confiance (TRPO en anglais dans la littérature) comme version antérieure de PPO. TRPO a résolu le problème d'instabilité trouvé dans l'algorithme précédent, les réseaux de Q-valeurs profonds (DQN en anglais dans la littérature), en utilisant la contrainte de région de confiance pour réguler la divergence KL entre l'ancienne et la nouvelle politique. Cependant, TRPO est complexe sur le plan calculatoire et inefficace en raison de son optimisation de second ordre, ce qui conduit à une mise en œuvre coûteuse et difficile pour des problèmes à grande échelle[7],[8].

En 2017, John Schulman a résolu le problème de complexité deTRPO en adoptant l'optimisation de premier ordre dans le PPO. Schulman et ses équipes ont conçu un mécanisme d'écrêtage qui interdit à la nouvelle politique de s'écarter de manière significative de l'ancienne lorsque le rapport des vraisemblances est hors de la plage d'écrêtage[1],[8]. En d’autres termes, le PPO modifie la fonction objectif de TRPO en sanctionnant les mises à jour politiques trop importantes. En outre, PPO supprime les contraintes complexes de la région de confiance et utilise à la place la fonction d'écrêtage . En conséquence, PPO améliore les performances et la mise en œuvre sur la base du cadre de TRPO.

Avantages modifier

Simplicité modifier

PPO se rapproche de TRPO en étant calculatoirement plus simple. Elle utilise l'optimisation de premier ordre pour contraindre la mise à jour de la politique, tandis que TRPO utilise des contraintes de divergence KL en outre de la fonction objectif (optimisation de second ordre). Par rapport à TRPO, la méthode PPO est relativement simple à mettre en œuvre et prend moins de temps de calcul. Par conséquent, il est moins coûteux et plus efficace d’utiliser le PPO pour résoudre des problèmes à grande échelle[9].

Stabilité modifier

Alors que d'autres algorithmes d'apprentissage par renforcement nécessitent un réglage des hyperparamètres, PPO ne nécessite pas nécessairement un réglage des hyperparamètres ou de techniques d’optimisation sophistiquées[10]. Il peut être facilement mis en place avec des librairies standards d’apprentissage profond et généralisé à un large éventail de tâches.

Efficacité d'échantillonage modifier

L'efficacité d'échantillonage caractérise le besoin en données pour atteindre une politique satisfaisante. Les algorithmes régis par politique, notamment PPO et TRPO, ont généralement un faible niveau d’efficacité d’échantillonnage[11]. Les objectifs secondaires de PPO permettent d’éviter que la nouvelle politique ne s’éloigne trop de l’ancienne politique : la fonction clip régularise la mise à jour de la politique et réutilise les données d'entraînement, ce qui permet une meilleur efficacité d'échantillonage en ne conservant que l'information nécessaire. L’efficacité des échantillons est particulièrement utile pour les tâches complexes et en grandes dimensions, où la collecte de données et le temps de calcul peuvent être coûteux[12].

Articles connexes modifier

Références modifier

  1. a et b J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov, “Proximal policy optimization algorithms,” arXiv.org, https://arxiv.org/abs/1707.06347, arXiv:1707.06347 [cs.LG].
  2. OpenAI, "Proximal Policy Optimization" Available at: https://openai.com/research/openai-baselines-ppo (Nov.1 2023 retrieved).
  3. Arxiv Insights. "An introduction to Policy Gradient methods," YouTube, Oct 1st, 2018 [Video file]. Available: https://www.youtube.com/watch?v=5P7I-xPq8u8.
  4. a et b T. Simonini, “Proximal Policy Optimization (PPO),” Hugging Face – The AI community building the future., https://huggingface.co/blog/deep-rl-ppo .
  5. R. Sutton and A. Barto, Reinforcement learning: An introduction, https://beiyulincs.github.io/teach/spring_21/behavior_modeling/reading/rl_reading.pdf (accessed Nov. 6, 2023).
  6. C. Mahoney, “Reinforcement Learning: A review of historic, modern, and historic developments ... | towards Data Science,” Medium, Mar. 30, 2022. [Online]. Available: https://towardsdatascience.com/reinforcement-learning-fda8ff535bb6#5554
  7. Wang, Y., He, H., Wen, C., & Tan, X. (2019). Truly Proximal Policy Optimization. ArXiv. /abs/1903.07940
  8. a et b Schulman, J., Levine, S., Moritz, P., Jordan, M. I., & Abbeel, P. (2015). Trust Region Policy Optimization. ArXiv. /abs/1502.05477
  9. J. Nocedal and Y. Nesterov., “Natural, trust region and proximal policy optimization,” TransferLab, https://transferlab.ai/blog/trpo-and-ppo/ (accessed Nov. 5, 2023).
  10. J. Hui, “RL - reinforcement learning algorithms comparison,” Medium, https://jonathan-hui.medium.com/rl-reinforcement-learning-algorithms-comparison-76df90f180cf (accessed Nov. 4, 2023).
  11. Huang, Shengyi, and Dossa, “The 37 implementation details of proximal policy optimization,” The 37 Implementation Details of Proximal Policy Optimization · The ICLR Blog Track, https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/ (accessed Nov. 5, 2023).
  12. XiaoYang-ElegantRL, “ElegantRL: Mastering PPO Algorithms - towards Data Science,” Medium, Nov. 23, 2022. [Online]. Available: https://towardsdatascience.com/elegantrl-mastering-the-ppo-algorithm-part-i-9f36bc47b791

Liens externes modifier