Apprentissage par renforcement inverse

En intelligence artificielle, et plus précisément en apprentissage automatique, l'apprentissage par renforcement inverse cherche à apprendre la fonction de récompense à partir de comportements d'expert^[1]. En d'autres termes, c'est l'inverse de l'apprentissage par renforcement qui, elle, cherche à apprendre de bons comportements à partir de récompenses qui sont fixées.

Motivation modifier

En apprentissage par renforcement classique, l'agent est dans un état s, décide d'une action a. L'environnement lui dit alors l'état suivant s' et la récompense r.

En apprentissage par renforcement classique, un agent (un robot par exemple) apprend à prendre des décisions de la façon suivante. Il perçoit l'état courant s. Il décide alors d'une action a. L'environnement l'informe alors du nouvel état s' et d'une récompense. La récompense signale à l'agent si son action est correcte ou mauvaise. Par exemple, si le robot réussit son but, on lui donne une bonne récompense. S'il tombe dans un trou, il perd ; autrement dit, on lui donne une récompense négative.

Comme expliqué par Saurabh Arora et Prashant Doshi, le problème est qu'il faut modéliser les récompenses à la main. Dans certaines applications, comme le contrôle d'un hélicoptère^[2], les récompenses sont difficiles à formaliser car elles viennent d'une connaissance experte fine. Ainsi, l'idée de l'apprentissage par renforcement inverse est d'apprendre ces récompenses depuis des scénarios d'expert. Par exemple, le système apprend les récompenses à partir du pilotage d'un hélicoptère par un expert humain.

Voir aussi modifier

Articles connexes modifier

Références modifier

↑ (en) Saurabh Arora et Prashant Doshi, « A survey of inverse reinforcement learning: Challenges, methods and progress », Artificial Intelligence, vol. 297,‎ 1^er août 2021, p. 103500 (ISSN 0004-3702, DOI 10.1016/j.artint.2021.103500, lire en ligne, consulté le 29 mai 2022)
↑ Brian D. Ziebart, J. Andrew Bagnell et Anind K. Dey, « Modeling interaction via the principle of maximum causal entropy », Proceedings of the 27th International Conference on International Conference on Machine Learning, Omnipress, iCML'10,‎ 21 juin 2010, p. 1255–1262 (ISBN 978-1-60558-907-7, DOI 10.5555/3104322.3104481, lire en ligne, consulté le 29 mai 2022)

Portail de l'informatique théorique

[1] (en) Saurabh Arora et Prashant Doshi, « A survey of inverse reinforcement learning: Challenges, methods and progress », Artificial Intelligence, vol. 297,‎ 1^er août 2021, p. 103500 (ISSN 0004-3702, DOI 10.1016/j.artint.2021.103500, lire en ligne, consulté le 29 mai 2022)

[2] Brian D. Ziebart, J. Andrew Bagnell et Anind K. Dey, « Modeling interaction via the principle of maximum causal entropy », Proceedings of the 27th International Conference on International Conference on Machine Learning, Omnipress, iCML'10,‎ 21 juin 2010, p. 1255–1262 (ISBN 978-1-60558-907-7, DOI 10.5555/3104322.3104481, lire en ligne, consulté le 29 mai 2022)

[1]

[2]