Apprentissage par renforcement à partir de rétroaction humaine

Cet article est une ébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

En apprentissage automatique, l'apprentissage par renforcement à partir de rétroaction humaine (RLHF pour Reinforcement Learning from Human Feedback en anglais) est une technique permettant d'aligner un agent intelligent avec les préférences humaines^[1].

Dans l'apprentissage par renforcement classique, le but est d'entraîner un agent à agir de manière à maximiser le score que retourne une fonction. Il est cependant difficile de définir explicitement une fonction qui approxime les préférences humaines. RLHF fonctionne de manière indirecte, en entraînant un modèle intermédiaire appelé « modèle de préférences ». Ce modèle de préférences est entraîné par apprentissage supervisé à partir de la façon dont les humains évaluent du contenu généré, jusqu'à pouvoir lui-même évaluer quels contenus un humain apprécierait. D'autres modèles peuvent ensuite être entraînés par apprentissage par renforcement à satisfaire ce modèle de préférences^[1].

RLHF peut être appliqué à divers types de modèles d'IA, notamment les agents conversationnels, les générateurs d'images ou les IA de jeu vidéo. RLHF ne nécessite pas d’énormes quantités de données pour améliorer les performances des modèles d'IA, mais l’obtention de données de bonne qualité sur les préférences humaines reste un processus coûteux. De plus, si les données ne sont pas soigneusement collectées à partir d'un échantillon représentatif, le modèle résultant peut présenter des biais indésirables. Les alternatives à RLHF incluent le reinforcement learning from AI feedback (RLAIF, où l'information servant à entraîner le modèle de préférences est générée automatiquement par une IA), et l'optimisation directe des préférences (où les retours humains sont utilisés pour directement entraîner le modèle final plutôt qu'un modèle de préférences).

Références modifier

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Reinforcement Learning from Human Feedback » (voir la liste des auteurs).

↑ ^{a et b} Alex McFarland, « Qu'est-ce que l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) », sur Unite.AI, 29 mars 2023 (consulté le 4 mai 2024)

Portail de l’informatique

[:0-1] {a et b} Alex McFarland, « Qu'est-ce que l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) », sur Unite.AI, 29 mars 2023 (consulté le 4 mai 2024)

[1]