Apprentissage par renforcement
Définition
En apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome, à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement, et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative. L'agent cherche, au travers d'expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'état courant l'action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps.
L’apprentissage par renforcement diffère fondamentalement de l'apprentissage supervisé et de l'apprentissage non supervisé par ce côté interactif et itératif: l’agent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement (les variables) pour trouver la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations.
Voir apprentissage par renforcement inverse
Français
apprentissage par renforcement
Anglais
reinforcement learning
Compléments vidéos
- IT 6.S191: Reinforcement Learning
- Reinforcement Learning: Machine Learning Meets Control Theory
- Deep Reinforcement Learning: Neural Networks for Learning Control Laws
- Q Learning Explained | Reinforcement Learning Using Python
- Reinforcement Learning Full Course
- MIT 6.S091: Introduction to Deep Reinforcement Learning
- Stanford CS234: Reinforcement Learning
- An introduction to Reinforcement Learning
- Reinforcement Learning: Crash Course AI#9
- MIT 6.S191 (2019): Deep Reinforcement Learning
Contributeurs: Claude Coulombe, Jacques Barolet, wiki, Robert Meloche