Apprentissage par renforcement avec borne de confiance supérieure
Domaine
Intelligence artificielle
Apprentissage automatique
Apprentissage par renforcement
Coulombe
Définition
L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d'optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’espérance des récompenses pour chaque action.
Français
Apprentissage par renforcement avec borne de confiance supérieure
Source: https://corpus.ulaval.ca/jspui/bitstream/20.500.11794/28250/1/33992.pdf
Anglais
Reinforcement Learning with the Upper Confidence Bound
Recall the general setup for reinforcement learning: we have well-defined actions that we can take, so we let the machine figure out how to maximize its reward based on the consequences of those actions.
The Upper Confidence Bound algorithm is a formalization of this idea, where the machine attempts to determine a single action it can take that will maximize its expected return.
Contributeurs: Evan Brach, Claude Coulombe, Gérard Pelletier, Jacques Barolet, wiki