Apprentissage par renforcement avec borne de confiance supérieure
(Redirigé depuis Reinforcement Learning with the Upper Confidence Bound)
Définition
L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d’optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’espérance des récompenses pour chaque action.
Français
apprentissage par renforcement avec borne de confiance supérieure
Anglais
reinforcement learning with the upper confidence bound
Sources
Contributeurs: Evan Brach, Claude Coulombe, Gérard Pelletier, Jacques Barolet, wiki