« Apprentissage par renforcement avec borne de confiance supérieure » : différence entre les versions
m (Remplacement de texte — « [http » par « * [http ») |
Aucun résumé des modifications |
||
Ligne 17 : | Ligne 17 : | ||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Version du 7 avril 2021 à 10:25
Définition
L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d'optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’espérance des récompenses pour chaque action.
Français
Apprentissage par renforcement avec borne de confiance supérieure
Anglais
Reinforcement Learning with the Upper Confidence Bound
Contributeurs: Evan Brach, Claude Coulombe, Gérard Pelletier, Jacques Barolet, wiki