« Apprentissage par renforcement avec borne de confiance supérieure » : différence entre les versions


(Page créée avec « Recall the general setup for reinforcement learning: we have well-defined actions that we can take, so we let the machine figure out how to maximize its reward based on th... »)
 
Aucun résumé des modifications
Balise : Éditeur de wikicode 2017
(16 versions intermédiaires par 3 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
Recall the general setup for reinforcement learning: we have well-defined actions that we can take, so we let the machine figure out how to maximize its reward based on the consequences of those actions.
==Définition==
L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d'optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’espérance des récompenses pour chaque action.
The Upper Confidence Bound algorithm is a formalization of this idea, where the machine attempts to determine a single action it can take that will maximize its expected return.  


https://opendatascience.com/machine-learning-for-beginners/
==Français==
'''Apprentissage par renforcement avec borne de confiance supérieure'''  nom masc.
 
==Anglais==
'''Reinforcement Learning with the Upper Confidence Bound'''
 
 
<small>
 
[https://corpus.ulaval.ca/jspui/bitstream/20.500.11794/28250/1/33992.pdf Source: corpus.ulaval.ca]
 
[https://opendatascience.com/machine-learning-for-beginners/ source : opendatascience.com]
 
 
 
[[Catégorie:Intelligence artificielle]]
[[Catégorie:Apprentissage automatique]]
[[Catégorie:Apprentissage par renforcement]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Version du 3 mai 2020 à 15:22

Définition

L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d'optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’espérance des récompenses pour chaque action.

Français

Apprentissage par renforcement avec borne de confiance supérieure nom masc.

Anglais

Reinforcement Learning with the Upper Confidence Bound


Source: corpus.ulaval.ca

source : opendatascience.com