Apprentissage par renforcement avec borne de confiance supérieure : Différence entre versions


De DataFranca
(nouveau terme)
Balise : éditeur de source 2017
Balise : éditeur de source 2017
Ligne 12 : Ligne 12 :
 
<br />
 
<br />
 
== Français ==
 
== Français ==
Apprentissage par renforcement avec borne de confiance supérieure
+
'''Apprentissage par renforcement avec borne de confiance supérieure'''
 
 
Source:
 
https://corpus.ulaval.ca/jspui/bitstream/20.500.11794/28250/1/33992.pdf
 
  
 
<br />
 
<br />
  
 
== Anglais ==
 
== Anglais ==
Reinforcement Learning with the Upper Confidence Bound
+
'''Reinforcement Learning with the Upper Confidence Bound'''
 +
 
 +
<br />
  
Recall the general setup for reinforcement learning: we have well-defined actions that we can take, so we let the machine figure out how to maximize its reward based on the consequences of those actions.
+
[https://corpus.ulaval.ca/jspui/bitstream/20.500.11794/28250/1/33992.pdf    Source: corpus.ulaval.ca ]
 
The Upper Confidence Bound algorithm is a formalization of this idea, where the machine attempts to determine a single action it can take that will maximize its expected return.  
 
  
https://opendatascience.com/machine-learning-for-beginners/
+
[ https://opendatascience.com/machine-learning-for-beginners/   source : opendatascience.com ]

Version du 14 avril 2019 à 20:18

Domaine


Intelligence artificielle
Apprentissage automatique
Apprentissage par renforcement
Coulombe

Définition

L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d'optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’espérance des récompenses pour chaque action.


Français

Apprentissage par renforcement avec borne de confiance supérieure


Anglais

Reinforcement Learning with the Upper Confidence Bound


Source: corpus.ulaval.ca

[ https://opendatascience.com/machine-learning-for-beginners/ source : opendatascience.com ]

Contributeurs : Claude Coulombe, Gérard Pelletier, Jacques Barolet, admin

Vous devez demander un compte pour contribuer à cette page.