Apprentissage par renforcement avec borne de confiance supérieure : Différence entre versions


De DataFranca
m (Remplacement de texte — « [[Category: » par « [[Catégorie: »)
 
(12 révisions intermédiaires par 3 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
== Domaine ==
 
[[Category:Vocabulary]]Vocabulary<br />
 
<br />
 
  
== Définition ==
+
[[Catégorie:Intelligence artificielle]]
texte ici
+
[[Catégorie:Apprentissage automatique]]
 +
[[Catégorie:Apprentissage par renforcement]]Apprentissage par renforcement<br />
 +
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
  
<br />
+
==Définition==
== Français ==
+
L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d'optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’espérance des récompenses pour chaque action.
'''terme_français'''
 
  
<br />
+
==Français==
 +
'''Apprentissage par renforcement avec borne de confiance supérieure'''  n.m.
  
== Anglais ==
+
==Anglais==
 
'''Reinforcement Learning with the Upper Confidence Bound'''
 
'''Reinforcement Learning with the Upper Confidence Bound'''
  
Recall the general setup for reinforcement learning: we have well-defined actions that we can take, so we let the machine figure out how to maximize its reward based on the consequences of those actions.
 
 
The Upper Confidence Bound algorithm is a formalization of this idea, where the machine attempts to determine a single action it can take that will maximize its expected return.
 
  
https://opendatascience.com/machine-learning-for-beginners/
+
<small>
 +
 
 +
[https://corpus.ulaval.ca/jspui/bitstream/20.500.11794/28250/1/33992.pdf Source: corpus.ulaval.ca]
 +
 
 +
[https://opendatascience.com/machine-learning-for-beginners/ source : opendatascience.com]

Version actuelle datée du 27 septembre 2019 à 10:00

Apprentissage par renforcement

Définition

L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d'optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’espérance des récompenses pour chaque action.

Français

Apprentissage par renforcement avec borne de confiance supérieure n.m.

Anglais

Reinforcement Learning with the Upper Confidence Bound


Source: corpus.ulaval.ca

source : opendatascience.com

Contributeurs : Claude Coulombe, Gérard Pelletier, Jacques Barolet, admin

Vous devez demander un compte pour contribuer à cette page.