« Apprentissage par renforcement avec borne de confiance supérieure » : différence entre les versions


(nouveau terme)
Balise : Éditeur de wikicode 2017
Aucun résumé des modifications
 
(24 versions intermédiaires par 3 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
== Domaine ==
==Définition==
[[Category:Vocabulary]]<br/>
L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d’optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’'''[[espérance]]''' des récompenses pour chaque action.
[[Category:Intelligence artificielle]]Intelligence artificielle<br/>
[[Catégorie:Apprentissage automatique]] Apprentissage automatique<br/>
[[Catégorie:Apprentissage par renforcement]] Apprentissage par renforcement<br/>
[[Category:Coulombe]]Coulombe<br/>
[[Catégorie:Scotty]]<br/>


== Définition ==
==Français==
L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d'optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’espérance des récompenses pour chaque action.
'''apprentissage par renforcement avec borne de confiance supérieure''' 


<br />
==Anglais==
== Français ==
'''reinforcement learning with the upper confidence bound'''
Apprentissage par renforcement avec borne de confiance supérieure


Source:
==Sources==
https://corpus.ulaval.ca/jspui/bitstream/20.500.11794/28250/1/33992.pdf


<br />
[https://corpus.ulaval.ca/jspui/bitstream/20.500.11794/28250/1/33992.pdf  Source : corpus.ulaval.ca]


== Anglais ==
[https://opendatascience.com/machine-learning-for-beginners/  Source : opendatascience.com]
Reinforcement Learning with the Upper Confidence Bound


Recall the general setup for reinforcement learning: we have well-defined actions that we can take, so we let the machine figure out how to maximize its reward based on the consequences of those actions.
The Upper Confidence Bound algorithm is a formalization of this idea, where the machine attempts to determine a single action it can take that will maximize its expected return.


https://opendatascience.com/machine-learning-for-beginners/
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Dernière version du 18 avril 2024 à 22:37

Définition

L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d’optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’espérance des récompenses pour chaque action.

Français

apprentissage par renforcement avec borne de confiance supérieure

Anglais

reinforcement learning with the upper confidence bound

Sources

Source : corpus.ulaval.ca

Source : opendatascience.com