Apprentissage par renforcement avec borne de confiance supérieure


Révision datée du 8 mars 2019 à 06:49 par Gdpelletier (discussion | contributions) (Page créée avec « Recall the general setup for reinforcement learning: we have well-defined actions that we can take, so we let the machine figure out how to maximize its reward based on th... »)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
La version imprimable n’est plus prise en charge et peut comporter des erreurs de génération. Veuillez mettre à jour les signets de votre navigateur et utiliser à la place la fonction d’impression par défaut de celui-ci.

Recall the general setup for reinforcement learning: we have well-defined actions that we can take, so we let the machine figure out how to maximize its reward based on the consequences of those actions.

The Upper Confidence Bound algorithm is a formalization of this idea, where the machine attempts to determine a single action it can take that will maximize its expected return.

https://opendatascience.com/machine-learning-for-beginners/