« Apprentissage par renforcement avec borne de confiance supérieure » : différence entre les versions
Aucun résumé des modifications Balise : Éditeur de wikicode 2017 |
Aucun résumé des modifications Balise : Éditeur de wikicode 2017 |
||
(3 versions intermédiaires par le même utilisateur non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
==Définition== | ==Définition== | ||
L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d'optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’espérance des récompenses pour chaque action. | L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d'optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’espérance des récompenses pour chaque action. | ||
==Français== | ==Français== | ||
'''Apprentissage par renforcement avec borne de confiance supérieure''' | '''Apprentissage par renforcement avec borne de confiance supérieure''' nom masc. | ||
==Anglais== | ==Anglais== | ||
Ligne 20 : | Ligne 14 : | ||
[https://opendatascience.com/machine-learning-for-beginners/ source : opendatascience.com] | [https://opendatascience.com/machine-learning-for-beginners/ source : opendatascience.com] | ||
[[Catégorie:Intelligence artificielle]] | |||
[[Catégorie:Apprentissage automatique]] | |||
[[Catégorie:Apprentissage par renforcement]] | |||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Version du 3 mai 2020 à 15:22
Définition
L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d'optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’espérance des récompenses pour chaque action.
Français
Apprentissage par renforcement avec borne de confiance supérieure nom masc.
Anglais
Reinforcement Learning with the Upper Confidence Bound
Contributeurs: Evan Brach, Claude Coulombe, Gérard Pelletier, Jacques Barolet, wiki