« Apprentissage par renforcement avec borne de confiance supérieure » : différence entre les versions


Aucun résumé des modifications
Balise : Éditeur de wikicode 2017
Aucun résumé des modifications
Balise : Éditeur de wikicode 2017
Ligne 1 : Ligne 1 :
==Domaine==
==Domaine==
[[Category:Vocabulary]]
[[Category:Vocabulaire]]
<br />
[[Category:Intelligence artificielle]]
[[Category:Intelligence artificielle]]
Intelligence artificielle<br />
[[Catégorie:Apprentissage automatique]]
[[Catégorie:Apprentissage automatique]]
Apprentissage automatique<br />
[[Catégorie:Apprentissage par renforcement]]
[[Catégorie:Apprentissage par renforcement]]
Apprentissage par renforcement<br />
[[Category:Coulombe2]]
[[Category:Coulombe]]
[[Category:GRAND LEXIQUE FRANÇAIS]]
Coulombe<br />
[[Catégorie:Scotty2]]
[[Catégorie:Scotty]]
 
[[Catégorie:9]]
<br />
<br />



Version du 15 avril 2019 à 11:34

Domaine


Définition

L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d'optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’espérance des récompenses pour chaque action.


Français

Apprentissage par renforcement avec borne de confiance supérieure n.m.


Anglais

Reinforcement Learning with the Upper Confidence Bound


Source: corpus.ulaval.ca

source : opendatascience.com