« Apprentissage par renforcement avec borne de confiance supérieure » : différence entre les versions
Aucun résumé des modifications Balise : Éditeur de wikicode 2017 |
Aucun résumé des modifications Balise : Éditeur de wikicode 2017 |
||
Ligne 7 : | Ligne 7 : | ||
[[Category:GRAND LEXIQUE FRANÇAIS]] | [[Category:GRAND LEXIQUE FRANÇAIS]] | ||
[[Catégorie:Scotty2]] | [[Catégorie:Scotty2]] | ||
==Définition== | ==Définition== | ||
Ligne 15 : | Ligne 13 : | ||
==Français== | ==Français== | ||
'''Apprentissage par renforcement avec borne de confiance supérieure''' n.m. | '''Apprentissage par renforcement avec borne de confiance supérieure''' n.m. | ||
==Anglais== | ==Anglais== |
Version du 15 juin 2019 à 10:54
Domaine
Intelligence artificielle
Apprentissage automatique
Apprentissage par renforcement
Définition
L'algorithme d'apprentissage par renforcement avec borne de confiance supérieure est basé sur le principe d'optimisme face à l’incertitude qui consiste à utiliser une borne supérieure sur l’espérance des récompenses pour chaque action.
Français
Apprentissage par renforcement avec borne de confiance supérieure n.m.
Anglais
Reinforcement Learning with the Upper Confidence Bound
Contributeurs: Claude Coulombe, Gérard Pelletier, Jacques Barolet, wiki