« Apprentissage par renforcement hors-ligne » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 7 : | Ligne 7 : | ||
== Français == | == Français == | ||
''' apprentissage par renforcement hors-ligne ''' | ''' apprentissage par renforcement hors-ligne ''' | ||
''' apprentissage par renforcement en lots ''' | |||
''' apprentissage par renforcement par lots ''' | ''' apprentissage par renforcement par lots ''' |
Version du 16 juin 2023 à 13:20
Définition
Méthode d'apprentissage par renforcement où l'agent, plutôt que d'interagir en direct avec l'environnement, apprend à partir d'une série d'interactions stockées dans une base de données.
Compléments
Dans le cadre de l'apprentissage par renforcement hors-ligne, l'agent ne peut pas interagir directement avec l'environnement : une base de données d'interactions pour l'apprentissage lui est fournie au départ et il l'exploite pour apprendre une politique. Contrastant avec les algorithmes en-ligne, où l'agent interagit directement avec l'environnement, les algorithmes hors-ligne exploitent les exemples d'apprentissage dont ils disposent.
Français
apprentissage par renforcement hors-ligne
apprentissage par renforcement en lots
apprentissage par renforcement par lots
apprentissage par renforcement différé
Anglais
offline reinforcement learning
offline RL
batch reinforcement learning
Contributeurs: Patrick Drouin, wiki