« Apprentissage par renforcement hors-ligne » : différence entre les versions
(Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == ''' Offline Reinforcement Learning''' '''Offline RL''' Offline RL is... ») |
m (Remplacement de texte : « ↵↵<small> » par « ==Sources== ») |
||
(7 versions intermédiaires par 2 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
== | == Définition == | ||
Méthode d'[[apprentissage par renforcement]] où l'[[agent]], plutôt que d'interagir en direct avec l'environnement, apprend à partir d'une série d'interactions stockées dans une base de données. | |||
== | == Compléments == | ||
Dans le cadre de l'apprentissage par renforcement hors-ligne, l'[[agent]] ne peut pas interagir directement avec l'environnement : une base de données d'interactions pour l'apprentissage lui est fournie au départ et il l'exploite pour apprendre une [[politique d'action|politique]]. Contrastant avec les algorithmes en-ligne, où l'[[agent]] interagit directement avec l'environnement, les algorithmes hors-ligne exploitent les exemples d'apprentissage dont ils disposent. | |||
== Français == | == Français == | ||
''' | ''' apprentissage par renforcement hors-ligne ''' | ||
''' apprentissage par renforcement en lots ''' | |||
''' apprentissage par renforcement par lots ''' | |||
''' | |||
''' | ''' apprentissage par renforcement différé ''' | ||
== Anglais == | |||
'''offline reinforcement learning''' | |||
'''offline RL''' | |||
''' batch reinforcement learning''' | |||
<!-- Offline RL is a paradigm that learns exclusively from static datasets of previously collected interactions, making it feasible to extract policies from large and diverse training datasets. Effective offline RL algorithms have a much wider range of applications than online RL, being particularly appealing for real-world applications such as education, healthcare, and robotics. -->==Sources== | |||
[https://arxiv.org/abs/2005.01643 Source : arxiv] | [https://arxiv.org/abs/2005.01643 Source : arxiv] | ||
Ligne 22 : | Ligne 27 : | ||
[https://arxiv.org/abs/2203.01387 Source : arxiv] | [https://arxiv.org/abs/2203.01387 Source : arxiv] | ||
[[Catégorie: | [https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement_hors_ligne Source : Wikipedia] | ||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Dernière version du 27 janvier 2024 à 15:56
Définition
Méthode d'apprentissage par renforcement où l'agent, plutôt que d'interagir en direct avec l'environnement, apprend à partir d'une série d'interactions stockées dans une base de données.
Compléments
Dans le cadre de l'apprentissage par renforcement hors-ligne, l'agent ne peut pas interagir directement avec l'environnement : une base de données d'interactions pour l'apprentissage lui est fournie au départ et il l'exploite pour apprendre une politique. Contrastant avec les algorithmes en-ligne, où l'agent interagit directement avec l'environnement, les algorithmes hors-ligne exploitent les exemples d'apprentissage dont ils disposent.
Français
apprentissage par renforcement hors-ligne
apprentissage par renforcement en lots
apprentissage par renforcement par lots
apprentissage par renforcement différé
Anglais
offline reinforcement learning
offline RL
batch reinforcement learning
Sources
Contributeurs: Patrick Drouin, wiki