« Apprentissage par renforcement hors-ligne » : différence entre les versions

Dernière version du 27 janvier 2024 à 16:56

Définition

Méthode d'apprentissage par renforcement où l'agent, plutôt que d'interagir en direct avec l'environnement, apprend à partir d'une série d'interactions stockées dans une base de données.

Compléments

Dans le cadre de l'apprentissage par renforcement hors-ligne, l'agent ne peut pas interagir directement avec l'environnement : une base de données d'interactions pour l'apprentissage lui est fournie au départ et il l'exploite pour apprendre une politique. Contrastant avec les algorithmes en-ligne, où l'agent interagit directement avec l'environnement, les algorithmes hors-ligne exploitent les exemples d'apprentissage dont ils disposent.

Français

apprentissage par renforcement hors-ligne

apprentissage par renforcement en lots

apprentissage par renforcement par lots

apprentissage par renforcement différé

Anglais

offline reinforcement learning

offline RL

batch reinforcement learning

Sources

Source : arxiv

Source : Wikipedia

@@ Ligne 1 : / Ligne 1 : @@
-==en construction==
+== Définition ==
+Méthode d'[[apprentissage par renforcement]] où l'[[agent]], plutôt que d'interagir en direct avec l'environnement, apprend à partir d'une série d'interactions stockées dans une base de données.
-== Définition ==
+== Compléments ==
-XXXXXXXXX
+Dans le cadre de l'apprentissage par renforcement hors-ligne, l'[[agent]] ne peut pas interagir directement avec l'environnement : une base de données d'interactions pour l'apprentissage lui est fournie au départ et il l'exploite pour apprendre une [[politique d'action|politique]]. Contrastant avec les algorithmes en-ligne, où l'[[agent]] interagit directement avec l'environnement, les algorithmes hors-ligne exploitent les exemples d'apprentissage dont ils disposent.
 == Français ==
-''' XXXXXXXXX '''
+''' apprentissage par renforcement hors-ligne '''
+''' apprentissage par renforcement en lots '''
-== Anglais ==
+''' apprentissage par renforcement par lots '''
-''' Offline Reinforcement Learning'''
-'''Offline RL'''
+''' apprentissage par renforcement différé '''
- Offline RL is a paradigm that learns exclusively from static datasets of previously collected interactions, making it feasible to extract policies from large and diverse training datasets. Effective offline RL algorithms have a much wider range of applications than online RL, being particularly appealing for real-world applications such as education, healthcare, and robotics.
+== Anglais ==
+'''offline reinforcement learning'''
+'''offline RL'''
-<small>
+''' batch reinforcement learning'''
+<!-- Offline RL is a paradigm that learns exclusively from static datasets of previously collected interactions, making it feasible to extract policies from large and diverse training datasets. Effective offline RL algorithms have a much wider range of applications than online RL, being particularly appealing for real-world applications such as education, healthcare, and robotics. -->==Sources==
 [https://arxiv.org/abs/2005.01643  Source : arxiv]
@@ Ligne 22 : / Ligne 27 : @@
 [https://arxiv.org/abs/2203.01387  Source : arxiv]
-[[Catégorie:vocabulary]]
+[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement_hors_ligne Source : Wikipedia]
+[[Catégorie:GRAND LEXIQUE FRANÇAIS]]