« Apprentissage par renforcement hors-ligne » : différence entre les versions


(Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == ''' Offline Reinforcement Learning''' '''Offline RL''' Offline RL is... »)
 
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
==en construction==
== Définition ==
Méthode d'[[apprentissage par renforcement]] où l'[[agent]], plutôt que d'interagir en direct avec l'environnement, apprend à partir d'une série d'interactions stockées dans une base de données.


== Définition ==
 
XXXXXXXXX
== Compléments ==  
Dans le cadre de l'apprentissage par renforcement hors-ligne, l'[[agent]] ne peut pas interagir directement avec l'environnement : une base de données d'interactions pour l'apprentissage lui est fournie au départ et il l'exploite pour apprendre une [[politique d'action|politique]]. Contrastant avec les algorithmes en-ligne, où l'[[agent]] interagit directement avec l'environnement, les algorithmes hors-ligne exploitent les exemples d'apprentissage dont ils disposent.


== Français ==
== Français ==
''' XXXXXXXXX '''
''' apprentissage par renforcement hors-ligne '''
 
''' apprentissage par renforcement par lots '''
 
''' apprentissage par renforcement différé '''
 


== Anglais ==
== Anglais ==
''' Offline Reinforcement Learning'''
'''offline reinforcement learning'''
 
'''offline RL'''
 
''' batch reinforcement learning'''


'''Offline RL'''


Offline RL is a paradigm that learns exclusively from static datasets of previously collected interactions, making it feasible to extract policies from large and diverse training datasets. Effective offline RL algorithms have a much wider range of applications than online RL, being particularly appealing for real-world applications such as education, healthcare, and robotics.
<!-- Offline RL is a paradigm that learns exclusively from static datasets of previously collected interactions, making it feasible to extract policies from large and diverse training datasets. Effective offline RL algorithms have a much wider range of applications than online RL, being particularly appealing for real-world applications such as education, healthcare, and robotics. -->




Ligne 21 : Ligne 31 :


[https://arxiv.org/abs/2203.01387  Source : arxiv]
[https://arxiv.org/abs/2203.01387  Source : arxiv]
[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement_hors_ligne Source : Wikipedia]


[[Catégorie:vocabulary]]
[[Catégorie:vocabulary]]

Version du 16 juin 2023 à 14:19

Définition

Méthode d'apprentissage par renforcement où l'agent, plutôt que d'interagir en direct avec l'environnement, apprend à partir d'une série d'interactions stockées dans une base de données.


Compléments

Dans le cadre de l'apprentissage par renforcement hors-ligne, l'agent ne peut pas interagir directement avec l'environnement : une base de données d'interactions pour l'apprentissage lui est fournie au départ et il l'exploite pour apprendre une politique. Contrastant avec les algorithmes en-ligne, où l'agent interagit directement avec l'environnement, les algorithmes hors-ligne exploitent les exemples d'apprentissage dont ils disposent.

Français

apprentissage par renforcement hors-ligne

apprentissage par renforcement par lots

apprentissage par renforcement différé


Anglais

offline reinforcement learning

offline RL

batch reinforcement learning




Source : arxiv

Source : arxiv

Source : Wikipedia



Contributeurs: Patrick Drouin, wiki