« Apprentissage par renforcement hors-ligne » : différence entre les versions


Aucun résumé des modifications
m (Remplacement de texte : « ↵↵<small> » par « ==Sources== »)
 
(5 versions intermédiaires par 2 utilisateurs non affichées)
Ligne 7 : Ligne 7 :
== Français ==
== Français ==
''' apprentissage par renforcement hors-ligne '''
''' apprentissage par renforcement hors-ligne '''
''' apprentissage par renforcement en lots '''


''' apprentissage par renforcement par lots '''
''' apprentissage par renforcement par lots '''


''' apprentissage par renforcement différé '''
''' apprentissage par renforcement différé '''


== Anglais ==
== Anglais ==
Ligne 20 : Ligne 21 :
''' batch reinforcement learning'''
''' batch reinforcement learning'''


 
<!-- Offline RL is a paradigm that learns exclusively from static datasets of previously collected interactions, making it feasible to extract policies from large and diverse training datasets. Effective offline RL algorithms have a much wider range of applications than online RL, being particularly appealing for real-world applications such as education, healthcare, and robotics. -->==Sources==
<!-- Offline RL is a paradigm that learns exclusively from static datasets of previously collected interactions, making it feasible to extract policies from large and diverse training datasets. Effective offline RL algorithms have a much wider range of applications than online RL, being particularly appealing for real-world applications such as education, healthcare, and robotics. -->
 
 
<small>
 


[https://arxiv.org/abs/2005.01643  Source : arxiv]
[https://arxiv.org/abs/2005.01643  Source : arxiv]
Ligne 33 : Ligne 29 :
[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement_hors_ligne Source : Wikipedia]
[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement_hors_ligne Source : Wikipedia]


[[Catégorie:vocabulary]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Dernière version du 27 janvier 2024 à 15:56

Définition

Méthode d'apprentissage par renforcement où l'agent, plutôt que d'interagir en direct avec l'environnement, apprend à partir d'une série d'interactions stockées dans une base de données.

Compléments

Dans le cadre de l'apprentissage par renforcement hors-ligne, l'agent ne peut pas interagir directement avec l'environnement : une base de données d'interactions pour l'apprentissage lui est fournie au départ et il l'exploite pour apprendre une politique. Contrastant avec les algorithmes en-ligne, où l'agent interagit directement avec l'environnement, les algorithmes hors-ligne exploitent les exemples d'apprentissage dont ils disposent.

Français

apprentissage par renforcement hors-ligne

apprentissage par renforcement en lots

apprentissage par renforcement par lots

apprentissage par renforcement différé

Anglais

offline reinforcement learning

offline RL

batch reinforcement learning

Sources

Source : arxiv

Source : arxiv

Source : Wikipedia

Contributeurs: Patrick Drouin, wiki