« Apprentissage par renforcement hors-ligne » : différence entre les versions

Version du 16 juin 2023 à 14:24

Définition

Méthode d'apprentissage par renforcement où l'agent, plutôt que d'interagir en direct avec l'environnement, apprend à partir d'une série d'interactions stockées dans une base de données.

Compléments

Dans le cadre de l'apprentissage par renforcement hors-ligne, l'agent ne peut pas interagir directement avec l'environnement : une base de données d'interactions pour l'apprentissage lui est fournie au départ et il l'exploite pour apprendre une politique. Contrastant avec les algorithmes en-ligne, où l'agent interagit directement avec l'environnement, les algorithmes hors-ligne exploitent les exemples d'apprentissage dont ils disposent.

Français

apprentissage par renforcement hors-ligne

apprentissage par renforcement en lots

apprentissage par renforcement par lots

apprentissage par renforcement différé

Anglais

offline reinforcement learning

offline RL

batch reinforcement learning

Source : arxiv

Source : Wikipedia

Version du 16 juin 2023 à 14:20 (voir la source) Patrickdrouin (discussion \| contributions) m (Patrickdrouin a déplacé la page Offline Reinforcement Learning vers Apprentissage par renforcement hors-ligne) ← Modification précédente		Version du 16 juin 2023 à 14:24 (voir la source) Patrickdrouin (discussion \| contributions) Aucun résumé des modifications Modification suivante →
Ligne 31 :		Ligne 31 :
	[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement_hors_ligne Source : Wikipedia]		[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement_hors_ligne Source : Wikipedia]

	[[Catégorie:~~vocabulary~~]]		[[Catégorie:Publication]]

« Apprentissage par renforcement hors-ligne » : différence entre les versions