Apprentissage par renforcement à base de modèles


Révision datée du 9 juillet 2024 à 15:32 par Patrickdrouin (discussion | contributions) (Page créée avec « ==Définition== L'apprentissage par renforcement basé sur un modèle ne diffère de son homologue sans modèle que par l'apprentissage d'un modèle de dynamique, mais cela a des effets substantiels en aval sur la manière dont les décisions sont prises. En apprentissage par renforcement, l’algorithme apprend un comportement à partir d’expériences répétées, de façon à optimiser les récompenses reçues au cours du temps. Tout comme l’Apprentissa... »)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Définition

L'apprentissage par renforcement basé sur un modèle ne diffère de son homologue sans modèle que par l'apprentissage d'un modèle de dynamique, mais cela a des effets substantiels en aval sur la manière dont les décisions sont prises.


En apprentissage par renforcement, l’algorithme apprend un comportement à partir d’expériences répétées, de façon à optimiser les récompenses reçues au cours du temps. Tout comme l’apprentissage non supervisé, l’apprentissage par renforcement n’a pas besoin de données étiquetées.

Typiquement, un agent intelligent, qui est plongé au sein d’un environnement, prend une décision ou réalise une action en fonction de son état courant et de l’observation de son environnement. En retour de l’action de l’agent, l’environnement procure à l’agent une récompense ou une punition.

On peut voir l’apprentissage par renforcement comme un jeu d’essais et d’erreurs dont le but est de déterminer les actions qui vont maximiser les gains d’un agent intelligent. Il élaborera ainsi un comportement optimal, appelé stratégie ou politique, qui est une fonction associant à l’état courant l’action à exécuter.

Voir aussi:

Compléments

Français

apprentissage par renforcement à base de modèles

Anglais

Model Based Reinforcement Learning

MBRL

Sources

Apprentissage par renforcement à base de modèles pour le contrôle de processus de décision semi-markoviens déterministes par morceaux, partiellement observables Orlane Le Quellennec 2023

Polytechnique Montréal

Unité de Mathématiques et Informatique Appliquées de Toulouse (MIAT)

arxiv - Model-based Reinforcement Learning: A Survey - T M. Moerland & al.

Model Based Reinforcement Learning (MBRL) - Hugginface FRANÇAIS]]