« Apprentissage par renforcement à base de modèles » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
==Définition==
==Définition==
L'apprentissage par renforcement à base de modèles s'applique dans le cadre d'un agent interagissant avec son environnement qui apprend un modèle dudit environnement, puis qui exploite ce modèle pour sa prise de décisions.
L'[[apprentissage par renforcement]] à base de [[modèle|modèles]] s'applique dans le cadre d'un [[agent]] interagissant avec son environnement qui apprend un [[modèle]] dudit environnement, puis qui exploite ce [[modèle]] pour sa prise de décisions.


==Compléments==
==Compléments==

Version du 9 juillet 2024 à 15:10

Définition

L'apprentissage par renforcement à base de modèles s'applique dans le cadre d'un agent interagissant avec son environnement qui apprend un modèle dudit environnement, puis qui exploite ce modèle pour sa prise de décisions.

Compléments

Un agent tente, par essais et erreurs, de résoudre un problème en accumulant des données sur ses actions et sur l'état de l’environnement qui en résulte. Avec ces données, l'agent crée un modèle dynamique, pour raisonner sur son environnement. À partir de ce modèle qui évolue dans le temps, l'agent peut ainsi prendre des décisions en prédisant leurs effets. Ce processus itératif fait que le modèle s'améliore graduellement, tout comme les décisions prises par l'agent.


L'apprentissage par renforcement basé sur un modèle ne diffère de son homologue sans modèle que par l'apprentissage d'un modèle de dynamique, mais cela a des effets substantiels en aval sur la manière dont les décisions sont prises.

Voir : apprentissage par renforcement sans modèle, apprentissage par renforcement, modèle.

Français

apprentissage par renforcement à base de modèles

apprentissage par renforcement basé sur un modèle

Anglais

Model Based Reinforcement Learning

Model Based RL

MBRL

Sources

Apprentissage par renforcement à base de modèles pour le contrôle de processus de décision semi-markoviens déterministes par morceaux, partiellement observables Orlane Le Quellennec 2023

Polytechnique Montréal

Unité de Mathématiques et Informatique Appliquées de Toulouse (MIAT)

arxiv - Model-based Reinforcement Learning: A Survey - T M. Moerland & al.

Model Based Reinforcement Learning (MBRL) - Hugginface