Modèle de récompense
Définition
En apprentissage par renforcement, le modèle de récompense donne une récompense ou une pénalité en réponse à une action qui est posée par un agent.
Compléments
Dans un grand modèle de langues, l'action serait une requête
Dans le cas d'un agent autonome comme un robot aspirateur, le fait de se buter contre un mur va déclencher une pénalité, ce qui permet au robot d'ajuster son comportement.
On rencontre parfois le terme modèle de récompense et de pénalité.
Français
modèle de récompense
modèle de récompenses
Anglais
reward model
Sources
[https://theses.hal.science/tel-03464538v2/document Algorithmes de bandits pour la collecte d’informations en temps réel dans les réseaux sociaux Source : Gisselbrecht 2021 ]
Contributeurs: Claude Coulombe, Patrick Drouin, wiki