« Modèle de récompense » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
(2 versions intermédiaires par un autre utilisateur non affichées) | |||
Ligne 3 : | Ligne 3 : | ||
== Compléments == | == Compléments == | ||
On trouve également l'expression ''modèle de récompense et de pénalité''. | |||
<hr/> | |||
Afin d'améliorer un [[robot conversationnel]] basé sur un [[grand modèle de langues]], le modèle de récompense est entraîné à partir de rétroactions (récompenses ou pénalités) fournies par des humains suite à des requêtes soumises au [[robot conversationnel]] (voir [[apprentissage par renforcement et rétroaction humaine]]). | Afin d'améliorer un [[robot conversationnel]] basé sur un [[grand modèle de langues]], le modèle de récompense est entraîné à partir de rétroactions (récompenses ou pénalités) fournies par des humains suite à des requêtes soumises au [[robot conversationnel]] (voir [[apprentissage par renforcement et rétroaction humaine]]). | ||
Dans le cas d'un agent autonome comme un robot aspirateur, le fait de se buter contre un mur pourrait déclencher une pénalité | Dans le cas d'un agent autonome comme un robot aspirateur, le fait de se buter contre un mur pourrait déclencher une pénalité alors que trouver un passage pourrait déclencher une récompense, ce qui permet au robot d'ajuster son comportement. | ||
<hr/> | |||
Le modèle de récompense est crucial au succès de l'apprentissage par renforcement. Un bon modèle de récompense va aider l'agent à apprendre rapidement et efficacement, alors qu'un modèle de récompense mal conçu peut conduire à un apprentissage lent et/ou inefficace. | |||
<hr/> | <hr/> | ||
Il existe plusieurs types de modèles de récompense: | Il existe plusieurs types de modèles de récompense: | ||
Ligne 34 : | Ligne 35 : | ||
[[Catégorie: | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Dernière version du 11 mars 2024 à 20:05
Définition
En apprentissage par renforcement, le modèle de récompense donne une rétroaction positive (récompense) ou une retroaction négative (pénalité) en réponse à une action qui est posée par un agent.
Compléments
On trouve également l'expression modèle de récompense et de pénalité.
Afin d'améliorer un robot conversationnel basé sur un grand modèle de langues, le modèle de récompense est entraîné à partir de rétroactions (récompenses ou pénalités) fournies par des humains suite à des requêtes soumises au robot conversationnel (voir apprentissage par renforcement et rétroaction humaine).
Dans le cas d'un agent autonome comme un robot aspirateur, le fait de se buter contre un mur pourrait déclencher une pénalité alors que trouver un passage pourrait déclencher une récompense, ce qui permet au robot d'ajuster son comportement.
Le modèle de récompense est crucial au succès de l'apprentissage par renforcement. Un bon modèle de récompense va aider l'agent à apprendre rapidement et efficacement, alors qu'un modèle de récompense mal conçu peut conduire à un apprentissage lent et/ou inefficace.
Il existe plusieurs types de modèles de récompense:
- Récompense intrinsèque: La récompense est basée sur la réalisation d'un objectif interne à l'agent;
- Récompense extrinsèque: La récompense est fournie par l'environnement externe;
- Récompense dense: La récompense est fournie à chaque étape de l'apprentissage;
- Récompense éparse: La récompense n'est fournie qu'à des étapes clés de l'apprentissage.
Français
modèle de récompense
modèle de récompenses
modèle de récompense et de pénalité
Anglais
reward model
Sources
[https://theses.hal.science/tel-03464538v2/document Algorithmes de bandits pour la collecte d’informations en temps réel dans les réseaux sociaux Source : Gisselbrecht 2021 ]
Contributeurs: Claude Coulombe, Patrick Drouin, wiki