« Modèle de récompense » : différence entre les versions


(Page créée avec « == Définition == En apprentissage par renforcement, le modèle de récompense donne une récompense ou une pénalité en réponse à une action qui est posée par un agent. == Compléments == Dans un grand modèle de langues, l'action serait une requête Dans le cas d'un agent autonome comme un robot aspirateur, le fait de se buter contre un mur va déclencher une pénalité, ce qui permet au robot d'ajuster son comportement. On rencontre parfois le te... »)
 
Aucun résumé des modifications
Ligne 3 : Ligne 3 :


== Compléments ==  
== Compléments ==  
Dans un grand modèle de langues, l'action serait une requête
Afin d'améliorer un [[robot conversationnel]] basé sur un grand modèle de langues, le modèle de récompense sera entraîné à partir de rétroactions (récompenses ou pénalités) fournies par des humains suite à des requêtes faites au modèle de langues.


Dans le cas d'un agent autonome comme un robot aspirateur, le fait de se buter contre un mur va déclencher une pénalité, ce qui permet au robot d'ajuster son comportement.  
Dans le cas d'un agent autonome comme un robot aspirateur, le fait de se buter contre un mur va déclencher une pénalité, ce qui permet au robot d'ajuster son comportement.  

Version du 6 mars 2024 à 16:28

Définition

En apprentissage par renforcement, le modèle de récompense donne une récompense ou une pénalité en réponse à une action qui est posée par un agent.

Compléments

Afin d'améliorer un robot conversationnel basé sur un grand modèle de langues, le modèle de récompense sera entraîné à partir de rétroactions (récompenses ou pénalités) fournies par des humains suite à des requêtes faites au modèle de langues.

Dans le cas d'un agent autonome comme un robot aspirateur, le fait de se buter contre un mur va déclencher une pénalité, ce qui permet au robot d'ajuster son comportement.

On rencontre parfois le terme modèle de récompense et de pénalité.

Français

modèle de récompense

modèle de récompenses

Anglais

reward model

Sources

[https://theses.hal.science/tel-03464538v2/document Algorithmes de bandits pour la collecte d’informations en temps réel dans les réseaux sociaux Source : Gisselbrecht 2021 ]

GPT-3 et IA génératives : mieux les cerner pour en définir les usages avec pertinence Source : Lefebvre Dalloz