Group Relative Policy Optimization
en construction
Définition
Algorithme d'apprentissage par renforcement dérivé de l'approche PPO (Optimisation de la Politique Proximale) qui réduit la charge de calcul en évitant l'entraînement d'un autre modèle d'estimation de valeur.
Il génère plusieurs réponses à partir de la politique actuelle pour chaque requête générative, au sein de chaque groupe. Les réponses sont notées et les récompenses sont normalisées par rapport au groupe, éliminant ainsi le besoin d'un critique en estimant les avantages directement à partir des groupes de réponses.
Voir aussi Common Crawl et R-Zero
Français
Politique d'Optimisation Relative par Groupe
Anglais
Group Relative Policy Optimization
GRPO
A variant reinforcement learning (RL) algorithm of Proximal Policy Optimization (PPO) approach that reduces computational overhead by avoiding the training of a separate value estimation model. It generates multiple completions (responses) from the current policy for each prompt, within each group. The completions are scored, and rewards are normalized relative to the group, thus eliminating the need for a critic by estimating advantages directly from groups of responses.
Sources
Contributeurs: Arianne Arel





