« Group Relative Policy Optimization » : différence entre les versions
(Page créée avec « == en construction == == Définition == xxxxx Voir aussi '''Common Crawl''', '''Optimisation de la Politique Proximale''' et '''R-Zero''' == Français == ''' XXXXXXX''' == Anglais == '''Group Relative Policy Optimization''' ''' GRPO''' == Sources == [https://arxiv.org/abs/2510.08191 Source : Arxiv] [https://arxiv.org/abs/2402.03300 Source : Arxiv] [https://verl.readthedocs.io/en/latest/algo/grpo.html Source : verl] Catégorie:vocabula... ») |
Aucun résumé des modifications |
||
| Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
'''[[Algorithme]]''' d''''[[apprentissage par renforcement]]''' dérivé de l'approche PPO ('''[[Optimisation de la Politique Proximale]]''') qui réduit la charge de calcul en évitant l''''[[entraînement]]''' d'un autre modèle d'estimation de valeur. | |||
Il génère plusieurs réponses à partir de la politique actuelle pour chaque '''[[requête générative]]''', au sein de chaque groupe. Les réponses sont notées et les récompenses sont normalisées par rapport au groupe, éliminant ainsi le besoin d'un critique en estimant les avantages directement à partir des groupes de réponses. | |||
Voir aussi '''[[Common Crawl]]''' et '''[[R-Zero]]''' | |||
== Français == | == Français == | ||
''' | ''' Politique d'Optimisation Relative par Groupe''' | ||
== Anglais == | == Anglais == | ||
| Ligne 13 : | Ligne 15 : | ||
''' GRPO''' | ''' GRPO''' | ||
''A variant reinforcement learning (RL) algorithm of Proximal Policy Optimization (PPO) approach that reduces computational overhead by avoiding the training of a separate value estimation model. It generates multiple completions (responses) from the current policy for each prompt, within each group. The completions are scored, and rewards are normalized relative to the group, thus eliminating the need for a critic by estimating advantages directly from groups of responses.'' | |||
== Sources == | == Sources == | ||
Dernière version du 9 novembre 2025 à 11:37
en construction
Définition
Algorithme d'apprentissage par renforcement dérivé de l'approche PPO (Optimisation de la Politique Proximale) qui réduit la charge de calcul en évitant l'entraînement d'un autre modèle d'estimation de valeur.
Il génère plusieurs réponses à partir de la politique actuelle pour chaque requête générative, au sein de chaque groupe. Les réponses sont notées et les récompenses sont normalisées par rapport au groupe, éliminant ainsi le besoin d'un critique en estimant les avantages directement à partir des groupes de réponses.
Voir aussi Common Crawl et R-Zero
Français
Politique d'Optimisation Relative par Groupe
Anglais
Group Relative Policy Optimization
GRPO
A variant reinforcement learning (RL) algorithm of Proximal Policy Optimization (PPO) approach that reduces computational overhead by avoiding the training of a separate value estimation model. It generates multiple completions (responses) from the current policy for each prompt, within each group. The completions are scored, and rewards are normalized relative to the group, thus eliminating the need for a critic by estimating advantages directly from groups of responses.
Sources
Contributeurs: Arianne Arel





