« Optimisation de la politique relative au groupe » : différence entre les versions

Dernière version du 27 février 2026 à 13:29

en construction

Définition

Algorithme d'apprentissage par renforcement dérivé de l'approche PPO (Optimisation de la Politique Proximale) qui réduit la charge de calcul en évitant l'entraînement d'un autre modèle d'estimation de valeur.

Il génère plusieurs réponses à partir de la politique actuelle pour chaque requête générative, au sein de chaque groupe. Les réponses sont notées et les récompenses sont normalisées par rapport au groupe, éliminant ainsi le besoin d'un critique en estimant les avantages directement à partir des groupes de réponses.

Voir aussi Common Crawl et R-Zero

Français

optimisation de la politique relative au groupe

Anglais

group relative policy optimization

GRPO

A variant reinforcement learning (RL) algorithm of Proximal Policy Optimization (PPO) approach that reduces computational overhead by avoiding the training of a separate value estimation model. It generates multiple completions (responses) from the current policy for each prompt, within each group. The completions are scored, and rewards are normalized relative to the group, thus eliminating the need for a critic by estimating advantages directly from groups of responses.

Sources

Source : Arxiv

Source : verl

@@ Ligne 2 : / Ligne 2 : @@
 == Définition ==
-xxxxx
+'''[[Algorithme]]''' d''''[[apprentissage par renforcement]]''' dérivé de l'approche PPO ('''[[Optimisation de la Politique Proximale]]''') qui réduit la charge de calcul en évitant l''''[[entraînement]]''' d'un autre modèle d'estimation de valeur.
-Voir aussi '''[[Common Crawl]]''', '''[[Optimisation de la Politique Proximale]]''' et '''[[R-Zero]]'''
+Il génère plusieurs réponses à partir de la politique actuelle pour chaque '''[[requête générative]]''', au sein de chaque groupe. Les réponses sont notées et les récompenses sont normalisées par rapport au groupe, éliminant ainsi le besoin d'un critique en estimant les avantages directement à partir des groupes de réponses.
+Voir aussi '''[[Common Crawl]]''' et '''[[R-Zero]]'''
 == Français ==
-''' XXXXXXX'''
+'''optimisation de la politique relative au groupe'''
 == Anglais ==
-'''Group Relative Policy Optimization'''
+'''group relative policy optimization'''
 ''' GRPO'''
+''A variant reinforcement learning (RL) algorithm of Proximal Policy Optimization (PPO) approach that reduces computational overhead by avoiding the training of a separate value estimation model. It generates multiple completions (responses) from the current policy for each prompt, within each group. The completions are scored, and rewards are normalized relative to the group, thus eliminating the need for a critic by estimating advantages directly from groups of responses.''
 == Sources ==
@@ Ligne 21 : / Ligne 25 : @@
 [https://verl.readthedocs.io/en/latest/algo/grpo.html   Source : verl]
-[[Catégorie:vocabulary]]
+[[Catégorie:publication]]

« Optimisation de la politique relative au groupe » : différence entre les versions