« R-Zero » : différence entre les versions

Version du 27 février 2026 à 14:37

en construction

Définition

Architecture qui génère et apprend de manière autonome à partir de ses propres données d'entraînement sans tâches supervisées par l'humain, en partant d'un modèle de base d'un grand modèle de langues. De plus, aucune donnée additionnelle n'est requise pour son entraînement.

R-Zero met en place une boucle co-évolutive dynamique entre deux instances du même modèle : le Challenger et le Solver. Le Challenger apprend à poser de meilleures questions et le Solver apprend à trouver de meilleures réponses.

Compléments

Le Challenger est formé via l'optimisation de la politique relative au groupe (GRPO en anglais) afin de générer des questions difficiles. Le Solver est peaufiné avec la GRPO sur un ensemble filtré de ces questions difficiles générées par le Challenger, désormais figé.

Français

R-Zero

Anglais

R-Zero

Self-evolving framework that autonomously generates and learns from its own training data without human-curated tasks, starting with nothing but a base model. No data is required. It sets up a dynamic co-evolutionary loop between two instances of the same base model : the Challenger and the Solver. The Challenger learns to ask better questions, and the Solver learns to find better answers.

The Challenger is trained via Group Relative Policy Optimization (GRPO) to generate difficult questions. The Solver is fine-tuned with GRPO on a filtered set of these challenging questions generated by the now-frozen Challenge.

Sources

Source : arxiv

Source : GitHub

Source : huggingface

@@ Ligne 7 : / Ligne 7 : @@
 == Compléments ==
-Le Challenger est formé via la ''Group Relative Policy Optimization'' (GRPO) afin de générer des questions difficiles. Le Solver est '''[[Peaufinage|peaufiné]]''' avec la GRPO sur un ensemble filtré de ces questions difficiles générées par le Challenge, désormais ''figé''.
+Le Challenger est formé via l''''[[Optimisation de la politique relative au groupe|optimisation de la politique relative au groupe (GRPO en anglais)]]''' afin de générer des questions difficiles. Le Solver est '''[[Peaufinage|peaufiné]]''' avec la GRPO sur un ensemble filtré de ces questions difficiles générées par le Challenger, désormais ''figé''.
 == Français ==
@@ Ligne 15 : / Ligne 15 : @@
 '''R-Zero'''
-''Self-evolving framework that autonomously generates and learns from its own training data without human-curated tasks, starting with nothing but a base model. No data is required. It sets up a dynamic co-evolutionary loop between two instances of the same base model : the Challenger and the Solver. The Challenger learns to ask better questions, and the Solver learns to find better answers.
+''Self-evolving framework that autonomously generates and learns from its own training data without human-curated tasks, starting with nothing but a base model. No data is required. It sets up a dynamic co-evolutionary loop between two instances of the same base model : the Challenger and the Solver. The Challenger learns to ask better questions, and the Solver learns to find better answers. ''
-The Challenger is trained via Group Relative Policy Optimization (GRPO) to generate difficult questions. The Solver is fine-tuned with GRPO on a filtered set of these challenging questions generated by the now-frozen Challenge.''
+''The Challenger is trained via Group Relative Policy Optimization (GRPO) to generate difficult questions. The Solver is fine-tuned with GRPO on a filtered set of these challenging questions generated by the now-frozen Challenge.''
@@ Ligne 28 : / Ligne 28 : @@
-[[Catégorie:vocabulary]]
+[[Catégorie:publication]]

« R-Zero » : différence entre les versions