Self-play fine-tuning


Révision datée du 26 janvier 2026 à 14:45 par Arianne (discussion | contributions) (Page créée avec « == en construction == == Définition == xxxxx Voir '''GRPO''' == Français == ''' XXXXXX''' == Anglais == ''' self-play fine-tuning''' ''' self-play fine tuning''' ''' SPIN''' <!--A language model finetuning algorithm for large language models that utilizes a self-play mechanism, allowing LLMs to improve themselves by playing against their previous iterations. This techinique reduces reliance on external preference da... »)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

en construction

Définition

xxxxx

Voir GRPO

Français

XXXXXX

Anglais

self-play fine-tuning

self-play fine tuning

SPIN


Sources

Source : arxiv

Source : GitHub

Source: verl

Contributeurs: Arianne Arel