Self-play fine-tuning

Révision datée du 26 janvier 2026 à 15:45 par Arianne (discussion | contributions) (Page créée avec « == en construction == == Définition == xxxxx Voir '''GRPO''' == Français == ''' XXXXXX''' == Anglais == ''' self-play fine-tuning''' ''' self-play fine tuning''' ''' SPIN''' <!--A language model finetuning algorithm for large language models that utilizes a self-play mechanism, allowing LLMs to improve themselves by playing against their previous iterations. This techinique reduces reliance on external preference da... »)

(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

en construction

Définition

xxxxx

Voir GRPO

Français

XXXXXX

Anglais

self-play fine-tuning

self-play fine tuning

SPIN

Sources

Source : GitHub

Récupérée de « https://datafranca.org/wiki/index.php?title=Self-play_fine-tuning&oldid=118395 »

Vocabulary

Contributeurs: Arianne Arel