« Self-play fine-tuning » : historique des versions


Sélection du diff : cochez les boutons radio des versions à comparer et appuyez sur entrée ou sur le bouton en bas.
Légende : (actu) = différence avec la dernière version, (diff) = différence avec la version précédente, m = modification mineure.

27 janvier 2026

26 janvier 2026

  • actudiff 14:4526 janvier 2026 à 14:45Arianne discussion contributions 720 octets +720 Page créée avec « == en construction == == Définition == xxxxx Voir '''GRPO''' == Français == ''' XXXXXX''' == Anglais == ''' self-play fine-tuning''' ''' self-play fine tuning''' ''' SPIN''' <!--A language model finetuning algorithm for large language models that utilizes a self-play mechanism, allowing LLMs to improve themselves by playing against their previous iterations. This techinique reduces reliance on external preference da... »