Contributions de Arianne


Rechercher des contributionsaffichermasquer
⧼contribs-top⧽
⧼contribs-date⧽

26 janvier 2026

  • 14:4526 janvier 2026 à 14:45 diff hist +720 N Self-play fine-tuningPage créée avec « == en construction == == Définition == xxxxx Voir '''GRPO''' == Français == ''' XXXXXX''' == Anglais == ''' self-play fine-tuning''' ''' self-play fine tuning''' ''' SPIN''' <!--A language model finetuning algorithm for large language models that utilizes a self-play mechanism, allowing LLMs to improve themselves by playing against their previous iterations. This techinique reduces reliance on external preference da... »

8 décembre 2025

7 décembre 2025

5 décembre 2025

4 décembre 2025

3 décembre 2025

2 décembre 2025

30 novembre 2025

12 novembre 2025

11 novembre 2025