« Peaufinage par auto-jeu » : différence entre les versions

Dernière version du 14 avril 2026 à 15:05

Définition

Algorithme de peaufinage pour les grands modèles de langues (GML) qui utilise un mécanisme qui lui permet de jouer contre lui-même (self-play mechanism) en utilisant les versions précédentes du modèle.

Voir aussi Optimisation de la politique relative au groupe et Apprentissage par curriculum auto-évolutif

Complément

Cette technique réduit la dépendance vis-à-vis des jeux de données externes ou des modèles enseignants.

Français

peaufinage par auto-jeu

Anglais

self-play fine-tuning

self-play fine tuning

SPIN

Sources

Zhuofan Xu (2025) - Auto-jeu

Source : arxiv

Source : GitHub

Source: verl

@@ Ligne 5 : / Ligne 5 : @@
 == Complément ==
-Cette technique réduit la dépendance vis-à-vis des '''[[Jeu de données|jeux de données]]''' externes ou des [[Modèles enseignants|modèles enseignants]].
+Cette technique réduit la dépendance vis-à-vis des '''[[Jeu de données|jeux de données]]''' externes ou des [[Modèle enseignant|modèles enseignants]].
 == Français ==
@@ Ligne 16 : / Ligne 16 : @@
 ''' SPIN'''
 <!--A language model finetuning algorithm for large language models that utilizes a self-play mechanism, allowing LLMs to improve themselves by playing against their previous iterations. This techinique reduces reliance on external preference datasets or stronger teacher models.-->
 == Sources ==
 [https://theses.hal.science/tel-05430689v1/file/154915_XU_2025_archivage.pdf Zhuofan Xu (2025) - Auto-jeu]

« Peaufinage par auto-jeu » : différence entre les versions