« Peaufinage par auto-jeu » : différence entre les versions
Aucun résumé des modifications |
m (Patrickdrouin a déplacé la page Self-play fine-tuning vers Peaufinage par auto-jeu) |
(Aucune différence)
| |
Version du 14 avril 2026 à 15:02
Définition
Algorithme de peaufinage pour les grands modèles de langues (GML) qui utilise un mécanisme qui lui permet de jouer contre lui-même self-play mechanism en utilisant les versions précédentes du modèle.
Voir aussi Optimisation de la politique relative au groupe et Apprentissage par curriculum auto-évolutif
Complément
Cette technique réduit la dépendance vis-à-vis des jeux de données externes ou des modèles enseignants.
Français
peaufinage par auto-jeu
Anglais
self-play fine-tuning
self-play fine tuning
SPIN
Sources
Contributeurs: Arianne Arel, Patrick Drouin





