Self-play fine-tuning


en construction

Définition

Algorithme de peaufinage pour les grands modèles de langues (GML) qui utilise un self-play mechanism, permettant aux GML de s'améliorer en jouant contre leurs itérations précédentes. Cette technique réduit la dépendance vis-à-vis des jeux de données externes ou des modèles « enseignants » plus puissants.

Voir aussi GRPO

Français

XXXXXX

Anglais

self-play fine-tuning

self-play fine tuning

SPIN


Sources

Source : arxiv

Source : GitHub

Source: verl

Contributeurs: Arianne Arel