Optimisation directe des préférences

Définition

Alors que les modèles de langage non supervisés à grande échelle acquièrent une connaissance générale du monde et certaines compétences de raisonnement, il est difficile d'obtenir un contrôle précis de leur comportement en raison de la nature totalement non supervisée de leur formation.

Les méthodes existantes pour obtenir une telle maniabilité collectent des étiquettes humaines sur la qualité relative des générations de modèles et affinent le modèle de langue non supervisé pour l'aligner sur ces préférences, souvent avec l'apprentissage par apprentissage par renforcement à rétroaction humaine (ARRH).

Cependant, le ARRH est une procédure complexe et souvent instable, qui consiste d'abord à adapter un modèle de récompense qui reflète les préférences humaines, puis à affiner le grand modèle de langue non supervisé à l'aide de l'apprentissage par renforcement pour maximiser cette récompense estimée sans trop s'éloigner du modèle d'origine.

L'optimisation directe des préférences (DPO) est une paramétrisation du modèle de récompense dans le ARRH qui permet d'extraire la politique optimale correspondante sous forme fermée, ce qui permet de résoudre le problème ARRH standard avec seulement une simple perte de classification. L'algorithme résultant est stable, performant et léger en termes de calcul, éliminant le besoin d'échantillonnage à partir du modèle de langue lors du réglage fin ou de l'exécution d'un réglage important des hyperparamètres.

Français

optimisation directe des préférences

Anglais

Direct Preference Optimization

DPO

Sources

Source : arxiv