« Optimisation directe des préférences » : différence entre les versions


m (Remplacement de texte : « ↵↵↵↵ » par «   »)
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
==en construction==
== Définition ==
Alors que les modèles de langage non supervisés à grande échelle acquièrent une connaissance générale du monde et certaines compétences de raisonnement, il est difficile d'obtenir un contrôle précis de leur comportement en raison de la nature totalement non supervisée de leur formation.
 
Les méthodes existantes pour obtenir une telle maniabilité collectent des étiquettes humaines sur la qualité relative des générations de modèles et affinent le modèle de langue non supervisé pour l'aligner sur ces préférences, souvent avec l'apprentissage par apprentissage par renforcement à rétroaction humaine (ARRH).
 
Cependant, le ARRH est une procédure complexe et souvent instable, qui consiste d'abord à adapter un modèle de récompense qui reflète les préférences humaines, puis à affiner le grand modèle de langue non supervisé à l'aide de l'apprentissage par renforcement pour maximiser cette récompense estimée sans trop s'éloigner du modèle d'origine.


== Définition ==
L'optimisation directe des préférences (DPO) est une paramétrisation du modèle de récompense dans le ARRH qui permet d'extraire la politique optimale correspondante sous forme fermée, ce qui permet de résoudre le problème ARRH standard avec seulement une simple perte de classification. L'algorithme résultant est stable, performant et léger en termes de calcul, éliminant le besoin d'échantillonnage à partir du modèle de langue lors du réglage fin ou de l'exécution d'un réglage important des hyperparamètres.
XXXXXXXXX


== Français ==
== Français ==
''' XXXXXXXXX '''
''' optimisation directe des préférences '''


== Anglais ==
== Anglais ==
''' Direct Preference Optimization'''
''' Direct Preference Optimization '''
 
''' DPO '''
While large-scale unsupervised language models (LMs) learn broad world knowledge and some reasoning skills, achieving precise control of their behavior is difficult due to the completely unsupervised nature of their training. Existing methods for gaining such steerability collect human labels of the relative quality of model generations and fine-tune the unsupervised LM to align with these preferences, often with reinforcement learning from human feedback (RLHF). However, RLHF is a complex and often unstable procedure, first fitting a reward model that reflects the human preferences, and then fine-tuning the large unsupervised LM using reinforcement learning to maximize this estimated reward without drifting too far from the original model. In this paper we introduce a new parameterization of the reward model in RLHF that enables extraction of the corresponding optimal policy in closed form, allowing us to solve the standard RLHF problem with only a simple classification loss. The resulting algorithm, which we call Direct Preference Optimization (DPO), is stable, performant, and computationally lightweight, eliminating the need for sampling from the LM during fine-tuning or performing significant hyperparameter tuning. Our experiments show that DPO can fine-tune LMs to align with human preferences as well as or better than existing methods. Notably, fine-tuning with DPO exceeds PPO-based RLHF in ability to control sentiment of generations, and matches or improves response quality in summarization and single-turn dialogue while being substantially simpler to implement and train.


==Sources==
==Sources==


[https://arxiv.org/abs/2305.18290  Source : arxiv ]
[https://arxiv.org/abs/2305.18290  Source : arxiv ]


[[Catégorie:vocabulary]]
[[Catégorie:vocabulary]]

Version du 26 août 2024 à 12:57

Définition

Alors que les modèles de langage non supervisés à grande échelle acquièrent une connaissance générale du monde et certaines compétences de raisonnement, il est difficile d'obtenir un contrôle précis de leur comportement en raison de la nature totalement non supervisée de leur formation.

Les méthodes existantes pour obtenir une telle maniabilité collectent des étiquettes humaines sur la qualité relative des générations de modèles et affinent le modèle de langue non supervisé pour l'aligner sur ces préférences, souvent avec l'apprentissage par apprentissage par renforcement à rétroaction humaine (ARRH).

Cependant, le ARRH est une procédure complexe et souvent instable, qui consiste d'abord à adapter un modèle de récompense qui reflète les préférences humaines, puis à affiner le grand modèle de langue non supervisé à l'aide de l'apprentissage par renforcement pour maximiser cette récompense estimée sans trop s'éloigner du modèle d'origine.

L'optimisation directe des préférences (DPO) est une paramétrisation du modèle de récompense dans le ARRH qui permet d'extraire la politique optimale correspondante sous forme fermée, ce qui permet de résoudre le problème ARRH standard avec seulement une simple perte de classification. L'algorithme résultant est stable, performant et léger en termes de calcul, éliminant le besoin d'échantillonnage à partir du modèle de langue lors du réglage fin ou de l'exécution d'un réglage important des hyperparamètres.

Français

optimisation directe des préférences

Anglais

Direct Preference Optimization DPO

Sources

Source : arxiv

Contributeurs: Louis Bouchard, wiki