« Direct Preference Optimization » : historique des versions


Sélection du diff : cochez les boutons radio des versions à comparer et appuyez sur entrée ou sur le bouton en bas.
Légende : (actu) = différence avec la dernière version, (diff) = différence avec la version précédente, m = modification mineure.

29 janvier 2024

27 janvier 2024

30 décembre 2023

  • actudiff 10:3830 décembre 2023 à 10:38Pitpitt discussion contributions 1 836 octets +1 836 Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == ''' Direct Preference Optimization''' While large-scale unsupervised language models (LMs) learn broad world knowledge and some reasoning skills, achieving precise control of their behavior is difficult due to the completely unsupervised nature of their training. Existing methods for gaining such steerability collect human labels of the relative quality of model g... »