Résultats de la recherche

Correspondances dans les titres des pages

Direct Preference Optimization
...e original model. In this paper we introduce a new parameterization of the reward model in RLHF that enables extraction of the corresponding optimal policy i

2 kio (256 mots) - 29 janvier 2024 à 13:34
Récompenser
'''reward '''

552 octet (69 mots) - 28 janvier 2024 à 13:09
SARSA
...gorithme d'apprentissage dont l’acronyme anglais correspond à State-Action-Reward-State-Action, en français: État-Action-Récompense-État-Action. Il s'agi ''' State–action–reward–state–action'''

715 octet (81 mots) - 28 janvier 2024 à 13:18
Fonction de récompense
'''reward function'''

1 kio (164 mots) - 27 janvier 2024 à 22:45
Modèle de récompense
'''reward model'''

2 kio (352 mots) - 11 mars 2024 à 21:05