Résultats de la recherche


Correspondances dans les titres des pages

Correspondances dans le texte des pages

  • ...e original model. In this paper we introduce a new parameterization of the reward model in RLHF that enables extraction of the corresponding optimal policy i
    2 kio (256 mots) - 29 janvier 2024 à 13:34
  • '''reward '''
    552 octet (69 mots) - 28 janvier 2024 à 13:09
  • ...gorithme d'apprentissage dont l’acronyme anglais correspond à State-Action-Reward-State-Action, en français: État-Action-Récompense-État-Action. Il s'agi ''' State–action–reward–state–action'''
    715 octet (81 mots) - 28 janvier 2024 à 13:18
  • '''reward function'''
    1 kio (164 mots) - 27 janvier 2024 à 22:45
  • '''reward model'''
    2 kio (352 mots) - 11 mars 2024 à 21:05