Résultats de la recherche
Correspondances dans les titres des pages
- 63 octet (8 mots) - 3 novembre 2023 à 22:25
- 62 octet (9 mots) - 11 mars 2024 à 21:05
Correspondances dans le texte des pages
- ...e original model. In this paper we introduce a new parameterization of the reward model in RLHF that enables extraction of the corresponding optimal policy i2 kio (256 mots) - 29 janvier 2024 à 13:34
- '''reward '''552 octet (69 mots) - 28 janvier 2024 à 13:09
- ...gorithme d'apprentissage dont l’acronyme anglais correspond à State-Action-Reward-State-Action, en français: État-Action-Récompense-État-Action. Il s'agi ''' State–action–reward–state–action'''715 octet (81 mots) - 28 janvier 2024 à 13:18
- '''reward function'''1 kio (164 mots) - 27 janvier 2024 à 22:45
- '''reward model'''2 kio (352 mots) - 11 mars 2024 à 21:05