« Best-of-N Strategy » : différence entre les versions
(Page créée avec « == en construction == == Définition == xxxxxxx == Français == ''' XXXXXX''' Voir aussi '''reward hacking problem''' == Compléments == '' à faire'' <!--The BoN strategy does not scale with the number of samples N due to the reward hacking problem. Particularly significant in scenarios where the AI model may not have a singularly deterministic output but can benefit from generating a spectrum of possibilities to increase the chance of achieving a higher qua... ») |
(Aucune différence)
|
Version du 26 juin 2025 à 09:51
en construction
Définition
xxxxxxx
Français
XXXXXX
Voir aussi reward hacking problem
Compléments
à faire
Anglais
Best-of-N Strategy
Best-of-N
BoN
Sources
Contributeurs: Arianne Arel





