« Best-of-N Strategy » : différence entre les versions


(Page créée avec « == en construction == == Définition == xxxxxxx == Français == ''' XXXXXX''' Voir aussi '''reward hacking problem''' == Compléments == '' à faire'' <!--The BoN strategy does not scale with the number of samples N due to the reward hacking problem. Particularly significant in scenarios where the AI model may not have a singularly deterministic output but can benefit from generating a spectrum of possibilities to increase the chance of achieving a higher qua... »)
(Aucune différence)

Version du 26 juin 2025 à 09:51

en construction

Définition

xxxxxxx

Français

XXXXXX

Voir aussi reward hacking problem

Compléments

à faire

Anglais

Best-of-N Strategy

Best-of-N

BoN

Sources

Source : arxiv

Source : arxiv

Source : Envisioning.io

Contributeurs: Arianne Arel