Best-of-N Strategy - Historique des versions

Arianne le 19 août 2025 à 21:31

2025-08-19T21:31:06Z

← Version précédente		Version du 19 août 2025 à 17:31
Ligne 4 :		Ligne 4 :
	Stratégie d'échantillonnage qui consiste à générer ''N'' sorties à partir d'un '''[[modèle]]''' et à sélectionner la meilleure sortie parmi les ''N'' échantillons à l'aide d'une '''[[fonction de récompense]]''' ou d'un critère prédéfini selon un '''[[modèle de récompense]]'''. Cette méthode ne nécessite pas de phase d''''[[entraînement]]''' supplémentaire.		Stratégie d'échantillonnage qui consiste à générer ''N'' sorties à partir d'un '''[[modèle]]''' et à sélectionner la meilleure sortie parmi les ''N'' échantillons à l'aide d'une '''[[fonction de récompense]]''' ou d'un critère prédéfini selon un '''[[modèle de récompense]]'''. Cette méthode ne nécessite pas de phase d''''[[entraînement]]''' supplémentaire.

	Voir aussi '''~~reward hacking problem~~''' et '''[[~~fonction de distance de Kullback-Leibler~~]]'''		Voir aussi '''[[fonction de distance de Kullback-Leibler]]''' et '''[[piratage des récompenses]]'''

	== Français ==		== Français ==
Ligne 10 :		Ligne 10 :

	== Compléments ==		== Compléments ==
	Cette stratégie ne s'adapte pas au nombre d'échantillons ''N'' en raison du ~~problème de~~ '''piratage ~~de la récompense~~'''. Cela est particulièrement important dans les scénarios où le '''[[Intelligence artificielle\|modèle d'intelligence artificielle]]''' ne peut avoir un résultat déterministe unique, mais peut bénéficier de la génération d'un spectre de possibilités pour augmenter les chances d'obtenir un résultat de meilleure qualité ou plus pertinent sur le plan contextuel.		Cette stratégie ne s'adapte pas au nombre d'échantillons ''N'' en raison du '''[[Piratage des récompenses\|problème du piratage des récompenses]]'''. Cela est particulièrement important dans les scénarios où le '''[[Intelligence artificielle\|modèle d'intelligence artificielle]]''' ne peut avoir un résultat déterministe unique, mais peut bénéficier de la génération d'un spectre de possibilités pour augmenter les chances d'obtenir un résultat de meilleure qualité ou plus pertinent sur le plan contextuel.
	<hr/>		<hr/>
	Ses applications sont multiples : '''[[génération automatique de textes]]''', '''[[Reconnaissance automatique de la parole\|reconnaissance vocale]]''' ou synthèse d'images.		Ses applications sont multiples : '''[[génération automatique de textes]]''', '''[[Reconnaissance automatique de la parole\|reconnaissance vocale]]''' ou synthèse d'images.

Arianne le 29 juin 2025 à 18:52

2025-06-29T18:52:07Z

← Version précédente		Version du 29 juin 2025 à 14:52
Ligne 4 :		Ligne 4 :
	Stratégie d'échantillonnage qui consiste à générer ''N'' sorties à partir d'un '''[[modèle]]''' et à sélectionner la meilleure sortie parmi les ''N'' échantillons à l'aide d'une '''[[fonction de récompense]]''' ou d'un critère prédéfini selon un '''[[modèle de récompense]]'''. Cette méthode ne nécessite pas de phase d''''[[entraînement]]''' supplémentaire.		Stratégie d'échantillonnage qui consiste à générer ''N'' sorties à partir d'un '''[[modèle]]''' et à sélectionner la meilleure sortie parmi les ''N'' échantillons à l'aide d'une '''[[fonction de récompense]]''' ou d'un critère prédéfini selon un '''[[modèle de récompense]]'''. Cette méthode ne nécessite pas de phase d''''[[entraînement]]''' supplémentaire.

	Voir aussi '''reward hacking problem'''		Voir aussi '''reward hacking problem''' et '''[[fonction de distance de Kullback-Leibler]]'''

	== Français ==		== Français ==

Arianne le 26 juin 2025 à 16:48

2025-06-26T16:48:10Z

← Version précédente		Version du 26 juin 2025 à 12:48
Ligne 2 :		Ligne 2 :

	== Définition ==		== Définition ==
	~~xxxxxxx~~		Stratégie d'échantillonnage qui consiste à générer ''N'' sorties à partir d'un '''[[modèle]]''' et à sélectionner la meilleure sortie parmi les ''N'' échantillons à l'aide d'une '''[[fonction de récompense]]''' ou d'un critère prédéfini selon un '''[[modèle de récompense]]'''. Cette méthode ne nécessite pas de phase d''''[[entraînement]]''' supplémentaire.

			Voir aussi '''reward hacking problem'''

	== Français ==		== Français ==
	''' XXXXXX'''		''' XXXXXX'''

	~~Voir aussi '''reward hacking problem'''~~

	== Compléments ==		== Compléments ==
	'' ~~à faire~~''		Cette stratégie ne s'adapte pas au nombre d'échantillons ''N'' en raison du problème de '''piratage de la récompense'''. Cela est particulièrement important dans les scénarios où le '''[[Intelligence artificielle\|modèle d'intelligence artificielle]]''' ne peut avoir un résultat déterministe unique, mais peut bénéficier de la génération d'un spectre de possibilités pour augmenter les chances d'obtenir un résultat de meilleure qualité ou plus pertinent sur le plan contextuel.
	<!--The BoN strategy does not scale with the number of samples N due to the reward hacking problem. Particularly significant in scenarios where the AI model may not have a singularly deterministic output but can benefit from generating a spectrum of possibilities to increase the chance of achieving a higher quality or more contextually relevant result.		<hr/>
			Ses applications sont multiples : '''[[génération automatique de textes]]''', '''[[Reconnaissance automatique de la parole\|reconnaissance vocale]]''' ou synthèse d'images.

	Its applications are broad, including text generation, voice recognition, or image synthesis, where the diversity among outputs can lead to significant improvements in performance or user satisfaction.-->
	== Anglais ==		== Anglais ==
	''' Best-of-N Strategy'''		''' Best-of-N Strategy'''
Ligne 21 :		Ligne 21 :
	''' BoN'''		''' BoN'''
	<!--Sampling strategy that involves generating N outputs from a model and selecting the most preferred output among the N samples with the help of a reward function or predefined criterion according to a process reward model. This method does not require an additional training phase.-->		<!--Sampling strategy that involves generating N outputs from a model and selecting the most preferred output among the N samples with the help of a reward function or predefined criterion according to a process reward model. This method does not require an additional training phase.-->
			<!--The BoN strategy does not scale with the number of samples N due to the reward hacking problem. Particularly significant in scenarios where the AI model may not have a singularly deterministic output but can benefit from generating a spectrum of possibilities to increase the chance of achieving a higher quality or more contextually relevant result.

			Its applications are broad, including text generation, voice recognition, or image synthesis, where the diversity among outputs can lead to significant improvements in performance or user satisfaction.-->
	== Sources ==		== Sources ==
	[https://arxiv.org/html/2502.12668v1 Source : arxiv]		[https://arxiv.org/html/2502.12668v1 Source : arxiv]

Arianne : Page créée avec « == en construction == == Définition == xxxxxxx == Français == ''' XXXXXX''' Voir aussi '''reward hacking problem''' == Compléments == '' à faire''

Best-of-N Strategy - Historique des versions

Arianne le 19 août 2025 à 21:31

Arianne le 29 juin 2025 à 18:52

Arianne le 26 juin 2025 à 16:48

Arianne : Page créée avec « == en construction == == Définition == xxxxxxx == Français == ''' XXXXXX''' Voir aussi '''reward hacking problem''' == Compléments == '' à faire''

Arianne : Page créée avec « == en construction == == Définition == xxxxxxx == Français == ''' XXXXXX''' Voir aussi '''reward hacking problem''' == Compléments == '' à faire''