Optimisation des préférences en fonction du rapport des cotes


Révision datée du 28 septembre 2024 à 12:43 par Pitpitt (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Définition

L'optimisation des préférences en fonction du rapport des cotes est une méthode monolithique et sans référence d'alignement des préférences qui simplifie l'entraînement et améliore l'évolutivité du modèle. Elle fournit aussi un moyen stable et efficace pour la différenciation entre les réponses préférées et non préférées, ce qui augmente la capacité du modèle à se concentrer sur les résultats souhaitables.

Compléments

L'optimisation des préférences en fonction du rapport des cotes établit une nouvelle norme pour le développement de systèmes d'IA qui sont à la fois efficaces, et conformes aux valeurs humaines.

Français

optimisation des préférences en fonction du rapport des cotes

Anglais

odds ratio preference optimization

ORPO 

Odds Ratio Preference Optimization (ORPO) is a reference-free monolithic preference alignment method that simplifies training, enhances scalability and provides a stable and effective means of differentiation between preferred and non-preferred responses, increasing the model’s ability to focus on desirable outputs. ORPO sets a new standard for developing AI systems that are both efficient and aligned with human values.

Source

Source : arxiv

Source : Medium

Contributeurs: Arianne , wiki