Apprentissage par renforcement et rétroaction humaine
Définition
En apprentissage automatique, l'apprentissage par renforcement et rétroaction humaine (ARRH) est une technique qui entraîne un modèle de récompense à partir de la rétroaction humaine et utilise le modèle comme fonction de récompense pour optimiser la politique d'un agent à l'aide de l'apprentissage par renforcement grâce à un algorithme d'optimisation.
Français
apprentissage par renforcement et rétroaction humaine
apprentissage par renforcement avec rétroaction humaine
ARRH
Anglais
reinforcement learning from human feedback
RLHF
reinforcement learning from human preferences
Contributeurs: Arianne , Claude Coulombe, Patrick Drouin, wiki