Apprentissage par renforcement et rétroaction humaine


(Redirigé depuis RLHF)

Définition

En apprentissage automatique, l'apprentissage par renforcement et rétroaction humaine (ARRH) est une technique d'amélioration des performances d'un agent à partir de rétroactions humaines.

On commence par entraîner un modèle de récompense sur des résultats annotés par des rétroactions humaines. Ensuite, on utilise ce modèle comme fonction de récompense pour améliorer la politique d'un agent à l'aide de l'apprentissage par renforcement grâce à un algorithme d'optimisation.

Compléments

Ce type d'apprentissage est utilisé dans les jeux AlphaGo et les générateurs de texte fondés sur les grands modèles de langues.


Le modèle de récompense est pré-entraîné pour que la politique soit optimisée afin de prédire si une sortie est bonne (récompense élevée) ou mauvaise (récompense faible ou pénalité).

Français

apprentissage par renforcement et rétroaction humaine

apprentissage par renforcement avec rétroaction humaine

apprentissage par renforcement à partir de la rétroaction humaine

ARRH

apprentissage par renforcement basée sur la rétroaction humaine

ARBRH

apprentissage par renforcement avec retour humain

Anglais

reinforcement learning from human feedback

RLHF

reinforcement learning from human preferences

Sources

Source : huyenchip

Source : stanford

Source: Wikipedia

Source : Journal du Net