« Apprentissage par renforcement et rétroaction humaine » : différence entre les versions
Aucun résumé des modifications |
m (Remplacement de texte : « ↵↵<small> » par « ==Sources== ») |
||
Ligne 30 : | Ligne 30 : | ||
--- | --- | ||
Learning from instructions and human feedback are thought to be at the core of recent advances in instruction following large language models (LLMs). While recent efforts such as Open Assistant, Vicuna, and Alpaca have advanced our understanding of instruction fine-tuning, the same cannot be said for RLHF-style algorithms that learn directly from human feedback. AlpacaFarm aims to address this gap by enabling fast, low-cost research and development on methods that learn from human feedback. We identify three main difficulties with studying RLHF-style algorithms: the high cost of human preference data, the lack of trustworthy evaluation, and the absence of reference implementations. --> | Learning from instructions and human feedback are thought to be at the core of recent advances in instruction following large language models (LLMs). While recent efforts such as Open Assistant, Vicuna, and Alpaca have advanced our understanding of instruction fine-tuning, the same cannot be said for RLHF-style algorithms that learn directly from human feedback. AlpacaFarm aims to address this gap by enabling fast, low-cost research and development on methods that learn from human feedback. We identify three main difficulties with studying RLHF-style algorithms: the high cost of human preference data, the lack of trustworthy evaluation, and the absence of reference implementations. --> | ||
==Sources== | |||
[https://huyenchip.com/2023/05/02/rlhf.html Source : huyenchip] | [https://huyenchip.com/2023/05/02/rlhf.html Source : huyenchip] |
Version du 27 janvier 2024 à 15:50
Définition
En apprentissage automatique, l'apprentissage par renforcement et rétroaction humaine (ARRH) est une technique qui entraîne un modèle de récompense à partir de la rétroaction humaine et utilise le modèle comme fonction de récompense pour optimiser la politique d'un agent à l'aide de l'apprentissage par renforcement grâce à un algorithme d'optimisation.
Compléments
Ce type d'apprentissage est utilisé dans les générateurs de texte fondés sur les grands modèles de langue.
Le modèle de récompense est pré-entraîné pour que la politique soit optimisée afin de prédire si une sortie est bonne (récompense élevée) ou mauvaise (récompense faible).
Français
apprentissage par renforcement et rétroaction humaine
apprentissage par renforcement avec rétroaction humaine
apprentissage par renforcement à partir de la rétroaction humaine
ARRH
Anglais
reinforcement learning from human feedback
RLHF
reinforcement learning from human preferences
==Sources==
Contributeurs: Arianne , Claude Coulombe, Patrick Drouin, wiki