« Apprentissage par renforcement et rétroaction humaine » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 4 : | Ligne 4 : | ||
==Compléments== | ==Compléments== | ||
Ce type d'apprentissage est utilisé dans les générateurs de texte fondés sur les grands modèles de langue. | Ce type d'apprentissage est utilisé dans les générateurs de texte fondés sur les grands modèles de langue. | ||
<!--L'apprentissage par renforcement à partir de la rétroaction humaine (ARRH) est une technique qui entraîne un modèle de récompense à partir de la rétroaction humaine et utilise ce modèle comme fonction de récompense pour optimiser la politique d'un agent à l'aide de l'apprentissage par renforcement (RL) grâce à un algorithme d'optimisation. Le modèle de récompense est formé à l'avance pour que la politique soit optimisée afin de prédire si une sortie donnée est bonne (récompense élevée) ou mauvaise (récompense faible). RLHF peut améliorer la robustesse et l'exploration des agents RL, en particulier lorsque la fonction de récompense est clairsemée ou bruyante. --> | |||
Ligne 11 : | Ligne 13 : | ||
''' apprentissage par renforcement avec rétroaction humaine ''' | ''' apprentissage par renforcement avec rétroaction humaine ''' | ||
''' apprentissage par renforcement à partir de la rétroaction humaine ''' | |||
'''ARRH''' | '''ARRH''' |
Version du 16 juin 2023 à 12:40
Définition
En apprentissage automatique, l'apprentissage par renforcement et rétroaction humaine (ARRH) est une technique qui entraîne un modèle de récompense à partir de la rétroaction humaine et utilise le modèle comme fonction de récompense pour optimiser la politique d'un agent à l'aide de l'apprentissage par renforcement grâce à un algorithme d'optimisation.
Compléments
Ce type d'apprentissage est utilisé dans les générateurs de texte fondés sur les grands modèles de langue.
Français
apprentissage par renforcement et rétroaction humaine
apprentissage par renforcement avec rétroaction humaine
apprentissage par renforcement à partir de la rétroaction humaine
ARRH
Anglais
reinforcement learning from human feedback
RLHF
reinforcement learning from human preferences
Contributeurs: Arianne , Claude Coulombe, Patrick Drouin, wiki