« Apprentissage par renforcement et rétroaction humaine » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
== Définition ==
== Définition ==
En apprentissage automatique, l'apprentissage par renforcement et rétroaction humaine (ARRH) est une technique qui entraîne un modèle de récompense à partir de la rétroaction humaine et utilise le modèle comme fonction de récompense pour optimiser la politique d'un agent à l'aide de l'[[apprentissage par renforcement]] grâce à un algorithme d'optimisation.
En [[apprentissage automatique]], l'[[apprentissage par renforcement]] et rétroaction humaine (ARRH) est une technique qui entraîne un modèle de récompense à partir de la rétroaction humaine et utilise le modèle comme fonction de récompense pour optimiser la politique d'un agent à l'aide de l'[[apprentissage par renforcement]] grâce à un algorithme d'optimisation.
 
==Compléments==
Ce type d'apprentissage est utilisé dans les générateurs de texte fondés sur les grands modèles de langue.
 


== Français ==
== Français ==

Version du 16 juin 2023 à 12:23

Définition

En apprentissage automatique, l'apprentissage par renforcement et rétroaction humaine (ARRH) est une technique qui entraîne un modèle de récompense à partir de la rétroaction humaine et utilise le modèle comme fonction de récompense pour optimiser la politique d'un agent à l'aide de l'apprentissage par renforcement grâce à un algorithme d'optimisation.

Compléments

Ce type d'apprentissage est utilisé dans les générateurs de texte fondés sur les grands modèles de langue.


Français

apprentissage par renforcement et rétroaction humaine

apprentissage par renforcement avec rétroaction humaine


ARRH


Anglais

reinforcement learning from human feedback

RLHF

reinforcement learning from human preferences



Source : huyenchip

Source : stanford

Source: Wikipedia

Source : Journal du Net