« Apprentissage par renforcement avec rétroaction humaine » : différence entre les versions

Version du 16 juin 2023 à 12:18

Définition

En apprentissage automatique, l'apprentissage par renforcement et rétroaction humaine (ARRH) est une technique qui entraîne un modèle de récompense à partir de la rétroaction humaine et utilise le modèle comme fonction de récompense pour optimiser la politique d'un agent à l'aide de l'apprentissage par renforcement grâce à un algorithme d'optimisation.

Français

apprentissage par renforcement et rétroaction humaine

apprentissage par renforcement avec rétroaction humaine

ARRH

Anglais

reinforcement learning from human feedback

RLHF

reinforcement learning from human preferences

Source : huyenchip

Source : stanford

Source: Wikipedia

Source : Journal du Net

@@ Ligne 1 : / Ligne 1 : @@
-==en construction==
 == Définition ==
 En apprentissage automatique, l'apprentissage par renforcement et rétroaction humaine (ARRH) est une technique qui entraîne un modèle de récompense à partir de la rétroaction humaine et utilise le modèle comme fonction de récompense pour optimiser la politique d'un agent à l'aide de l'[[apprentissage par renforcement]] grâce à un algorithme d'optimisation.
@@ Ligne 6 : / Ligne 4 : @@
 == Français ==
 ''' apprentissage par renforcement et rétroaction humaine '''
+''' apprentissage par renforcement avec rétroaction humaine '''
@@ Ligne 34 : / Ligne 34 : @@
 [https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback  Source: Wikipedia]
-[[Catégorie:vocabulary]]
+[https://www.journaldunet.com/solutions/dsi/1518637-chatgpt-l-intelligence-artificielle-peut-elle-tenir-ses-promesses/  Source : Journal du Net]
+[[Catégorie:Publication]]

« Apprentissage par renforcement avec rétroaction humaine » : différence entre les versions

Version du 16 juin 2023 à 12:18

Définition

Français

Anglais

« Apprentissage par renforcement avec rétroaction humaine » : différence entre les versions