« Apprentissage par renforcement et rétroaction humaine » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
==en construction==
== Définition ==
== Définition ==
En apprentissage automatique, l'apprentissage par renforcement et rétroaction humaine (ARRH) est une technique qui entraîne un modèle de récompense à partir de la rétroaction humaine et utilise le modèle comme fonction de récompense pour optimiser la politique d'un agent à l'aide de l'[[apprentissage par renforcement]] grâce à un algorithme d'optimisation.
En apprentissage automatique, l'apprentissage par renforcement et rétroaction humaine (ARRH) est une technique qui entraîne un modèle de récompense à partir de la rétroaction humaine et utilise le modèle comme fonction de récompense pour optimiser la politique d'un agent à l'aide de l'[[apprentissage par renforcement]] grâce à un algorithme d'optimisation.
Ligne 6 : Ligne 4 :
== Français ==
== Français ==
''' apprentissage par renforcement et rétroaction humaine '''
''' apprentissage par renforcement et rétroaction humaine '''
''' apprentissage par renforcement avec rétroaction humaine '''




Ligne 34 : Ligne 34 :
[https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback  Source: Wikipedia]
[https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback  Source: Wikipedia]


[[Catégorie:vocabulary]]
[https://www.journaldunet.com/solutions/dsi/1518637-chatgpt-l-intelligence-artificielle-peut-elle-tenir-ses-promesses/  Source : Journal du Net]
 
[[Catégorie:Publication]]

Version du 16 juin 2023 à 12:18

Définition

En apprentissage automatique, l'apprentissage par renforcement et rétroaction humaine (ARRH) est une technique qui entraîne un modèle de récompense à partir de la rétroaction humaine et utilise le modèle comme fonction de récompense pour optimiser la politique d'un agent à l'aide de l'apprentissage par renforcement grâce à un algorithme d'optimisation.

Français

apprentissage par renforcement et rétroaction humaine

apprentissage par renforcement avec rétroaction humaine


ARRH


Anglais

reinforcement learning from human feedback

RLHF

reinforcement learning from human preferences



Source : huyenchip

Source : stanford

Source: Wikipedia

Source : Journal du Net