« Apprentissage par renforcement et rétroaction humaine » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
En apprentissage automatique, l'apprentissage par renforcement et rétroaction humaine (ARRH) est une technique qui entraîne un modèle de récompense à partir de la rétroaction humaine et utilise le modèle comme fonction de récompense pour optimiser la politique d'un agent à l'aide de l'[[apprentissage par renforcement]] grâce à un algorithme d'optimisation. | En apprentissage automatique, l'apprentissage par renforcement et rétroaction humaine (ARRH) est une technique qui entraîne un modèle de récompense à partir de la rétroaction humaine et utilise le modèle comme fonction de récompense pour optimiser la politique d'un agent à l'aide de l'[[apprentissage par renforcement]] grâce à un algorithme d'optimisation. | ||
Ligne 6 : | Ligne 4 : | ||
== Français == | == Français == | ||
''' apprentissage par renforcement et rétroaction humaine ''' | ''' apprentissage par renforcement et rétroaction humaine ''' | ||
''' apprentissage par renforcement avec rétroaction humaine ''' | |||
Ligne 34 : | Ligne 34 : | ||
[https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback Source: Wikipedia] | [https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback Source: Wikipedia] | ||
[[Catégorie: | [https://www.journaldunet.com/solutions/dsi/1518637-chatgpt-l-intelligence-artificielle-peut-elle-tenir-ses-promesses/ Source : Journal du Net] | ||
[[Catégorie:Publication]] |
Version du 16 juin 2023 à 12:18
Définition
En apprentissage automatique, l'apprentissage par renforcement et rétroaction humaine (ARRH) est une technique qui entraîne un modèle de récompense à partir de la rétroaction humaine et utilise le modèle comme fonction de récompense pour optimiser la politique d'un agent à l'aide de l'apprentissage par renforcement grâce à un algorithme d'optimisation.
Français
apprentissage par renforcement et rétroaction humaine
apprentissage par renforcement avec rétroaction humaine
ARRH
Anglais
reinforcement learning from human feedback
RLHF
reinforcement learning from human preferences
Contributeurs: Arianne , Claude Coulombe, Patrick Drouin, wiki