« Apprentissage par Renforcement avec retour humain » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
(3 versions intermédiaires par un autre utilisateur non affichées) | |||
Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Pour pitpit: la page existe déjà (voir la page Apprentissage par renforcement et rétroaction humaine). Redirection à faire? | |||
{{#evt: service=youtube |id=https://www.youtube.com/watch?v=z7n8bkVynzo }} | {{#evt: service=youtube |id=https://www.youtube.com/watch?v=z7n8bkVynzo }} | ||
Ligne 11 : | Ligne 12 : | ||
== Anglais == | == Anglais == | ||
''' xxxxx ''' | ''' xxxxx ''' | ||
==Sources== | ==Sources== | ||
[https://www.louisbouchard.ca/blog-ia/rlhf-et-rlaif PARLONS IA ] | [https://www.louisbouchard.ca/blog-ia/rlhf-et-rlaif PARLONS IA ] |
Dernière version du 3 octobre 2024 à 17:18
en construction
Définition
Pour pitpit: la page existe déjà (voir la page Apprentissage par renforcement et rétroaction humaine). Redirection à faire?
Français
Apprentissage par Renforcement avec retour humain
RLHF
Anglais
xxxxx