« Reinforcement learning from human feedback » : différence entre les versions


Balise : Nouvelle redirection
 
Balise : Cible de la redirection modifiée
 
Ligne 1 : Ligne 1 :
#REDIRECTION[[Apprentissage par renforcement et rétroaction humaine]]
#REDIRECTION[[Apprentissage par renforcement avec rétroaction humaine]]


[[Catégorie:ENGLISH]]
[[Catégorie:ENGLISH]]

Dernière version du 9 février 2025 à 13:50

Contributeurs: Claude Coulombe, wiki