« Reinforcement learning from human preferences » : différence entre les versions


Contributeurs: Claude Coulombe, wiki