« Piratage des récompenses » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| Ligne 7 : | Ligne 7 : | ||
== Français == | == Français == | ||
''' | ''' problème du piratage des récompenses''' | ||
''' | ''' piratage des récompenses''' | ||
== Anglais == | == Anglais == | ||
''' | ''' reward hacking problem''' | ||
''' | ''' reward hacking''' | ||
''' | ''' specification gaming''' | ||
== Sources == | == Sources == | ||
Dernière version du 19 août 2025 à 16:29
Définition
Phénomène qui se produit lorsqu'une IA entraînée par l'apprentissage par renforcement optimise une fonction objective sans réellement atteindre le résultat voulu par les programmeurs, c'est-à-dire en exploitant des failles ou des comportements non voulus de la fonction.
Dans le contexte de grands modèles de langues, comme GPT-4, ce phénomène peut se manifester sous la forme d'un excès de prudence ou de l'imitation d'un style sans pour autant donner une réponse adéquate.
Voir aussi alignement de l'IA, Best-of-N Strategy et modèle de récompense
Français
problème du piratage des récompenses
piratage des récompenses
Anglais
reward hacking problem
reward hacking
specification gaming
Sources
Contributeurs: Arianne Arel, wiki





