« Piratage des récompenses » : différence entre les versions

Dernière version du 19 août 2025 à 16:29

Définition

Phénomène qui se produit lorsqu'une IA entraînée par l'apprentissage par renforcement optimise une fonction objective sans réellement atteindre le résultat voulu par les programmeurs, c'est-à-dire en exploitant des failles ou des comportements non voulus de la fonction.

Dans le contexte de grands modèles de langues, comme GPT-4, ce phénomène peut se manifester sous la forme d'un excès de prudence ou de l'imitation d'un style sans pour autant donner une réponse adéquate.

Voir aussi alignement de l'IA, Best-of-N Strategy et modèle de récompense

Français

problème du piratage des récompenses

piratage des récompenses

Anglais

reward hacking problem

reward hacking

specification gaming

Sources

Source : arxiv

Source : Medium

Source : Wikipedia

@@ Ligne 7 : / Ligne 7 : @@
 == Français ==
-''' Problème du piratage des récompenses'''
+''' problème du piratage des récompenses'''
-''' Piratage des récompenses'''
+''' piratage des récompenses'''
 == Anglais ==
-''' Reward Hacking Problem'''
+''' reward hacking problem'''
-''' Reward Hacking'''
+''' reward hacking'''
-''' Specification Gaming'''
+''' specification gaming'''
 == Sources ==

« Piratage des récompenses » : différence entre les versions