« Piratage des récompenses » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
Ligne 7 : Ligne 7 :


== Français ==
== Français ==
''' Problème du piratage des récompenses'''
''' problème du piratage des récompenses'''


''' Piratage des récompenses'''
''' piratage des récompenses'''


== Anglais ==
== Anglais ==
''' Reward Hacking Problem'''
''' reward hacking problem'''


''' Reward Hacking'''
''' reward hacking'''


''' Specification Gaming'''
''' specification gaming'''


== Sources ==
== Sources ==

Dernière version du 19 août 2025 à 16:29

Définition

Phénomène qui se produit lorsqu'une IA entraînée par l'apprentissage par renforcement optimise une fonction objective sans réellement atteindre le résultat voulu par les programmeurs, c'est-à-dire en exploitant des failles ou des comportements non voulus de la fonction.

Dans le contexte de grands modèles de langues, comme GPT-4, ce phénomène peut se manifester sous la forme d'un excès de prudence ou de l'imitation d'un style sans pour autant donner une réponse adéquate.

Voir aussi alignement de l'IA, Best-of-N Strategy et modèle de récompense

Français

problème du piratage des récompenses

piratage des récompenses

Anglais

reward hacking problem

reward hacking

specification gaming

Sources

Source : arxiv

Source : Medium

Source : Wikipedia

Contributeurs: Arianne Arel, wiki