« Apprentissage par renforcement inverse » : différence entre les versions

Dernière version du 18 avril 2026 à 11:14

Définition

L'apprentissage par renforcement inverse (inverse reinforcement learning ou IRL en anglais) consiste à dériver une fonction de récompense du comportement observé. Bien que l'apprentissage par renforcement ordinaire implique l'utilisation de récompenses et de punitions pour apprendre un comportement, en IRL la direction est inversée et un robot observe le comportement d'une personne pour déterminer l'objectif que ce comportement semble viser. Le problème IRL peut être défini comme suit:

Étant donné

la mesure du comportement d'un agent dans le temps, dans diverses circonstances;
mesures des entrées sensorielles de cet agent;
un modèle de l'environnement physique (y compris le corps de l'agent): déterminez la fonction de récompense optimisée par l'agent.

Français

apprentissage par renforcement inverse

apprentissage par imitation

Anglais

inverse reinforcement learning

IRL

Inverse reinforcement learning (IRL) involves deriving a reward function from observed behavior. While ordinary reinforcement learning involves the use of rewards and punishments to learn a behavior, in IRL the direction is reversed and a robot observes a person's behavior to determine what goal that behavior appears to be aiming at

Español

aprendizaje por refuerzo inverso

El aprendizaje por refuerzo inverso consiste en derivar una función de recompensa a partir del comportamiento observado. Mientras que el aprendizaje por refuerzo ordinario implica el uso de recompensas y castigos para aprender un comportamiento, en el aprendizaje por refuerzo inverso la dirección se invierte y un robot observa el comportamiento de una persona para determinar qué objetivo parece perseguir ese comportamiento.

Sources

Source : Wikipedia

101 MOTS DE L' IA
Ce terme est sélectionné pour le livre « Les 101 mots de l'intelligence artificielle »

@@ Ligne 1 : / Ligne 1 : @@
 ==Définition==
-L'apprentissage par renforcement inverse (''Inverse Reinforcement Learning'' ) consiste à dériver une [[fonction de récompense]] du comportement observé. Bien que l'apprentissage par renforcement ordinaire implique l'utilisation de récompenses et de punitions pour apprendre un comportement, en IRL la direction est inversée et un robot observe le comportement d'une personne pour déterminer l'objectif que ce comportement semble viser. Le problème IRL peut être défini comme suit:
+L'apprentissage par renforcement inverse (''inverse reinforcement learning'' ou ''IRL'' en anglais) consiste à dériver une '''[[fonction de récompense]]''' du comportement observé. Bien que l''''[[apprentissage par renforcement]]''' ordinaire implique l'utilisation de récompenses et de punitions pour apprendre un comportement, en IRL la direction est inversée et un '''[[robot]]''' observe le comportement d'une personne pour déterminer l'objectif que ce comportement semble viser. Le problème IRL peut être défini comme suit:
 Étant donné
 * la mesure du comportement d'un agent dans le temps, dans diverses circonstances;
 * mesures des entrées sensorielles de cet agent;
 * un modèle de l'environnement physique (y compris le corps de l'agent): déterminez la fonction de récompense optimisée par l'agent.
-Voir '''[[apprentissage par renforcement]]'''
 ==Français==
@@ Ligne 15 : / Ligne 13 : @@
 ==Anglais==
+'''inverse reinforcement learning'''
-'''inverse reinforcement learning
+'''IRL'''
-'''IRL'''
+Inverse reinforcement learning (IRL) involves deriving a reward function from observed behavior. While ordinary reinforcement learning involves the use of rewards and punishments to learn a behavior, in IRL the direction is reversed and a robot observes a person's behavior to determine what goal that behavior appears to be aiming at
+==Español==
+[[Catégorie:es]]
+''''' aprendizaje por refuerzo inverso '''''
+''El aprendizaje por refuerzo inverso consiste en derivar una función de recompensa a partir del comportamiento observado. Mientras que el aprendizaje por refuerzo ordinario implica el uso de recompensas y castigos para aprender un comportamiento, en el aprendizaje por refuerzo inverso la dirección se invierte y un robot observa el comportamiento de una persona para determinar qué objetivo parece perseguir ese comportamiento.
+''
 ==Sources==
+[https://en.wikipedia.org/wiki/Apprenticeship_learning   Source : Wikipedia]
+{{Modèle:101}}
+[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
-[https://en.wikipedia.org/wiki/Apprenticeship_learning ''Source: Wikipedia'']
-[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
+[[Catégorie:101]]

« Apprentissage par renforcement inverse » : différence entre les versions