« Apprentissage par renforcement inverse » : différence entre les versions


Ligne 6 : Ligne 6 :


== Définition ==
== Définition ==
Apprentissage par imitation (ou Apprentissage par renforcement inverse)
En apprentissage par renforcement (''Reinforcement Learning'' ou RL), l’algorithme essaie de trouver la meilleure stratégie pour atteindre un objectif en interagissant avec l’environnement et en obtenant des « récompenses », façon de qualifier la qualité des actions prises par l’algorithme. En apprentissage par renforcement inverse (Inverse Reinforcement Learning ou IRL), l’algorithme observe un « expert » résoudre le problème et essaye d’apprendre à faire aussi bien que lui (voire mieux).
Cet expert peut être une personne ou un algorithme qui sait, a priori, résoudre le problème et peut multiplier les exemples. Cet apprentissage aussi qualifié d’apprentissage par imitation (Apprenticeship Learning) a l’avantage de ne pas nécessiter de définir de récompenses, problème compliqué et crucial en apprentissage par renforcement.
L'apprentissage par renforcement inverse, de ''Inverse Reinforcement Learning'' (IRL) consiste à dériver une fonction de récompense du comportement observé. Bien que l'apprentissage par renforcement ordinaire implique l'utilisation de récompenses et de punitions pour apprendre un comportement, en IRL la direction est inversée et un robot observe le comportement d'une personne pour déterminer l'objectif que ce comportement semble viser. Le problème IRL peut être défini comme suit:
L'apprentissage par renforcement inverse, de ''Inverse Reinforcement Learning'' (IRL) consiste à dériver une fonction de récompense du comportement observé. Bien que l'apprentissage par renforcement ordinaire implique l'utilisation de récompenses et de punitions pour apprendre un comportement, en IRL la direction est inversée et un robot observe le comportement d'une personne pour déterminer l'objectif que ce comportement semble viser. Le problème IRL peut être défini comme suit:


Étant donné 1) la mesure du comportement d'un agent dans le temps, dans diverses circonstances; 2) mesures des entrées sensorielles de cet agent; 3) un modèle de l'environnement physique (y compris le corps de l'agent): déterminez la fonction de récompense optimisée par l'agent.
Étant donné 1) la mesure du comportement d'un agent dans le temps, dans diverses circonstances; 2) mesures des entrées sensorielles de cet agent; 3) un modèle de l'environnement physique (y compris le corps de l'agent): déterminez la fonction de récompense optimisée par l'agent.
Voir '''apprentissage par renforcement'''.


== Français ==
== Français ==

Version du 14 mars 2019 à 17:42


Domaine

Vocabulaire

Définition

L'apprentissage par renforcement inverse, de Inverse Reinforcement Learning (IRL) consiste à dériver une fonction de récompense du comportement observé. Bien que l'apprentissage par renforcement ordinaire implique l'utilisation de récompenses et de punitions pour apprendre un comportement, en IRL la direction est inversée et un robot observe le comportement d'une personne pour déterminer l'objectif que ce comportement semble viser. Le problème IRL peut être défini comme suit:

Étant donné 1) la mesure du comportement d'un agent dans le temps, dans diverses circonstances; 2) mesures des entrées sensorielles de cet agent; 3) un modèle de l'environnement physique (y compris le corps de l'agent): déterminez la fonction de récompense optimisée par l'agent. Voir apprentissage par renforcement.

Français

apprentissage par renforcement inverse n.m.

apprentissage par imitation n.f.

Anglais