« Apprentissage par renforcement inverse » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
(12 versions intermédiaires par 4 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
==Définition== | ==Définition== | ||
L'apprentissage par renforcement inverse ('' | L'apprentissage par renforcement inverse (''inverse reinforcement learning'' ou ''IRL'' en anglais) consiste à dériver une '''[[fonction de récompense]]''' du comportement observé. Bien que l''''[[apprentissage par renforcement]]''' ordinaire implique l'utilisation de récompenses et de punitions pour apprendre un comportement, en IRL la direction est inversée et un '''[[robot]]''' observe le comportement d'une personne pour déterminer l'objectif que ce comportement semble viser. Le problème IRL peut être défini comme suit: | ||
Étant donné | Étant donné | ||
* la mesure du comportement d'un agent dans le temps, dans diverses circonstances; | * la mesure du comportement d'un agent dans le temps, dans diverses circonstances; | ||
* mesures des entrées sensorielles de cet agent; | * mesures des entrées sensorielles de cet agent; | ||
* un modèle de l'environnement physique (y compris le corps de l'agent): déterminez la fonction de récompense optimisée par l'agent. | * un modèle de l'environnement physique (y compris le corps de l'agent): déterminez la fonction de récompense optimisée par l'agent. | ||
==Français== | ==Français== | ||
Ligne 15 : | Ligne 13 : | ||
==Anglais== | ==Anglais== | ||
'''inverse reinforcement learning''' | |||
'''inverse reinforcement learning | |||
'''IRL''' | '''IRL''' | ||
==Sources== | |||
[https://en.wikipedia.org/wiki/Apprenticeship_learning Source : Wikipedia] | |||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] | |||
[[Catégorie: | [[Catégorie:101]] |
Dernière version du 15 janvier 2025 à 20:13
Définition
L'apprentissage par renforcement inverse (inverse reinforcement learning ou IRL en anglais) consiste à dériver une fonction de récompense du comportement observé. Bien que l'apprentissage par renforcement ordinaire implique l'utilisation de récompenses et de punitions pour apprendre un comportement, en IRL la direction est inversée et un robot observe le comportement d'une personne pour déterminer l'objectif que ce comportement semble viser. Le problème IRL peut être défini comme suit:
Étant donné
- la mesure du comportement d'un agent dans le temps, dans diverses circonstances;
- mesures des entrées sensorielles de cet agent;
- un modèle de l'environnement physique (y compris le corps de l'agent): déterminez la fonction de récompense optimisée par l'agent.
Français
apprentissage par renforcement inverse
apprentissage par imitation
Anglais
inverse reinforcement learning
IRL
Sources
Contributeurs: Arianne , Evan Brach, Claire Gorjux, Claude Coulombe, Jacques Barolet, wiki
![](/wiki/annonces/DF annonce FB.jpg)