« Apprentissage par renforcement » : différence entre les versions
Aucun résumé des modifications Balise : Éditeur de wikicode 2017 |
Aucun résumé des modifications |
||
Ligne 3 : | Ligne 3 : | ||
<!-- Scotty2 --> | <!-- Scotty2 --> | ||
== Définition == | ==Définition== | ||
En apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement, et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative. L'agent cherche, au travers d'expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'état courant l'action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps. <br /> | En apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement, et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative. L'agent cherche, au travers d'expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'état courant l'action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps. <br /> | ||
L’apprentissage par renforcement diffère fondamentalement de l''''apprentissage supervisé''' et de l''''apprentissage non supervisé''' par ce côté interactif et itératif: l’agent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement (les variables) pour trouver la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations. | L’apprentissage par renforcement diffère fondamentalement de l'<nowiki/>'''apprentissage supervisé''' et de l''''apprentissage non supervisé''' par ce côté interactif et itératif: l’agent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement (les variables) pour trouver la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations. | ||
Voir [[apprentissage par renforcement inverse]] | Voir [[apprentissage par renforcement inverse|'''apprentissage par renforcement inverse''']] | ||
== Français == | ==Français== | ||
'''apprentissage par renforcement''' <small>loc. nom. masc.</small> | '''apprentissage par renforcement''' <small>loc. nom. masc.</small> | ||
== Anglais == | ==Anglais== | ||
'''reinforcement learning''' | '''reinforcement learning''' | ||
Ligne 17 : | Ligne 17 : | ||
<small> | <small> | ||
[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement ''Source: Wikipedia'' ] | [https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement ''Source: Wikipedia''] |
Version du 25 juillet 2019 à 15:38
Définition
En apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement, et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative. L'agent cherche, au travers d'expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'état courant l'action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps.
L’apprentissage par renforcement diffère fondamentalement de l'apprentissage supervisé et de l'apprentissage non supervisé par ce côté interactif et itératif: l’agent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement (les variables) pour trouver la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations.
Voir apprentissage par renforcement inverse
Français
apprentissage par renforcement loc. nom. masc.
Anglais
reinforcement learning
Contributeurs: Claude Coulombe, Jacques Barolet, wiki, Robert Meloche