« Apprentissage par renforcement » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 1 : | Ligne 1 : | ||
==Définition== | ==Définition== | ||
En apprentissage | En apprentissage par renforcement (reinforcement learning), l'algorithme apprend un comportement à partir d'expériences répétées de façon à optimiser les récompenses reçues au cours du temps. Tout comme l'[https://datafranca.org/wiki/Apprentissage_non_supervis%C3%A9 apprentissage non-supervisé,] l'apprentissage par renforcement n'a pas besoin de données étiquetées. | ||
Typiquement, un agent intelligent, qui est plongé au sein d'un environnement, prend une décision ou réalise une action en fonction de son état courant et de l'observation de l'environnement. En retour de l'action de l'agent, l'environnement procure à l'agent une récompense ou une punition. | |||
On peut voir l'apprentissage par renforcement comme un jeu d'essais et d’erreurs dont le but est de déterminer les actions qui maximiseront les gains d'un agent intelligent afin d'élaborer un comportement optimal, appelé stratégie ou politique, qui est une fonction associant à l'état courant l'action à exécuter. | |||
L’apprentissage par renforcement se démarque de l’apprentissage supervisé et de l’apprentissage non supervisé par cette exploration qui le conduit à la découverte de la meilleure stratégie; pour y arriver, l’agent explore plusieurs solutions, observe la réaction de l’environnement, et adapte son comportement. | |||
<hr/> | |||
Complément: | |||
L’apprentissage par renforcement diffère fondamentalement de l'<nowiki/>'''[[apprentissage supervisé]]''' et de l''''[[apprentissage non supervisé]]''' par ce côté interactif et itératif: l’agent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement (les variables) pour trouver la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations. | L’apprentissage par renforcement diffère fondamentalement de l'<nowiki/>'''[[apprentissage supervisé]]''' et de l''''[[apprentissage non supervisé]]''' par ce côté interactif et itératif: l’agent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement (les variables) pour trouver la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations. | ||
Ligne 34 : | Ligne 42 : | ||
[[Catégorie:GDT]] | [[Catégorie:GDT]] | ||
[[Catégorie:Apprentissage automatique]] | |||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] | ||
[[Catégorie:101]] | [[Catégorie:101]] | ||
[[Catégorie:PUBLICATION]] |
Version du 3 août 2022 à 14:53
Définition
En apprentissage par renforcement (reinforcement learning), l'algorithme apprend un comportement à partir d'expériences répétées de façon à optimiser les récompenses reçues au cours du temps. Tout comme l'apprentissage non-supervisé, l'apprentissage par renforcement n'a pas besoin de données étiquetées.
Typiquement, un agent intelligent, qui est plongé au sein d'un environnement, prend une décision ou réalise une action en fonction de son état courant et de l'observation de l'environnement. En retour de l'action de l'agent, l'environnement procure à l'agent une récompense ou une punition.
On peut voir l'apprentissage par renforcement comme un jeu d'essais et d’erreurs dont le but est de déterminer les actions qui maximiseront les gains d'un agent intelligent afin d'élaborer un comportement optimal, appelé stratégie ou politique, qui est une fonction associant à l'état courant l'action à exécuter.
L’apprentissage par renforcement se démarque de l’apprentissage supervisé et de l’apprentissage non supervisé par cette exploration qui le conduit à la découverte de la meilleure stratégie; pour y arriver, l’agent explore plusieurs solutions, observe la réaction de l’environnement, et adapte son comportement.
Complément:
L’apprentissage par renforcement diffère fondamentalement de l'apprentissage supervisé et de l'apprentissage non supervisé par ce côté interactif et itératif: l’agent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement (les variables) pour trouver la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations.
Voir apprentissage par renforcement inverse
Français
apprentissage par renforcement
Anglais
reinforcement learning
Compléments vidéos
- IT 6.S191: Reinforcement Learning
- Reinforcement Learning: Machine Learning Meets Control Theory
- Deep Reinforcement Learning: Neural Networks for Learning Control Laws
- Q Learning Explained | Reinforcement Learning Using Python
- Reinforcement Learning Full Course
- MIT 6.S091: Introduction to Deep Reinforcement Learning
- Stanford CS234: Reinforcement Learning
- An introduction to Reinforcement Learning
- Reinforcement Learning: Crash Course AI#9
- MIT 6.S191 (2019): Deep Reinforcement Learning
Contributeurs: Claude Coulombe, Jacques Barolet, wiki, Robert Meloche