« Apprentissage par renforcement » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 10 : | Ligne 10 : | ||
==Compléments== | ==Compléments== | ||
En gros, il existe deux approches à l'apprentissage par renforcement dépendant de l'utilisation d'un modèle (c.-à-d. une représentation formelle) de l'environnement. En l'absence d'un modèle d'environnement, on parle d'[[apprentissage par fonction Q]]. Dans le cas d'un apprentissage par renforcement avec un modèle de l'environnement, on parle d'apprentissage avec [[politique d'action]]. | |||
<hr/> | |||
L’apprentissage par renforcement se démarque de l'<nowiki/>'''[[apprentissage supervisé]]''' et de l''''[[apprentissage non supervisé]]''' par son côté interactif et itératif. L’agent intelligent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement pour découvrir la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations. | L’apprentissage par renforcement se démarque de l'<nowiki/>'''[[apprentissage supervisé]]''' et de l''''[[apprentissage non supervisé]]''' par son côté interactif et itératif. L’agent intelligent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement pour découvrir la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations. | ||
Version du 16 juin 2023 à 12:57
Définition
En apprentissage par renforcement, l’algorithme apprend un comportement à partir d’expériences répétées, de façon à optimiser les récompenses reçues au cours du temps. Tout comme l’apprentissage non supervisé, l’apprentissage par renforcement n’a pas besoin de données étiquetées.
Typiquement, un agent intelligent, qui est plongé au sein d’un environnement, prend une décision ou réalise une action en fonction de son état courant et de l’observation de son environnement. En retour de l’action de l’agent, l’environnement procure à l’agent une récompense ou une punition.
On peut voir l’apprentissage par renforcement comme un jeu d’essais et d’erreurs dont le but est de déterminer les actions qui vont maximiser les gains d’un agent intelligent. Il élaborera ainsi un comportement optimal, appelé stratégie ou politique, qui est une fonction associant à l’état courant l’action à exécuter.
Voir apprentissage par renforcement inverse
Compléments
En gros, il existe deux approches à l'apprentissage par renforcement dépendant de l'utilisation d'un modèle (c.-à-d. une représentation formelle) de l'environnement. En l'absence d'un modèle d'environnement, on parle d'apprentissage par fonction Q. Dans le cas d'un apprentissage par renforcement avec un modèle de l'environnement, on parle d'apprentissage avec politique d'action.
L’apprentissage par renforcement se démarque de l'apprentissage supervisé et de l'apprentissage non supervisé par son côté interactif et itératif. L’agent intelligent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement pour découvrir la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations.
Français
apprentissage par renforcement
Anglais
reinforcement learning
Contributeurs: Claude Coulombe, Jacques Barolet, wiki, Robert Meloche