« Apprentissage par renforcement » : différence entre les versions

Dernière version du 9 juillet 2024 à 14:57

Définition

En apprentissage par renforcement, l’algorithme apprend un comportement à partir d’expériences répétées, de façon à optimiser les récompenses reçues au cours du temps. Tout comme l’apprentissage non supervisé, l’apprentissage par renforcement n’a pas besoin de données étiquetées.

Typiquement, un agent intelligent, qui est plongé au sein d’un environnement, prend une décision ou réalise une action en fonction de son état courant et de l’observation de son environnement. En retour de l’action de l’agent, l’environnement procure à l’agent une récompense ou une punition.

On peut voir l’apprentissage par renforcement comme un jeu d’essais et d’erreurs dont le but est de déterminer les actions qui vont maximiser les gains d’un agent intelligent. Il élaborera ainsi un comportement optimal, appelé stratégie ou politique, qui est une fonction associant à l’état courant l’action à exécuter.

Voir aussi:

apprentissage par fonction Q
apprentissage avec politique d'action.
apprentissage par renforcement inverse

Compléments

En gros, il existe deux approches à l'apprentissage par renforcement: celles qui se basent sur un modèle (en anglais, model-based), c.-à-d. une représentation formelle de l'environnement, et celles qui n'utilisent pas de modèle (en anglais, model-free).

L’apprentissage par renforcement se démarque de l'apprentissage supervisé et de l'apprentissage non supervisé par son côté interactif et itératif. L’agent intelligent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement pour découvrir la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations (exploitation).

Français

apprentissage par renforcement

Anglais

reinforcement learning

Sources

Source: Wikipedia

101 MOTS DE L' IA
Ce terme est sélectionné pour le livre « Les 101 mots de l'intelligence artificielle »

@@ Ligne 1 : / Ligne 1 : @@
-__NOTOC__
+==Définition==
-== Domaine ==
+En apprentissage par renforcement, l’algorithme apprend un comportement à partir d’expériences répétées, de façon à optimiser les récompenses reçues au cours du temps. Tout comme l’[[Apprentissage non supervisé|apprentissage non supervisé,]] l’apprentissage par renforcement n’a pas besoin de données étiquetées.
-[[Category:intelligence artificielle]]intelligence artificielle<br />
-[[Category:GDT]]GDT<br />
-[[Category:GRAND LEXIQUE FRANÇAIS]]GRAND LEXIQUE FRANÇAIS<br />
-<br />
-== Définition ==
+Typiquement, un agent intelligent, qui est plongé au sein d’un environnement, prend une décision ou réalise une action en fonction de son état courant et de l’observation de son environnement. En retour de l’action de l’agent, l’environnement procure à l’agent une récompense ou une punition.
-L’apprentissage par renforcement (pour Reinforcement Learning) fait référence à une classe de problèmes d’apprentissage automatique, dont le but est d’apprendre, à partir d’expériences successives, ce qu’il convient de faire de façon à trouver la meilleure solution.
-Dans un tel apprentissage, on dit qu’un « agent », l’algorithme, interagit avec « l’environnement » pour trouver la solution optimale. L’apprentissage par renforcement diffère fondamentalement de l'apprentissage supervisé et de l'apprentissage non supervisé par ce côté interactif et itératif: l’agent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement (les variables) pour trouver la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations.
+On peut voir l’apprentissage par renforcement comme un jeu d’essais et d’erreurs dont le but est de déterminer les actions qui vont maximiser les gains d’un agent intelligent. Il élaborera ainsi un comportement optimal, appelé stratégie ou politique, qui est une fonction associant à l’état courant l’action à exécuter.
-Notes
+Voir aussi:
-L'apprentissage par renforcement s'oppose à l'apprentissage supervisé et à l'apprentissage non supervisé.
-Cette méthode d'apprentissage nécessite de très nombreux essais et erreurs.
-L'apprentissage par renforcement est utilisé par exemple pour entraîner des machines à jouer à des jeux.
-<br />
-<br />
-== Français ==
+* [[apprentissage par fonction Q]]
-=== apprentissage par renforcement   n. m. ===
+* apprentissage avec [[politique d'action]].
-<br />
+* [[apprentissage par renforcement inverse|'''apprentissage par renforcement inverse''']]
-<br />
-== Anglais ==
+==Compléments==
-=== reinforcement learning    ===
+En gros, il existe deux approches à l'apprentissage par renforcement: celles qui se [[Apprentissage par renforcement à base de modèles|basent sur un modèle]] (en anglais, ''model-based''), c.-à-d. une représentation formelle de l'environnement, et celles qui n'utilisent [[Apprentissage par renforcement sans modèle|pas de modèle]] (en anglais, ''model-free'').
-<br/>
+<hr/>
-<br/>
+L’apprentissage par renforcement se démarque de l'<nowiki/>'''[[apprentissage supervisé]]''' et de l''''[[apprentissage non supervisé]]''' par son côté interactif et itératif. L’agent intelligent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement pour découvrir la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations (exploitation).
--->
-[http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=26543794 ''Source: Grand Dictionnaire Terminologique'' ]
+==Français==
-<br/>
+'''apprentissage par renforcement'''
-<br/>
-[https://datafranca.org/lexique/apprentissage-par-renforcement/       ''Publié : datafranca.org'' ]
+==Anglais==
-<br/>
+'''reinforcement learning'''
-<br/>
+==Sources==
+*[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement ''Source: Wikipedia'']
+</small><br>
+{{Modèle:101}}
+{{Modèle:GDT}}
+[[Catégorie:GDT]]
+[[Catégorie:101]]
+[[Catégorie:Apprentissage automatique]]
+[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

« Apprentissage par renforcement » : différence entre les versions