« Politique d'action » : différence entre les versions
Aucun résumé des modifications Balise : Éditeur de wikicode 2017 |
Aucun résumé des modifications |
||
(30 versions intermédiaires par 4 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
== | ==Définition== | ||
En apprentissage par renforcement, processus de décision qui définit quelle action un agent doit choisir dans un contexte ou un état donné. | |||
En général, une politique d'action n'apprend pas explicitement un modèle de l'environnement, ce qui en fait une méthode d'apprentissage par renforcement sans modèle. | |||
==Compléments== | |||
Un algorithme d'apprentissage par renforcement apprend une Politique: État => 𝐴ction, c'est-à-dire une fonction Politique qui à chaque État préconise une Action à exécuter qui maximise les récompenses. | |||
Une politique peut aussi être probabiliste: Politique(Action,État) = Probabilité(Action_t = Action| État_t = État) qui est la probabilité que l'agent choisisse d'exécuter Action alores qu'il est dans l'État. | |||
==Français== | |||
'''politique d'action''' | |||
'''politique d'agent''' | |||
'''politique de prise de décision''' | |||
'''politique''' | |||
'''stratégie d'action''' | |||
'''stratégie d'agent''' | |||
'''stratégie''' | |||
== | ==Anglais== | ||
'''policy''' | |||
==Sources== | |||
Source : Géron, Aurélien (2017) ''Machine Learning avec Scikit-Learn - Mise en œuvre et cas concrets'', Paris, Dunod, 256 pages. | |||
[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement#Politique Source : Apprentissage par renforcement] | |||
[[Utilisateur:Claude COULOMBE | Source: Claude Coulombe, Datafranca.org]] | |||
[[Utilisateur:Patrickdrouin | Source: Termino]] | |||
[[Category:Intelligence artificielle]] | |||
[[Category:Apprentissage profond]] | |||
[[Category:GRAND LEXIQUE FRANÇAIS]] | |||
Dernière version du 6 juillet 2024 à 09:53
Définition
En apprentissage par renforcement, processus de décision qui définit quelle action un agent doit choisir dans un contexte ou un état donné.
En général, une politique d'action n'apprend pas explicitement un modèle de l'environnement, ce qui en fait une méthode d'apprentissage par renforcement sans modèle.
Compléments
Un algorithme d'apprentissage par renforcement apprend une Politique: État => 𝐴ction, c'est-à-dire une fonction Politique qui à chaque État préconise une Action à exécuter qui maximise les récompenses.
Une politique peut aussi être probabiliste: Politique(Action,État) = Probabilité(Action_t = Action| État_t = État) qui est la probabilité que l'agent choisisse d'exécuter Action alores qu'il est dans l'État.
Français
politique d'action
politique d'agent
politique de prise de décision
politique
stratégie d'action
stratégie d'agent
stratégie
Anglais
policy
Sources
Source : Géron, Aurélien (2017) Machine Learning avec Scikit-Learn - Mise en œuvre et cas concrets, Paris, Dunod, 256 pages.
Source : Apprentissage par renforcement
Contributeurs: Claude Coulombe, Jacques Barolet, Patrick Drouin, wiki