« Apprentissage par renforcement » : différence entre les versions


m (Remplacement de texte — « Catégorie:100 » par «  »)
Aucun résumé des modifications
Balise : Éditeur de wikicode 2017
Ligne 1 : Ligne 1 :
[[Catégorie:intelligence artificielle]]
==Définition==
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
En apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome, à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement, et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative. L'agent cherche, au travers d'expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'état courant l'action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps.
 


==Définition==
En apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome, à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement, et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative. L'agent cherche, au travers d'expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'état courant l'action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps. <br />
L’apprentissage par renforcement diffère fondamentalement de l'<nowiki/>'''[[apprentissage supervisé]]''' et de l''''[[apprentissage non supervisé]]''' par ce côté interactif et itératif: l’agent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement (les variables) pour trouver la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations.
L’apprentissage par renforcement diffère fondamentalement de l'<nowiki/>'''[[apprentissage supervisé]]''' et de l''''[[apprentissage non supervisé]]''' par ce côté interactif et itératif: l’agent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement (les variables) pour trouver la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations.


Voir [[apprentissage par renforcement inverse|'''apprentissage par renforcement inverse''']]
Voir [[apprentissage par renforcement inverse|'''apprentissage par renforcement inverse''']]
Ligne 13 : Ligne 8 :
==Français==
==Français==
'''apprentissage par renforcement'''  <small>loc. nom. masc.</small>
'''apprentissage par renforcement'''  <small>loc. nom. masc.</small>
==Anglais==
==Anglais==
'''reinforcement learning'''
'''reinforcement learning'''
Ligne 20 : Ligne 16 :


[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement ''Source: Wikipedia'']
[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement ''Source: Wikipedia'']
[[Catégorie:intelligence artificielle]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Version du 3 mai 2020 à 15:22

Définition

En apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome, à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement, et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative. L'agent cherche, au travers d'expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'état courant l'action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps.

L’apprentissage par renforcement diffère fondamentalement de l'apprentissage supervisé et de l'apprentissage non supervisé par ce côté interactif et itératif: l’agent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement (les variables) pour trouver la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations.

Voir apprentissage par renforcement inverse

Français

apprentissage par renforcement loc. nom. masc.

Anglais

reinforcement learning


Source: Wikipedia