« Apprentissage par renforcement » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 16 : Ligne 16 :


* [https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement ''Source: Wikipedia'']
* [https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement ''Source: Wikipedia'']


</small><br> <div style="border:2px solid #336699; background: #f6f6f6; padding: 1em; margin-bottom:1em; width: 90%;"><html><a href="https://datafranca.org/wiki/Cat%C3%A9gorie:101"><img src="https://datafranca.org/images/icone-101-mots.png" width="250"></a></html>  
</small><br> <div style="border:2px solid #336699; background: #f6f6f6; padding: 1em; margin-bottom:1em; width: 90%;"><html><a href="https://datafranca.org/wiki/Cat%C3%A9gorie:101"><img src="https://datafranca.org/images/icone-101-mots.png" width="250"></a></html>  
===Compléments vidéos===
* [https://www.youtube.com/watch?v=93M1l_nrhpQ  IT 6.S191: Reinforcement Learning]
* [https://www.youtube.com/watch?v=0MNVhXEX9to  Reinforcement Learning: Machine Learning Meets Control Theory]
* [https://www.youtube.com/watch?v=IUiKAD6cuTA  Deep Reinforcement Learning: Neural Networks for Learning Control Laws]
* [https://www.youtube.com/watch?v=DhdUlDIAG7Y  Q Learning Explained | Reinforcement Learning Using Python]
* [https://www.youtube.com/watch?v=YUbFQlMXShY  Reinforcement Learning Full Course]
* [https://www.youtube.com/watch?v=zR11FLZ-O9M  MIT 6.S091: Introduction to Deep Reinforcement Learning]
* [https://www.youtube.com/watch?v=FgzM3zpZ55o  Stanford CS234: Reinforcement Learning]
* [https://www.youtube.com/watch?v=JgvyzIkgxF0  An introduction to Reinforcement Learning]
* [https://www.youtube.com/watch?v=nIgIv4IfJ6s  Reinforcement Learning: Crash Course AI#9]
* [https://www.youtube.com/watch?v=i6Mi2_QM3rA  MIT 6.S191 (2019): Deep Reinforcement Learning]
<br></div><br><br>
<br></div><br><br>
 
 
 
 


[[Catégorie:GDT]]
[[Catégorie:GDT]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:101]]
[[Catégorie:101]]

Version du 28 juillet 2022 à 14:56

Définition

En apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome, à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement, et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative. L'agent cherche, au travers d'expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'état courant l'action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps.

L’apprentissage par renforcement diffère fondamentalement de l'apprentissage supervisé et de l'apprentissage non supervisé par ce côté interactif et itératif: l’agent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement (les variables) pour trouver la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations.

Voir apprentissage par renforcement inverse

Français

apprentissage par renforcement

Anglais

reinforcement learning



Compléments vidéos