« Apprentissage par renforcement » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 23 : Ligne 23 :
* [https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement ''Source: Wikipedia'']
* [https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement ''Source: Wikipedia'']


</small><br> <div style="border:2px solid #336699; background: #f6f6f6; padding: 1em; margin-bottom:1em; width: 90%;"><html><a href="https://datafranca.org/wiki/Cat%C3%A9gorie:101"><img src="https://datafranca.org/images/icone-101-mots.png" width="250"></a></html>  
</small><br> <div style="border:2px solid #336699; background: #f6f6f6; padding: 1em; margin-bottom:1em; width: 90%;"><html><a href="https://datafranca.org/wiki/Cat%C3%A9gorie:101"><img src="https://datafranca.org/images/icone-101-mots.png" width="250"></a></html>
<!--
===Compléments vidéos===
===Compléments vidéos===
* [https://www.youtube.com/watch?v=93M1l_nrhpQ  IT 6.S191: Reinforcement Learning]
* [https://www.youtube.com/watch?v=93M1l_nrhpQ  IT 6.S191: Reinforcement Learning]
Ligne 34 : Ligne 35 :
* [https://www.youtube.com/watch?v=JgvyzIkgxF0  An introduction to Reinforcement Learning]
* [https://www.youtube.com/watch?v=JgvyzIkgxF0  An introduction to Reinforcement Learning]
* [https://www.youtube.com/watch?v=nIgIv4IfJ6s  Reinforcement Learning: Crash Course AI#9]
* [https://www.youtube.com/watch?v=nIgIv4IfJ6s  Reinforcement Learning: Crash Course AI#9]
* [https://www.youtube.com/watch?v=i6Mi2_QM3rA  MIT 6.S191 (2019): Deep Reinforcement Learning]
* [https://www.youtube.com/watch?v=i6Mi2_QM3rA  MIT 6.S191 (2019): Deep Reinforcement Learning] -->
<br></div><br><br>
<br></div><br><br>
   
   

Version du 19 août 2022 à 15:57

Définition

En apprentissage par renforcement, l'algorithme apprend un comportement à partir d'expériences répétées, de façon à optimiser les récompenses reçues au cours du temps. Tout comme l'apprentissage non-supervisé, l'apprentissage par renforcement n'a pas besoin de données étiquetées.

Typiquement, un agent intelligent, qui est plongé au sein d'un environnement, prend une décision ou réalise une action en fonction de son état courant et de l'observation de son environnement. En retour de l'action de l'agent, l'environnement procure à l'agent une récompense ou une punition.

On peut voir l'apprentissage par renforcement comme un jeu d'essais et d’erreurs dont le but est de déterminer les actions qui maximiseront les gains d'un agent intelligent afin d'élaborer un comportement optimal, appelé stratégie ou politique, qui est une fonction associant à l'état courant l'action à exécuter.

Voir apprentissage par renforcement inverse

Compléments

L’apprentissage par renforcement se démarque de l'apprentissage supervisé et de l'apprentissage non supervisé par son côté interactif et itératif. L’agent intelligent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement pour découvrir la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations.

Français

apprentissage par renforcement

Anglais

reinforcement learning