« Optimisation de la Politique Proximale » : différence entre les versions
Aucun résumé des modifications |
m (Remplacement de texte : « ↵<small> » par « ==Sources== ») |
||
(3 versions intermédiaires par 2 utilisateurs non affichées) | |||
Ligne 2 : | Ligne 2 : | ||
L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017. | L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017. | ||
La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de [[gradient]] stochastique. | La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de [[gradient]] [[stochastique]]. | ||
== Français == | == Français == | ||
Ligne 14 : | Ligne 14 : | ||
'''PPO''' | '''PPO''' | ||
==Sources== | |||
[https://en.wikipedia.org/wiki/Proximal_Policy_Optimization Source : Wikipédia ] | [https://en.wikipedia.org/wiki/Proximal_Policy_Optimization Source : Wikipédia ] | ||
Ligne 21 : | Ligne 21 : | ||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] | |||
[[Catégorie: |
Dernière version du 28 janvier 2024 à 10:50
Définition
L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.
La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.
Français
Optimisation de la Politique Proximale
algorithme PPO
Anglais
Proximal Policy Optimization
PPO
Sources
Contributeurs: Imane Meziani, Maya Pentsch, wiki