« Optimisation de la Politique Proximale » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 1 : | Ligne 1 : | ||
== | == Définition == | ||
L'optimisation de la politique proximale est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017. | |||
La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique. | |||
== Français == | == Français == | ||
''' | '''Optimisation de la politique proximale''' | ||
'''algorithme PPO''' | |||
== Anglais == | == Anglais == | ||
''' | '''Proximal Policy Optimization''' | ||
''' PPO ''' | '''PPO''' | ||
<small> | <small> | ||
[https://en.wikipedia.org/wiki/Proximal_Policy_Optimization Source : Wikipédia ] | [https://en.wikipedia.org/wiki/Proximal_Policy_Optimization Source : Wikipédia ] | ||
[ | |||
[[Catégorie:vocabulary]] | [[Catégorie:vocabulary]] |
Version du 22 juillet 2023 à 05:39
Définition
L'optimisation de la politique proximale est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.
La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.
Français
Optimisation de la politique proximale
algorithme PPO
Anglais
Proximal Policy Optimization
PPO
[
Contributeurs: Imane Meziani, Maya Pentsch, wiki