Optimisation de la Politique Proximale

Définition

L'optimisation de la politique proximale est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.

La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.

Français

Optimisation de la politique proximale

algorithme PPO

Anglais

Proximal Policy Optimization

PPO

Source : Wikipédia

[