Optimisation de la Politique Proximale
Définition
L'optimisation de la politique proximale est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.
La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.
Français
Optimisation de la politique proximale
algorithme PPO
Anglais
Proximal Policy Optimization
PPO
[
Contributeurs: Imane Meziani, Maya Pentsch, wiki