Optimisation de la Politique Proximale
en construction
Définition
Une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017. Les algorithmes PPO sont des méthodes de gradient de politique, ce qui signifie qu'ils recherchent l'espace des politiques plutôt que d'attribuer des valeurs aux paires état-action.
Français
XXXXXXXXX
Anglais
Proximal Policy Optimization
PPO
Contributeurs: Imane Meziani, Maya Pentsch, wiki