Optimisation de la Politique Proximale

en construction

Définition

Une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017. Les algorithmes PPO sont des méthodes de gradient de politique, ce qui signifie qu'ils recherchent l'espace des politiques plutôt que d'attribuer des valeurs aux paires état-action.

Français

XXXXXXXXX

Anglais

Proximal Policy Optimization

PPO

Source : Wikipédia