Optimisation de la Politique Proximale


Révision datée du 28 janvier 2024 à 10:50 par Pitpitt (discussion | contributions) (Remplacement de texte : « ↵<small> » par «  ==Sources== »)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Définition

L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.

La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.

Français

Optimisation de la Politique Proximale

algorithme PPO

Anglais

Proximal Policy Optimization

PPO

Sources

Source : Wikipédia

Source : Vector Institute

Contributeurs: Imane Meziani, Maya Pentsch, wiki