« Optimisation de la Politique Proximale » : différence entre les versions
(Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == ''' Policy Optimization''' <small> [XXXXXXXX Source : XXXXXX ] fi... ») |
m (Remplacement de texte : « ↵<small> » par « ==Sources== ») |
||
(7 versions intermédiaires par 3 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
== | == Définition == | ||
L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017. | |||
La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de [[gradient]] [[stochastique]]. | |||
== Français == | == Français == | ||
''' | '''Optimisation de la Politique Proximale''' | ||
'''algorithme PPO''' | |||
== Anglais == | == Anglais == | ||
''' | '''Proximal Policy Optimization''' | ||
'''PPO''' | |||
==Sources== | |||
https:// | [https://en.wikipedia.org/wiki/Proximal_Policy_Optimization Source : Wikipédia ] | ||
[https://vectorinstitute.ai/fr/vector-ai-engineering-blog-benchmarking-robustness-of-reinforcement-learning-approaches-using-safe-control-gym/#:~:text=Optimisation%20de%20la%20politique%20proximale%20(PPO),-PPO%20est%20une&text=PPO%20réduit%20la%20complexité%20de,la%20descente%20de%20gradient%20stochastique. Source : Vector Institute ] | |||
[[Catégorie: | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Dernière version du 28 janvier 2024 à 10:50
Définition
L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.
La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.
Français
Optimisation de la Politique Proximale
algorithme PPO
Anglais
Proximal Policy Optimization
PPO
Sources
Contributeurs: Imane Meziani, Maya Pentsch, wiki