« Optimisation de la Politique Proximale » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
== Définition ==
== Définition ==
L'optimisation de la politique proximale est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.  
L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.  


La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.
La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de [[gradient]] stochastique.


== Français ==
== Français ==
'''Optimisation de la politique proximale'''
'''Optimisation de la Politique Proximale'''


'''algorithme PPO'''
'''algorithme PPO'''
Ligne 18 : Ligne 18 :
[https://en.wikipedia.org/wiki/Proximal_Policy_Optimization    Source : Wikipédia ]
[https://en.wikipedia.org/wiki/Proximal_Policy_Optimization    Source : Wikipédia ]


[
[https://vectorinstitute.ai/fr/vector-ai-engineering-blog-benchmarking-robustness-of-reinforcement-learning-approaches-using-safe-control-gym/#:~:text=Optimisation%20de%20la%20politique%20proximale%20(PPO),-PPO%20est%20une&text=PPO%20réduit%20la%20complexité%20de,la%20descente%20de%20gradient%20stochastique.  Source : Vector Institute ]






[[Catégorie:vocabulary]]
[[Catégorie:publication]]

Version du 22 juillet 2023 à 06:41

Définition

L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.

La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.

Français

Optimisation de la Politique Proximale

algorithme PPO

Anglais

Proximal Policy Optimization

PPO

Source : Wikipédia

Source : Vector Institute



Contributeurs: Imane Meziani, Maya Pentsch, wiki