« Optimisation de la Politique Proximale » : différence entre les versions

Dernière version du 28 janvier 2024 à 10:50

Définition

L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.

La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.

Français

Optimisation de la Politique Proximale

algorithme PPO

Anglais

Proximal Policy Optimization

PPO

Sources

Source : Wikipédia

Source : Vector Institute

@@ Ligne 1 : / Ligne 1 : @@
-==en construction==
+== Définition ==
+L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.
-== Définition ==
+La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de [[gradient]] [[stochastique]].
-Une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017. Les algorithmes PPO sont des méthodes de gradient de politique, ce qui signifie qu'ils recherchent l'espace des politiques plutôt que d'attribuer des valeurs aux paires état-action.
 == Français ==
-''' XXXXXXXXX '''
+'''Optimisation de la Politique Proximale'''
+'''algorithme PPO'''
 == Anglais ==
-'''  Proximal Policy Optimization'''
+'''Proximal Policy Optimization'''
-''' PPO '''
+'''PPO'''
-<small>
+==Sources==
 [https://en.wikipedia.org/wiki/Proximal_Policy_Optimization    Source : Wikipédia ]
+[https://vectorinstitute.ai/fr/vector-ai-engineering-blog-benchmarking-robustness-of-reinforcement-learning-approaches-using-safe-control-gym/#:~:text=Optimisation%20de%20la%20politique%20proximale%20(PPO),-PPO%20est%20une&text=PPO%20réduit%20la%20complexité%20de,la%20descente%20de%20gradient%20stochastique.  Source : Vector Institute ]
-[[Catégorie:vocabulary]]
+[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

« Optimisation de la Politique Proximale » : différence entre les versions