« Optimisation de la Politique Proximale » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
==en construction==
== Définition ==
L'optimisation de la politique proximale est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.


== Définition ==
La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.
Une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017. Les algorithmes PPO sont des méthodes de gradient de politique, ce qui signifie qu'ils recherchent l'espace des politiques plutôt que d'attribuer des valeurs aux paires état-action.  


== Français ==
== Français ==
''' XXXXXXXXX '''
'''Optimisation de la politique proximale'''
 
'''algorithme PPO'''


== Anglais ==
== Anglais ==
''' Proximal Policy Optimization'''
'''Proximal Policy Optimization'''


''' PPO '''
'''PPO'''


<small>
<small>


[https://en.wikipedia.org/wiki/Proximal_Policy_Optimization    Source : Wikipédia ]
[https://en.wikipedia.org/wiki/Proximal_Policy_Optimization    Source : Wikipédia ]
[






[[Catégorie:vocabulary]]
[[Catégorie:vocabulary]]

Version du 22 juillet 2023 à 05:39

Définition

L'optimisation de la politique proximale est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.

La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.

Français

Optimisation de la politique proximale

algorithme PPO

Anglais

Proximal Policy Optimization

PPO

Source : Wikipédia

[

Contributeurs: Imane Meziani, Maya Pentsch, wiki