« Optimisation de la Politique Proximale » : différence entre les versions
m (Imeziani a déplacé la page Policy Optimization vers Proximal Policy Optimization) |
Aucun résumé des modifications |
||
Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017. Les algorithmes PPO sont des méthodes de gradient de politique, ce qui signifie qu'ils recherchent l'espace des politiques plutôt que d'attribuer des valeurs aux paires état-action. | |||
== Français == | == Français == | ||
Ligne 8 : | Ligne 8 : | ||
== Anglais == | == Anglais == | ||
''' Policy Optimization''' | ''' Proximal Policy Optimization''' | ||
''' PPO ''' | |||
<small> | <small> | ||
[ | [https://en.wikipedia.org/wiki/Proximal_Policy_Optimization Source : Wikipédia ] | ||
https:// | |||
[[Catégorie:vocabulary]] | [[Catégorie:vocabulary]] |
Version du 21 février 2023 à 07:51
en construction
Définition
Une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017. Les algorithmes PPO sont des méthodes de gradient de politique, ce qui signifie qu'ils recherchent l'espace des politiques plutôt que d'attribuer des valeurs aux paires état-action.
Français
XXXXXXXXX
Anglais
Proximal Policy Optimization
PPO
Contributeurs: Imane Meziani, Maya Pentsch, wiki