« Optimisation de la politique proximale » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| (6 versions intermédiaires par 3 utilisateurs non affichées) | |||
| Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
L' | L'optimisation de la politique proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés par OpenAI en 2017. | ||
La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de [[gradient]] stochastique. | La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de [[gradient]] [[stochastique]]. | ||
== Français == | == Français == | ||
'''Optimisation de la | '''Optimisation de la politique proximale''' | ||
'''Optimisation de la stratégie proximale''' | |||
'''algorithme PPO''' | '''algorithme PPO''' | ||
| Ligne 14 : | Ligne 16 : | ||
'''PPO''' | '''PPO''' | ||
==Sources== | |||
[https://en.wikipedia.org/wiki/Proximal_Policy_Optimization Source : Wikipédia ] | [https://en.wikipedia.org/wiki/Proximal_Policy_Optimization Source : Wikipédia ] | ||
| Ligne 21 : | Ligne 23 : | ||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] | |||
[[Catégorie: | |||
Dernière version du 17 février 2026 à 15:49
Définition
L'optimisation de la politique proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés par OpenAI en 2017.
La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.
Français
Optimisation de la politique proximale
Optimisation de la stratégie proximale
algorithme PPO
Anglais
Proximal Policy Optimization
PPO
Sources
Contributeurs: Claude Coulombe, Imane Meziani, Maya Pentsch, wiki





