« Optimisation de la Politique Proximale » : différence entre les versions


Aucun résumé des modifications
m (Remplacement de texte : « ↵<small> » par «  ==Sources== »)
 
(3 versions intermédiaires par 2 utilisateurs non affichées)
Ligne 2 : Ligne 2 :
L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.  
L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.  


La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de [[gradient]] stochastique.
La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de [[gradient]] [[stochastique]].


== Français ==
== Français ==
Ligne 14 : Ligne 14 :
'''PPO'''
'''PPO'''


<small>
==Sources==


[https://en.wikipedia.org/wiki/Proximal_Policy_Optimization    Source : Wikipédia ]
[https://en.wikipedia.org/wiki/Proximal_Policy_Optimization    Source : Wikipédia ]
Ligne 21 : Ligne 21 :




 
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:publication]]

Dernière version du 28 janvier 2024 à 10:50

Définition

L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.

La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.

Français

Optimisation de la Politique Proximale

algorithme PPO

Anglais

Proximal Policy Optimization

PPO

Sources

Source : Wikipédia

Source : Vector Institute

Contributeurs: Imane Meziani, Maya Pentsch, wiki