« Optimisation de la Politique Proximale » : différence entre les versions

Version du 23 juillet 2023 à 09:47

Définition

L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.

La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.

Français

Optimisation de la Politique Proximale

algorithme PPO

Anglais

Proximal Policy Optimization

PPO

Source : Wikipédia

Source : Vector Institute

Version du 22 juillet 2023 à 06:44 (voir la source) Maya (discussion \| contributions) m (Maya a déplacé la page Proximal Policy Optimization vers Optimisation de la Politique Proximale) ← Modification précédente		Version du 23 juillet 2023 à 09:47 (voir la source) Pitpitt (discussion \| contributions) Aucun résumé des modifications Modification suivante →
Ligne 21 :		Ligne 21 :


			[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
	[[Catégorie:~~publication~~]]

« Optimisation de la Politique Proximale » : différence entre les versions

Version du 23 juillet 2023 à 09:47

Définition

Français

Anglais

« Optimisation de la Politique Proximale » : différence entre les versions