« Optimisation de la Politique Proximale » : différence entre les versions

Version du 21 février 2023 à 07:51

en construction

Définition

Une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017. Les algorithmes PPO sont des méthodes de gradient de politique, ce qui signifie qu'ils recherchent l'espace des politiques plutôt que d'attribuer des valeurs aux paires état-action.

Français

XXXXXXXXX

Anglais

Proximal Policy Optimization

PPO

Source : Wikipédia

@@ Ligne 2 : / Ligne 2 : @@
 == Définition ==
-XXXXXXXXX
+Une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017. Les algorithmes PPO sont des méthodes de gradient de politique, ce qui signifie qu'ils recherchent l'espace des politiques plutôt que d'attribuer des valeurs aux paires état-action.
 == Français ==
@@ Ligne 8 : / Ligne 8 : @@
 == Anglais ==
-'''  Policy Optimization'''
+'''  Proximal Policy Optimization'''
+''' PPO '''
 <small>
-[XXXXXXXX    Source : XXXXXX ]
+[https://en.wikipedia.org/wiki/Proximal_Policy_Optimization    Source : Wikipédia ]
-file:///C:/Users/user/Desktop/NeurIPS-2018-policy-optimization-via-importance-sampling-Paper.pdf
-https://towardsdatascience.com/what-is-artificial-intelligence-79bbcde38998
-https://www.mltut.com/best-resources-to-learn-machine-learning-online/
-https://venturebeat.com/venturebeat-special-issue-data-privacy-marketing/?mkt_tok=NjczLVBISy05NDgAAAGHzjqgpxQ6ebheBJXmSsHtJ9HK9aB29BdzngGyifYanhkzsAz2yi6Pej97SgTaoEYvvnAdEzsPKLL9YxWUtKxJx5LsELBE0etgBu5hfCk
-https://www.mltut.com/best-resources-to-learn-machine-learning-online/
-https://venturebeat.com/security/data-privacy-is-expensive-how-to-manage-costs/
 [[Catégorie:vocabulary]]

« Optimisation de la Politique Proximale » : différence entre les versions