« Optimisation de la Politique Proximale » : différence entre les versions


m (Imeziani a déplacé la page Policy Optimization vers Proximal Policy Optimization)
Aucun résumé des modifications
Ligne 2 : Ligne 2 :


== Définition ==
== Définition ==
XXXXXXXXX
Une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017. Les algorithmes PPO sont des méthodes de gradient de politique, ce qui signifie qu'ils recherchent l'espace des politiques plutôt que d'attribuer des valeurs aux paires état-action.


== Français ==
== Français ==
Ligne 8 : Ligne 8 :


== Anglais ==
== Anglais ==
'''  Policy Optimization'''
'''  Proximal Policy Optimization'''
 
''' PPO '''


<small>
<small>


[XXXXXXXX    Source : XXXXXX ]
[https://en.wikipedia.org/wiki/Proximal_Policy_Optimization    Source : Wikipédia ]
 
file:///C:/Users/user/Desktop/NeurIPS-2018-policy-optimization-via-importance-sampling-Paper.pdf
https://towardsdatascience.com/what-is-artificial-intelligence-79bbcde38998
 
https://www.mltut.com/best-resources-to-learn-machine-learning-online/
 
https://venturebeat.com/venturebeat-special-issue-data-privacy-marketing/?mkt_tok=NjczLVBISy05NDgAAAGHzjqgpxQ6ebheBJXmSsHtJ9HK9aB29BdzngGyifYanhkzsAz2yi6Pej97SgTaoEYvvnAdEzsPKLL9YxWUtKxJx5LsELBE0etgBu5hfCk
 
https://www.mltut.com/best-resources-to-learn-machine-learning-online/
 
https://venturebeat.com/security/data-privacy-is-expensive-how-to-manage-costs/






[[Catégorie:vocabulary]]
[[Catégorie:vocabulary]]

Version du 21 février 2023 à 08:51

en construction

Définition

Une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017. Les algorithmes PPO sont des méthodes de gradient de politique, ce qui signifie qu'ils recherchent l'espace des politiques plutôt que d'attribuer des valeurs aux paires état-action.

Français

XXXXXXXXX

Anglais

Proximal Policy Optimization

PPO

Source : Wikipédia



Contributeurs: Imane Meziani, Maya Pentsch, wiki