« Optimisation de la Politique Proximale » : différence entre les versions


m (Imeziani a déplacé la page Policy Optimization vers Proximal Policy Optimization)
m (Remplacement de texte : « ↵<small> » par «  ==Sources== »)
 
(6 versions intermédiaires par 3 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
==en construction==
== Définition ==
L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.


== Définition ==
La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de [[gradient]] [[stochastique]].
XXXXXXXXX


== Français ==
== Français ==
''' XXXXXXXXX '''
'''Optimisation de la Politique Proximale'''
 
'''algorithme PPO'''


== Anglais ==
== Anglais ==
''' Policy Optimization'''
'''Proximal Policy Optimization'''
 
<small>
 
[XXXXXXXX    Source : XXXXXX ]
 
file:///C:/Users/user/Desktop/NeurIPS-2018-policy-optimization-via-importance-sampling-Paper.pdf
https://towardsdatascience.com/what-is-artificial-intelligence-79bbcde38998
 
https://www.mltut.com/best-resources-to-learn-machine-learning-online/


https://venturebeat.com/venturebeat-special-issue-data-privacy-marketing/?mkt_tok=NjczLVBISy05NDgAAAGHzjqgpxQ6ebheBJXmSsHtJ9HK9aB29BdzngGyifYanhkzsAz2yi6Pej97SgTaoEYvvnAdEzsPKLL9YxWUtKxJx5LsELBE0etgBu5hfCk
'''PPO'''


https://www.mltut.com/best-resources-to-learn-machine-learning-online/
==Sources==


https://venturebeat.com/security/data-privacy-is-expensive-how-to-manage-costs/
[https://en.wikipedia.org/wiki/Proximal_Policy_Optimization    Source : Wikipédia ]


[https://vectorinstitute.ai/fr/vector-ai-engineering-blog-benchmarking-robustness-of-reinforcement-learning-approaches-using-safe-control-gym/#:~:text=Optimisation%20de%20la%20politique%20proximale%20(PPO),-PPO%20est%20une&text=PPO%20réduit%20la%20complexité%20de,la%20descente%20de%20gradient%20stochastique.  Source : Vector Institute ]




[[Catégorie:vocabulary]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Dernière version du 28 janvier 2024 à 11:50

Définition

L'Optimisation de la Politique Proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés à OpenAI en 2017.

La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.

Français

Optimisation de la Politique Proximale

algorithme PPO

Anglais

Proximal Policy Optimization

PPO

Sources

Source : Wikipédia

Source : Vector Institute



Contributeurs: Imane Meziani, Maya Pentsch, wiki