« Optimisation de la politique proximale » : différence entre les versions


m (Imeziani a déplacé la page Policy Optimization vers Proximal Policy Optimization)
Aucun résumé des modifications
 
(9 versions intermédiaires par 4 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
==en construction==
== Définition ==
L'optimisation de la politique proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés par OpenAI en 2017.


== Définition ==
La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle [[fonction]] objective qui effectue une mise à jour de la région de confiance compatible avec la descente de [[gradient]] [[stochastique]].
XXXXXXXXX


== Français ==
== Français ==
''' XXXXXXXXX '''
'''Optimisation de la politique proximale'''
 
== Anglais ==
'''  Policy Optimization'''


<small>
'''Optimisation de la stratégie proximale'''


[XXXXXXXX    Source : XXXXXX ]
'''algorithme PPO'''


file:///C:/Users/user/Desktop/NeurIPS-2018-policy-optimization-via-importance-sampling-Paper.pdf
== Anglais ==
https://towardsdatascience.com/what-is-artificial-intelligence-79bbcde38998
'''Proximal Policy Optimization'''
 
https://www.mltut.com/best-resources-to-learn-machine-learning-online/


https://venturebeat.com/venturebeat-special-issue-data-privacy-marketing/?mkt_tok=NjczLVBISy05NDgAAAGHzjqgpxQ6ebheBJXmSsHtJ9HK9aB29BdzngGyifYanhkzsAz2yi6Pej97SgTaoEYvvnAdEzsPKLL9YxWUtKxJx5LsELBE0etgBu5hfCk
'''PPO'''


https://www.mltut.com/best-resources-to-learn-machine-learning-online/
==Sources==


https://venturebeat.com/security/data-privacy-is-expensive-how-to-manage-costs/
[https://en.wikipedia.org/wiki/Proximal_Policy_Optimization    Source : Wikipédia ]


[https://vectorinstitute.ai/fr/vector-ai-engineering-blog-benchmarking-robustness-of-reinforcement-learning-approaches-using-safe-control-gym/#:~:text=Optimisation%20de%20la%20politique%20proximale%20(PPO),-PPO%20est%20une&text=PPO%20réduit%20la%20complexité%20de,la%20descente%20de%20gradient%20stochastique.  Source : Vector Institute ]




[[Catégorie:vocabulary]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Dernière version du 17 février 2026 à 15:49

Définition

L'optimisation de la politique proximale (PPO) est une famille d'algorithmes d'apprentissage par renforcement sans modèle développés par OpenAI en 2017.

La PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.

Français

Optimisation de la politique proximale

Optimisation de la stratégie proximale

algorithme PPO

Anglais

Proximal Policy Optimization

PPO

Sources

Source : Wikipédia

Source : Vector Institute