« Algorithme d'optimisation DAPO » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
== en construction ==
== Définition ==
'''[[Algorithme]]''' d''''[[apprentissage par renforcement]]''' qui utilise une approche découplée pour augmenter la limite supérieure de la plage de l'échantillonnage dynamique.


== Définition ==
Voir aussi '''[[optimisation de la politique proximale]]''', '''[[optimisation de la politique relative au groupe]]''', '''[[échantillonnage des p-meilleurs]]'''
'''[[Algorithme]]''' d''''[[apprentissage par renforcement]]''' qui solidifie les schémas de raisonnement et qui donne également naissance à de nouveaux modes de raisonnement facilitant une ''bonne'' résolution des problèmes. L'un de ses avantages est qu'il n'affecte pas de manière significative la durée totale de l''''[[entraînement]]'''.
 
==Complément==
L’échantillonnage dynamique favorise les données apportant un meilleur apprentissage.  


Voir aussi '''[[optimisation de la politique proximale]]''' et '''[[optimisation de la politique relative au groupe]]'''
L'un de ses avantages est qu'il n'affecte pas de manière significative la durée totale de l''''[[entraînement]]'''.


== Français ==
== Français ==
''' XXXXXXXX'''
'''optimisation de la politique d’échantillonnage dynamique et seuillage découplé'''
 
'''OPEDD'''
 
'''algorithme d'optimisation DAPO'''


== Anglais ==
== Anglais ==
Ligne 23 : Ligne 30 :
[https://verl.readthedocs.io/en/latest/algo/dapo.html  Source : verl]
[https://verl.readthedocs.io/en/latest/algo/dapo.html  Source : verl]


[[Catégorie:vocabulary]]
[[Catégorie:publication]]

Version du 21 avril 2026 à 14:55

Définition

Algorithme d'apprentissage par renforcement qui utilise une approche découplée pour augmenter la limite supérieure de la plage de l'échantillonnage dynamique.

Voir aussi optimisation de la politique proximale, optimisation de la politique relative au groupe, échantillonnage des p-meilleurs

Complément

L’échantillonnage dynamique favorise les données apportant un meilleur apprentissage.

L'un de ses avantages est qu'il n'affecte pas de manière significative la durée totale de l'entraînement.

Français

optimisation de la politique d’échantillonnage dynamique et seuillage découplé

OPEDD

algorithme d'optimisation DAPO

Anglais

DAPO

Decoupled Clip and Dynamic Sampling Policy Optimization


Sources

Source : arxiv

Source : DAPO, GitHub

Source : verl

Contributeurs: Arianne Arel, Patrick Drouin