Algorithme d'optimisation DAPO

Définition

Algorithme d'apprentissage par renforcement qui utilise une approche découplée pour augmenter la limite supérieure de la plage de l'échantillonnage dynamique.

Voir aussi optimisation de la politique proximale, optimisation de la politique relative au groupe, échantillonnage des p-meilleurs

Complément

L’échantillonnage dynamique favorise les données apportant un meilleur apprentissage.

L'un de ses avantages est qu'il n'affecte pas de manière significative la durée totale de l'entraînement.

Français

algorithme d'optimisation DAPO

optimisation de la politique d’échantillonnage dynamique et seuillage découplé

OPEDD

Anglais

DAPO

Decoupled Clip and Dynamic Sampling Policy Optimization

Sources

Source : arxiv

Source : DAPO, GitHub

Source : verl