« Self-Evolving Curriculum » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| (3 versions intermédiaires par 2 utilisateurs non affichées) | |||
| Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Méthode d''''[[apprentissage par curriculum]]''' automatique adaptée au '''[[peaufinage]]''' de l''''[[apprentissage par renforcement]]''' des '''[[Grand modèle de langues|grands modèles de langues]]'''. Elle ajuste dynamiquement le curriculum d'entraînement en fonction des capacités actuelles du '''[[modèle]]''' à l'aide de techniques telles que la sélection du '''[[Problème du bandit manchot|bandit manchot]]''' et l''''[[analyse de sensibilité]]'''. | |||
Voir aussi '''[[apprentissage | Voir aussi '''[[apprentissage automatique]]''', '''[[entraînement]]''' et '''[[optimisation de la politique relative au groupe]]''' | ||
== Français == | == Français == | ||
''' | '''apprentissage par curriculum auto-évolutif''' | ||
== Anglais == | == Anglais == | ||
''' Self-Evolving Curriculum''' | ''' Self-Evolving Curriculum Learning''' | ||
''' SEC''' | ''' SEC''' | ||
''Automatic curriculum learning method tailored for reinforcement learning fine-tuning of large language models. It dynamically adjusts the training curriculum according to the model’s current capabilities using techniques like multi-armed bandit selection and sensitivity analysis. Its defining property is its dependence on performance-driven adaptation.'' | |||
== Sources == | == Sources == | ||
Dernière version du 17 février 2026 à 15:49
en construction
Définition
Méthode d'apprentissage par curriculum automatique adaptée au peaufinage de l'apprentissage par renforcement des grands modèles de langues. Elle ajuste dynamiquement le curriculum d'entraînement en fonction des capacités actuelles du modèle à l'aide de techniques telles que la sélection du bandit manchot et l'analyse de sensibilité.
Voir aussi apprentissage automatique, entraînement et optimisation de la politique relative au groupe
Français
apprentissage par curriculum auto-évolutif
Anglais
Self-Evolving Curriculum Learning
SEC
Automatic curriculum learning method tailored for reinforcement learning fine-tuning of large language models. It dynamically adjusts the training curriculum according to the model’s current capabilities using techniques like multi-armed bandit selection and sensitivity analysis. Its defining property is its dependence on performance-driven adaptation.
Sources
Contributeurs: Arianne Arel, Patrick Drouin





