« Peaufinage par auto-jeu » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| Ligne 1 : | Ligne 1 : | ||
== | == Définition == | ||
Algorithme de '''[[peaufinage]]''' pour les '''[[Grand modèle de langues (GML)|grands modèles de langues (GML)]]''' qui utilise un mécanisme qui lui permet de jouer contre lui-même ''self-play mechanism'' en utilisant les versions précédentes du modèle. | |||
Voir aussi [[Optimisation de la politique relative au groupe]] et [[Apprentissage par curriculum auto-évolutif]] | |||
== Complément == | |||
Cette technique réduit la dépendance vis-à-vis des '''[[Jeu de données|jeux de données]]''' externes ou des [[Modèles enseignants|modèles enseignants]]. | |||
== Français == | == Français == | ||
''' | ''' peaufinage par auto-jeu''' | ||
== Anglais == | == Anglais == | ||
| Ligne 19 : | Ligne 20 : | ||
== Sources == | == Sources == | ||
[https://theses.hal.science/tel-05430689v1/file/154915_XU_2025_archivage.pdf Zhuofan Xu (2025) - Auto-jeu] | |||
[https://arxiv.org/abs/2401.01335 Source : arxiv] | [https://arxiv.org/abs/2401.01335 Source : arxiv] | ||
| Ligne 25 : | Ligne 29 : | ||
[https://verl.readthedocs.io/en/latest/algo/spin.html Source: verl] | [https://verl.readthedocs.io/en/latest/algo/spin.html Source: verl] | ||
[[Catégorie: | [[Catégorie:Publication]] | ||
Version du 14 avril 2026 à 15:02
Définition
Algorithme de peaufinage pour les grands modèles de langues (GML) qui utilise un mécanisme qui lui permet de jouer contre lui-même self-play mechanism en utilisant les versions précédentes du modèle.
Voir aussi Optimisation de la politique relative au groupe et Apprentissage par curriculum auto-évolutif
Complément
Cette technique réduit la dépendance vis-à-vis des jeux de données externes ou des modèles enseignants.
Français
peaufinage par auto-jeu
Anglais
self-play fine-tuning
self-play fine tuning
SPIN
Sources
Contributeurs: Arianne Arel, Patrick Drouin





