« Peaufinage par auto-jeu » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(4 versions intermédiaires par le même utilisateur non affichées)
Ligne 1 : Ligne 1 :
== en construction ==
== Définition ==
Algorithme de '''[[peaufinage]]''' pour les '''[[Grand modèle de langues (GML)|grands modèles de langues (GML)]]''' qui utilise un mécanisme qui lui permet de jouer contre lui-même (''self-play mechanism'') en utilisant les versions précédentes du modèle. 


== Définition ==
Voir aussi [[Optimisation de la politique relative au groupe]] et [[Apprentissage par curriculum auto-évolutif]]
Algorithme de '''[[peaufinage]]''' pour les '''[[Grand modèle de langues (GML)|grands modèles de langues (GML)]]''' qui utilise un ''self-play mechanism'', permettant aux GML de s'améliorer en jouant contre leurs itérations précédentes. Cette technique réduit la dépendance vis-à-vis des '''[[Jeu de données|jeux de données]]''' externes ou des '''[[Modèle d'intelligence artificielle|modèles]]''' « enseignants » plus puissants.


Voir aussi '''[[Group Relative Policy Optimization|GRPO]]'''
== Complément ==
Cette technique réduit la dépendance vis-à-vis des '''[[Jeu de données|jeux de données]]''' externes ou des [[Modèle enseignant|modèles enseignants]].


== Français ==
== Français ==
''' XXXXXX'''
''' peaufinage par auto-jeu'''


== Anglais ==
== Anglais ==
Ligne 15 : Ligne 16 :


''' SPIN'''
''' SPIN'''
<!--A language model finetuning algorithm for large language models that utilizes a self-play mechanism, allowing LLMs to improve themselves by playing against their previous iterations. This techinique reduces reliance on external preference datasets or stronger teacher models.-->
<!--A language model finetuning algorithm for large language models that utilizes a self-play mechanism, allowing LLMs to improve themselves by playing against their previous iterations. This techinique reduces reliance on external preference datasets or stronger teacher models.-->


== Sources ==
== Sources ==
[https://theses.hal.science/tel-05430689v1/file/154915_XU_2025_archivage.pdf Zhuofan Xu (2025) - Auto-jeu]
[https://arxiv.org/abs/2401.01335  Source : arxiv]
[https://arxiv.org/abs/2401.01335  Source : arxiv]


Ligne 25 : Ligne 27 :
[https://verl.readthedocs.io/en/latest/algo/spin.html  Source: verl]
[https://verl.readthedocs.io/en/latest/algo/spin.html  Source: verl]


[[Catégorie:vocabulary]]
[[Catégorie:Publication]]

Dernière version du 14 avril 2026 à 15:05

Définition

Algorithme de peaufinage pour les grands modèles de langues (GML) qui utilise un mécanisme qui lui permet de jouer contre lui-même (self-play mechanism) en utilisant les versions précédentes du modèle.

Voir aussi Optimisation de la politique relative au groupe et Apprentissage par curriculum auto-évolutif

Complément

Cette technique réduit la dépendance vis-à-vis des jeux de données externes ou des modèles enseignants.

Français

peaufinage par auto-jeu

Anglais

self-play fine-tuning

self-play fine tuning

SPIN

Sources

Zhuofan Xu (2025) - Auto-jeu

Source : arxiv

Source : GitHub

Source: verl

Contributeurs: Arianne Arel, Patrick Drouin