« GML comme juge » : différence entre les versions

Dernière version du 21 avril 2026 à 15:09

Définition

Ensemble de techniques de traitement automatique de la langue naturelle qui utilise un grand modèle de langues (GML) pour évaluer le travail d'un autre GML.

Compléments

Une requête effectuée dans le cadre d'une évaluation par un GML comporte en général les trois éléments suivants: le contexte de la tâche et les textes à évaluer, une explication des critères d'évaluation et un format de réponse qui encode la décision du « GML juge ».

Important: Cette technique ne supprime pas la nécessité du jugement humain.
Les GML (comme juge) performants peuvent établir une corrélation étroite avec les jugements humains sur de nombreuses tâches. Cependant, ils présentent des biais systématiques et des défaillances.
Dans certains cas, on peut donner au GML qui sert de juge un ou plusieurs textes de référence.

Français

GML comme juge

GML en tant que juge

Anglais

LLM-as-a-judge

A (family of) technique(s) in natural language processing that uses one large language model (LLM) to evaluate another LLM’s work. A typical LLM-as-a-Judge setup consists of three elements: an input that contains the task context and candidate outputs to be evaluated, a prompt that explains the evaluation criteria, and a response format that encodes the judge's decision.

Strong LLM (judges) can correlate closely with human judgments on many tasks. However, it has systematic biases and failure modes. The task can have reference(s) or not. But most importantly, it doesn’t eliminate the need for human judgment.

Sources

Duprieu et Berkouk (2024) - GML comme juge

Source : arxiv

Source : towards data science

Source : Wikipedia

@@ Ligne 1 : / Ligne 1 : @@
-== en construction ==
 == Définition ==
-Une (famille de) technique(s) de '''[[traitement automatique de la langue naturelle]]''' qui utilise un '''[[grand modèle de langues (GML)]]''' pour évaluer le travail d'un autre GML. Une '''[[requête générative|requête]]''' effectuée dans le cadre d'une évaluation par un GML comporte en général les trois éléments suivants: le contexte de la tâche et les textes à évaluer, une explication des critères d'évaluation et un format de réponse qui encode la décision du « GML juge ».
+Ensemble de techniques de '''[[traitement automatique de la langue naturelle]]''' qui utilise un '''[[grand modèle de langues (GML)]]''' pour évaluer le travail d'un autre GML.
 == Compléments ==
-*Important: Cette technique ne supprime pas la nécessité du jugement humain!
+Une '''[[requête générative|requête]]''' effectuée dans le cadre d'une évaluation par un GML comporte en général les trois éléments suivants: le contexte de la tâche et les textes à évaluer, une explication des critères d'évaluation et un format de réponse qui encode la décision du « GML juge ».
-*Les GML (comme juge) performants peuvent établir une corrélation étroite avec les jugements humains sur de nombreuses tâches. Cependant, ils présentent des biais systématiques et des modes de défaillance.
-*La tâche peut comporter un ou plusieurs textes de référence, ou non.
+*Important: Cette technique ne supprime pas la nécessité du jugement humain.
+*Les GML (comme juge) performants peuvent établir une corrélation étroite avec les jugements humains sur de nombreuses tâches. Cependant, ils présentent des biais systématiques et des défaillances.
+*Dans certains cas, on peut donner au GML qui sert de juge un ou plusieurs textes de référence.
 == Français ==
+''' GML comme juge'''
 ''' GML en tant que juge'''
-''' GML comme juge'''
 == Anglais ==
 ''' LLM-as-a-judge'''
-<!--A (family of) technique(s) in natural language processing that uses one large language model (LLM) to evaluate another LLM’s work. A typical LLM-as-a-Judge setup consists of three elements: an input that contains the task context and candidate outputs to be evaluated, a prompt that explains the evaluation criteria, and a response format that encodes the judge's decision.
+''A (family of) technique(s) in natural language processing that uses one large language model (LLM) to evaluate another LLM’s work. A typical LLM-as-a-Judge setup consists of three elements: an input that contains the task context and candidate outputs to be evaluated, a prompt that explains the evaluation criteria, and a response format that encodes the judge's decision.''
-Strong LLM judges can correlate closely with human judgments on many tasks. However, it has systematic biases and failure modes. The task can have reference(s) or not. But most importantly, it doesn’t eliminate the need for human judgment.-->
+''Strong LLM (judges) can correlate closely with human judgments on many tasks. However, it has systematic biases and failure modes. The task can have reference(s) or not. But most importantly, it doesn’t eliminate the need for human judgment.''
 == Sources ==
+[https://hal.science/hal-04782667v1/file/Techniques%20d%27audit%20des%20LLM%20VF%20HAL.pdf  Duprieu et Berkouk (2024) - GML comme juge]
 [https://arxiv.org/abs/2411.15594   Source : arxiv]
@@ Ligne 28 : / Ligne 30 : @@
 [https://en.wikipedia.org/wiki/LLM-as-a-Judge   Source : Wikipedia]
-[[Catégorie:publication]]
+[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

« GML comme juge » : différence entre les versions