« Évaluation directe » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(3 versions intermédiaires par un autre utilisateur non affichées)
Ligne 2 : Ligne 2 :
L'évaluation directe est une méthode qui permet d'évaluer plusieurs items en même temps à l'aide de rubriques multidimensionnelles afin de produire un indicateur scalaire de qualité. Elle est utilisée lorsque l'utilisateur souhaite contrôler et clarifier l'évaluation de chaque item. Cependant, elle peine à détecter les distinctions fines entre les sorties.
L'évaluation directe est une méthode qui permet d'évaluer plusieurs items en même temps à l'aide de rubriques multidimensionnelles afin de produire un indicateur scalaire de qualité. Elle est utilisée lorsque l'utilisateur souhaite contrôler et clarifier l'évaluation de chaque item. Cependant, elle peine à détecter les distinctions fines entre les sorties.


Voir aussi '''[[...]]''', '''[grand modèle de langues]]''', '''[[Prometheus]]''' et '''[[Prometheus 2]''
Voir aussi '''[[classement par paires]]''', '''[[grand modèle de langues]]''', '''[[Prometheus]]''' et '''[[Prometheus 2]]'''


== Français ==
== Français ==
Ligne 16 : Ligne 16 :


== Source ==
== Source ==
[https://arxiv.org/abs/2410.00873  Source : arxiv]
[https://arxiv.org/abs/2410.00873  Source : arxiv]


[[Catégorie:publication]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Dernière version du 3 novembre 2024 à 18:57

Définition

L'évaluation directe est une méthode qui permet d'évaluer plusieurs items en même temps à l'aide de rubriques multidimensionnelles afin de produire un indicateur scalaire de qualité. Elle est utilisée lorsque l'utilisateur souhaite contrôler et clarifier l'évaluation de chaque item. Cependant, elle peine à détecter les distinctions fines entre les sorties.

Voir aussi classement par paires, grand modèle de langues, Prometheus et Prometheus 2

Français

évaluation directe

Anglais

direct assessment

direct assessment ranking

Direct assessment is a method that evaluates several items at the same time, using multi-dimensional rubrics that output a scalar indicator of quality. It is used when the user wishes to have control and clarity over individual item evaluations. However, it struggles to detect fine distinctions between outputs.

Source

Source : arxiv

Contributeurs: Arianne , wiki