« Évaluation directe » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
(2 versions intermédiaires par un autre utilisateur non affichées) | |||
Ligne 2 : | Ligne 2 : | ||
L'évaluation directe est une méthode qui permet d'évaluer plusieurs items en même temps à l'aide de rubriques multidimensionnelles afin de produire un indicateur scalaire de qualité. Elle est utilisée lorsque l'utilisateur souhaite contrôler et clarifier l'évaluation de chaque item. Cependant, elle peine à détecter les distinctions fines entre les sorties. | L'évaluation directe est une méthode qui permet d'évaluer plusieurs items en même temps à l'aide de rubriques multidimensionnelles afin de produire un indicateur scalaire de qualité. Elle est utilisée lorsque l'utilisateur souhaite contrôler et clarifier l'évaluation de chaque item. Cependant, elle peine à détecter les distinctions fines entre les sorties. | ||
Voir aussi '''[[ | Voir aussi '''[[classement par paires]]''', '''[[grand modèle de langues]]''', '''[[Prometheus]]''' et '''[[Prometheus 2]]''' | ||
== Français == | == Français == | ||
Ligne 16 : | Ligne 16 : | ||
== Source == | == Source == | ||
[https://arxiv.org/abs/2410.00873 Source : arxiv] | [https://arxiv.org/abs/2410.00873 Source : arxiv] | ||
[[Catégorie: | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Dernière version du 3 novembre 2024 à 18:57
Définition
L'évaluation directe est une méthode qui permet d'évaluer plusieurs items en même temps à l'aide de rubriques multidimensionnelles afin de produire un indicateur scalaire de qualité. Elle est utilisée lorsque l'utilisateur souhaite contrôler et clarifier l'évaluation de chaque item. Cependant, elle peine à détecter les distinctions fines entre les sorties.
Voir aussi classement par paires, grand modèle de langues, Prometheus et Prometheus 2
Français
évaluation directe
Anglais
direct assessment
direct assessment ranking
Direct assessment is a method that evaluates several items at the same time, using multi-dimensional rubrics that output a scalar indicator of quality. It is used when the user wishes to have control and clarity over individual item evaluations. However, it struggles to detect fine distinctions between outputs.