« Prometheus » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
== Définition ==
== Définition ==
XXXXXXXXX
Prometheus désigne un '''[[grand modèle de langues]]''' libre d'accès spécialisée dans l'évaluation peaufinée/fine qui peut généraliser et personnaliser les grilles d'évaluation de manière multidimensionnelle. Il est en mesure de générer un retour d'information détaillé critiquant les éléments de la réponse qui sont erronés et cherche à les améliorer. De plus, Prometheus constitue une bonne alternative à l'évaluation humaine et à celle de GPT-4.


== Français ==
== Français ==
Ligne 8 : Ligne 8 :
''' Prometheus '''
''' Prometheus '''


An Open Source Language Model Specialized in Evaluating Other Language Models
''Prometheus is an open-source Large Language Model specialized for fine-grained evaluation that can generalizes and customizes in a multi-dimensional preference way score rubric. It generates a detailed feedback criticizing which component within the response is wrong and seek improvement. Also, it is a good alternative for human evaluation and GPT-4 evaluation.




== Source ==
== Source ==


[https://arxiv.org/abs/2405.01535   Source : arxiv]
[https://arxiv.org/abs/2310.08491   Source : arxiv]


[https://github.com/prometheus-eval/prometheus?tab=readme-ov-file  Source : github]




[[Catégorie:vocabulary]]
 
[[Catégorie:publication]]

Version du 30 septembre 2024 à 10:29

Définition

Prometheus désigne un grand modèle de langues libre d'accès spécialisée dans l'évaluation peaufinée/fine qui peut généraliser et personnaliser les grilles d'évaluation de manière multidimensionnelle. Il est en mesure de générer un retour d'information détaillé critiquant les éléments de la réponse qui sont erronés et cherche à les améliorer. De plus, Prometheus constitue une bonne alternative à l'évaluation humaine et à celle de GPT-4.

Français

Prometheus

Anglais

Prometheus

Prometheus is an open-source Large Language Model specialized for fine-grained evaluation that can generalizes and customizes in a multi-dimensional preference way score rubric. It generates a detailed feedback criticizing which component within the response is wrong and seek improvement. Also, it is a good alternative for human evaluation and GPT-4 evaluation.


Source

Source : arxiv

Source : github

Contributeurs: Arianne , wiki