« Prometheus » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(Une version intermédiaire par le même utilisateur non affichée)
Ligne 1 : Ligne 1 :
==en construction==
== Définition ==
== Définition ==
Prometheus désigne un '''[[grand modèle de langues]]''' libre d'accès spécialisée dans l'évaluation peaufinée/fine qui peut généraliser et personnaliser les grilles d'évaluation de manière multidimensionnelle. Il est en mesure de générer un retour d'information détaillé critiquant les éléments de la réponse qui sont erronés et cherche à les améliorer. De plus, Prometheus constitue une bonne alternative à l'évaluation humaine et à celle de GPT-4.
Prometheus désigne un '''[[grand modèle de langues]]''' libre d'accès spécialisée dans l'évaluation peaufinée/fine (?) qui peut généraliser et personnaliser les grilles d'évaluation de manière multidimensionnelle. Il est en mesure de générer un retour d'information détaillé critiquant les éléments de la réponse qui sont erronés et cherche à les améliorer. De plus, Prometheus constitue une bonne alternative à l'évaluation humaine et à celle de GPT-4.


== Français ==
== Français ==
Ligne 19 : Ligne 21 :




[[Catégorie:publication]]
[[Catégorie:vocabulaire]]

Dernière version du 30 septembre 2024 à 10:48

en construction

Définition

Prometheus désigne un grand modèle de langues libre d'accès spécialisée dans l'évaluation peaufinée/fine (?) qui peut généraliser et personnaliser les grilles d'évaluation de manière multidimensionnelle. Il est en mesure de générer un retour d'information détaillé critiquant les éléments de la réponse qui sont erronés et cherche à les améliorer. De plus, Prometheus constitue une bonne alternative à l'évaluation humaine et à celle de GPT-4.

Français

Prometheus

Anglais

Prometheus

Prometheus is an open-source Large Language Model specialized for fine-grained evaluation that can generalizes and customizes in a multi-dimensional preference way score rubric. It generates a detailed feedback criticizing which component within the response is wrong and seek improvement. Also, it is a good alternative for human evaluation and GPT-4 evaluation.


Source

Source : arxiv

Source : github

Contributeurs: Arianne , wiki