« BLEURT » : différence entre les versions

Dernière version du 20 mars 2026 à 11:05

Définition

Métrique d'évaluation de traduction automatique qui utilise des vecteurs sémantiques compacts (comme BERTScore) et qui ajoute une étape d'entraînement sur des données d'évaluation humaine. Ainsi, elle permet non seulement de saisir les similitudes sémantiques non triviales entre les phrases (de référence et candidates), mais elle permet aussi au modèle de prédire le score qu'un humain donnerait, capturant des nuances de fluidité et de sens que la simple distance vectorielle ne voit pas toujours.

Voir aussi BLEU et COMET

Français

BLEURT

Anglais

Bilingual Evaluation Understudy with Representations from Transformers

BLEURT

A machine translation evaluation metric that uses embeddings (such as BERTScore) and incorporates a training step using human evaluation data. Thus, it not only captures non-trivial semantic similarities between sentences (reference and candidate), but also enables the model to predict the score a human would give, capturing nuances of fluency and meaning that simple vector distance does not always capture.

Sources

Source : ACL Anthology

Source : GitHub

Source : Google Research Blog

@@ Ligne 1 : / Ligne 1 : @@
 == Définition ==
-Métrique d'évaluation de '''[[traduction automatique]]''' qui prend en entrée une paire de phrases (une référence et une candidate) et renvoie un score indiquant dans quelle mesure la phrase candidate est fluide et transmet le sens de la phrase de référence. Elle permet de saisir les similitudes sémantiques non triviales entre les phrases.
+Métrique d'évaluation de '''[[traduction automatique]]''' qui utilise des '''[[Vecteur sémantique compact|vecteurs sémantiques compacts]]''' (comme '''[[BERTScore]]''') et qui ajoute une étape d''''[[entraînement]]''' sur des données d'évaluation humaine. Ainsi, elle permet non seulement de saisir les similitudes sémantiques non triviales entre les phrases (de référence et candidates), mais elle permet aussi au modèle de prédire le score qu'un humain donnerait, capturant des nuances de fluidité et de sens que la simple distance vectorielle ne voit pas toujours.
 Voir aussi '''[[BLEU]]''' et '''[[COMET]]'''
@@ Ligne 12 : / Ligne 12 : @@
 ''' BLEURT'''
-<!--Trained evaluation metric that takes a pair of sentences as input (a reference and a candidate), and it returns a score that indicates to what extent the candidate is fluent and conveys the meaning of the reference. It can capture non-trivial semantic similarities between sentences.-->
+''A machine translation evaluation metric that uses embeddings (such as BERTScore) and incorporates a training step using human evaluation data. Thus, it not only captures non-trivial semantic similarities between sentences (reference and candidate), but also enables the model to predict the score a human would give, capturing nuances of fluency and meaning that simple vector distance does not always capture.''
 == Sources ==
 [https://aclanthology.org/2020.acl-main.704/   Source : ACL Anthology]

« BLEURT » : différence entre les versions