« Récupération multimodale » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
(Une version intermédiaire par un autre utilisateur non affichée) | |||
Ligne 21 : | Ligne 21 : | ||
[https://arxiv.org/abs/2308.14263 Source : arxiv] | [https://arxiv.org/abs/2308.14263 Source : arxiv] | ||
[[Catégorie: | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Dernière version du 8 novembre 2024 à 22:00
Définition
Basée sur l'apprentissage de représentations, cette tâche récupère des items de différentes modalités, telles que l'image, le texte, la vidéo et l'audio à l'aide d'une requête de n'importe quelle modalité. Elle exploite également la complémentarité et la cohérence entre ces données hétérogènes. Cette tâche facilite donc la correspondance sémantique, elle aide les modèles de langue à combiner habilement les informations textuelles et visuelles ainsi qu'à générer du contenu enrichi par des images.
Voir aussi génération texte-à-image, modèle de langue et grand modèle de langues
Français
récupération multimodale
Anglais
cross-modal retrieval
CMR
Based on representation learning, this task retrieves items across different modalities (image, text, video and audio) using a query from any one modality, and it also leverages complementary and consistency between heterogenous data. It facilitates semantic matching and helps language models to combine adeptly textual and visual information.