« Récupération multimodale » : différence entre les versions

Dernière version du 8 novembre 2024 à 23:00

Définition

Basée sur l'apprentissage de représentations, cette tâche récupère des items de différentes modalités, telles que l'image, le texte, la vidéo et l'audio à l'aide d'une requête de n'importe quelle modalité. Elle exploite également la complémentarité et la cohérence entre ces données hétérogènes. Cette tâche facilite donc la correspondance sémantique, elle aide les modèles de langue à combiner habilement les informations textuelles et visuelles ainsi qu'à générer du contenu enrichi par des images.

Voir aussi génération texte-à-image, modèle de langue et grand modèle de langues

Français

récupération multimodale

Anglais

cross-modal retrieval

CMR

Based on representation learning, this task retrieves items across different modalities (image, text, video and audio) using a query from any one modality, and it also leverages complementary and consistency between heterogenous data. It facilitates semantic matching and helps language models to combine adeptly textual and visual information.

Source

Source : Paper with code

Source : Medium

Source : arxiv

@@ Ligne 1 : / Ligne 1 : @@
-== en construction ==
 == Définition ==
-XXXXX
+Basée sur l''''[[apprentissage de représentations]]''', cette tâche récupère des items de différentes modalités, telles que l'image, le texte, la vidéo et l'audio à l'aide d'une requête de n'importe quelle modalité. Elle exploite également la complémentarité et la cohérence entre ces données hétérogènes. Cette tâche facilite donc la correspondance sémantique, elle aide les modèles de langue à combiner habilement les informations textuelles et visuelles ainsi qu'à générer du contenu enrichi par des images.
-Voir aussi '''[[génération texte-à-image]]'''
+Voir aussi '''[[génération texte-à-image]]''', '''[[modèle de langue]]''' et '''[[grand modèle de langues]]'''
 == Français ==
-''' XXXXXX'''
+''' récupération multimodale'''
 == Anglais ==
-''' Cross-Modal Retrieval'''
+''' cross-modal retrieval'''
 ''' CMR'''
-''Cross-Modal Retrieval (CMR) is a task of retrieving items across different modalities, such as image, text, video, and audio. The core challenge of CMR is the heterogeneity gap, which arises because data from different modalities have distinct representations, making direct comparison difficult. To address this, most CMR methods focus on learning a shared latent embedding space. In this space, concepts from different modalities are projected, allowing their similarity to be measured using a distance metric.''
+''Based on representation learning, this task retrieves items across different modalities (image, text, video and audio) using a query from any one modality, and it also leverages complementary and consistency between heterogenous data. It facilitates semantic matching and helps language models to combine adeptly textual and visual information.''
 == Source ==
@@ Ligne 23 : / Ligne 21 : @@
 [https://arxiv.org/abs/2308.14263   Source : arxiv]
-[[Catégorie:vocabulary]]
+[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

« Récupération multimodale » : différence entre les versions