« Récupération multimodale » : différence entre les versions
(Page créée avec « == en construction == == Définition == XXXXX Voir aussi '''génération texte-à-image''' == Français == ''' XXXXXX''' == Anglais == ''' Cross-Modal Retrieval''' ''' CMR''' ''Cross-Modal Retrieval (CMR) is a task of retrieving items across different modalities, such as image, text, video, and audio. The core challenge of CMR is the heterogeneity gap, which arises because data from different modalities have distinct representations, making direct compa... ») |
Aucun résumé des modifications |
||
Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Basée sur l''''[[apprentissage de représentations]]''', cette tâche récupère des items provenant de différentes modalités (image, texte, vidéo et audio) à l'aide d'une requête de n'importe quelle modalité et elle exploite également la complémentarité et la cohérence entre ces données hétérogènes. Elle facilite ainsi la correspondance sémantique, elle aide les modèles de langue à combiner habilement les informations textuelles et visuelles ainsi qu'à générer du contenu enrichi par des images. | |||
Voir aussi '''[[génération texte-à-image]]''' | Voir aussi '''[[génération texte-à-image]]''', '''[[modèle de langue]]''' et '''[[grand modèle de langues]]''' | ||
== Français == | == Français == | ||
Ligne 14 : | Ligne 14 : | ||
''' CMR''' | ''' CMR''' | ||
'' | ''Based on representation learning, this task retrieves items across different modalities (image, text, video and audio) using a query from any one modality, and it also leverages complementary and consistency between heterogenous data. It facilitates semantic matching and helps language models to combine adeptly textual and visual information.'' | ||
== Source == | == Source == |
Version du 8 novembre 2024 à 17:38
en construction
Définition
Basée sur l'apprentissage de représentations, cette tâche récupère des items provenant de différentes modalités (image, texte, vidéo et audio) à l'aide d'une requête de n'importe quelle modalité et elle exploite également la complémentarité et la cohérence entre ces données hétérogènes. Elle facilite ainsi la correspondance sémantique, elle aide les modèles de langue à combiner habilement les informations textuelles et visuelles ainsi qu'à générer du contenu enrichi par des images.
Voir aussi génération texte-à-image, modèle de langue et grand modèle de langues
Français
XXXXXX
Anglais
Cross-Modal Retrieval
CMR
Based on representation learning, this task retrieves items across different modalities (image, text, video and audio) using a query from any one modality, and it also leverages complementary and consistency between heterogenous data. It facilitates semantic matching and helps language models to combine adeptly textual and visual information.