« Modèle de langue visuel » : différence entre les versions

Dernière version du 24 octobre 2024 à 21:23

Définition

Les modèles de langues visuels sont des modèles multimodaux et ils appartiennent à la catégorie des modèles génératifs. Ils prennent des images ainsi que des textes en entrée pour ensuite générer des textes en sortie. Ils peuvent accomplir de nombreuses tâches liées au langage visuel, telles que le sous-titrage d'images ou la réponse à des questions visuelles. L'apprentissage contrastif est couramment utilisé pour leur préentraînement.

Voir aussi modèle génératif et modèle multimodal

Compléments

Les modèles de langue visuels ont également commencé à incorporer des instructions et apprentissage par renforcement et rétroaction humaine (ARRH) afin d'améliorer les capacités de dialogue multimodal et d'aligner les résultats sur les réponses souhaitées.

Français

modèle de langue visuel

Anglais

vision-language model

vision language model

visual language model

VLM

Vision-language model are multimodal models belonging to generative models that take image and text inputs, and generate text outputs. They can accomplish various vision-language tasks suchs as image captioning and visual question answering. In their pretraining, contrastive learning is commonly used.

Vision-language models have also begun to incorporate instruction-fine-tuning and Reinforcement Learning from Human Feedback (RLHF) in vision-language models to improve multimodal chat capabilities and align outputs with desired responses.

Sources

Source : arxiv

Source : huggingface

@@ Ligne 1 : / Ligne 1 : @@
-== en construction ==
+== Définition ==
+Les modèles de langues visuels sont des modèles multimodaux et ils appartiennent à la catégorie des modèles génératifs. Ils prennent des images ainsi que des textes en entrée pour ensuite générer des textes en sortie. Ils peuvent accomplir de nombreuses tâches liées au ''langage visuel'', telles que le sous-titrage d'images ou la réponse à des questions visuelles. L''''[[apprentissage contrastif]]''' est couramment utilisé pour leur '''[[préentraînement]]'''.
-== Définition ==
+Voir aussi '''[[modèle génératif]]''' et '''[[modèle multimodal]]'''
-xxxxx
+== Compléments ==
+Les modèles de langue visuels ont également commencé à incorporer des instructions et '''[[apprentissage par renforcement et rétroaction humaine]]''' (ARRH) afin d'améliorer les capacités de dialogue multimodal et d'aligner les résultats sur les réponses souhaitées.
 == Français ==
-''' XXXXXX'''
+''' modèle de langue visuel'''
 == Anglais ==
-''' Vision-Language Model'''
+''' vision-language model'''
-''' Vision Language Model'''
+''' vision language model'''
-''' Visual Language Model'''
+''' visual language model'''
 ''' VLM'''
+''Vision-language model are multimodal models belonging to generative models that take image and text inputs, and generate text outputs. They can accomplish various vision-language tasks suchs as image captioning and visual question answering. In their pretraining, contrastive learning is commonly used. ''
+''Vision-language models have also begun to incorporate instruction-fine-tuning and Reinforcement Learning from Human Feedback (RLHF) in vision-language models to improve multimodal chat capabilities and align outputs with desired responses.''
 ==Sources==
 [https://arxiv.org/abs/2405.17247  Source : arxiv]
+[https://huggingface.co/blog/vlms   Source : huggingface]
+[https://huggingface.co/blog/vision_language_pretraining   Source : huggingface]
-[[Catégorie:vocabulary]]
+[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

« Modèle de langue visuel » : différence entre les versions