« Génération image-à-texte » : différence entre les versions
(Page créée avec « == en construction == == Définition == xxxxx == Français == ''' XXXXXX''' == Anglais == ''' Vision-Language Model''' ''' Vision Language Model''' ''' Visual Language Model''' ''' VLM''' ==Sources== [https://arxiv.org/abs/2405.17247 Source : arxiv] Catégorie:vocabulary ») |
Aucun résumé des modifications |
||
Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Les XXXXXXX sont des modèles multimodaux et ils appartiennent à la catégorie des modèles génératifs. Ils prennent des images et des textes en entrée pour ensuite générer des textes en sortie et ils peuvent accomplir de nombreuses tâches liées au ''langage visuel'', telles que le sous-titrage d'images ou la réponse à des questions visuelles. L''''[[apprentissage contrastif]]''' est couramment utilisé pour leur '''[[préentraînement]]'''. | |||
Voir aussi '''[[modèle génératif]]''' et '''[[modèle multimodal]]''' | |||
==compléments== | |||
à faire | |||
== Français == | == Français == | ||
Ligne 16 : | Ligne 21 : | ||
''' VLM''' | ''' VLM''' | ||
''Vision-language model are multimodal models belonging to generative models that take image and text inputs, and generate text outputs. They can accomplish various vision-language tasks suchs as image captioning and visual question answering. In their pretraining, contrastive learning is commonly used. '' | |||
''Vision-language models have also begun to incorporate instruction-fine-tuning and Reinforcement Learning from Human Feedback (RLHF) in vision-language models to improve multimodal chat capabilities and align outputs with desired responses.'' | |||
==Sources== | ==Sources== | ||
[https://arxiv.org/abs/2405.17247 Source : arxiv] | [https://arxiv.org/abs/2405.17247 Source : arxiv] | ||
[https://huggingface.co/blog/vlms Source : huggingface] | |||
[https://huggingface.co/blog/vision_language_pretraining Source : huggingface] | |||
[[Catégorie:vocabulary]] | [[Catégorie:vocabulary]] |
Version du 15 octobre 2024 à 13:16
en construction
Définition
Les XXXXXXX sont des modèles multimodaux et ils appartiennent à la catégorie des modèles génératifs. Ils prennent des images et des textes en entrée pour ensuite générer des textes en sortie et ils peuvent accomplir de nombreuses tâches liées au langage visuel, telles que le sous-titrage d'images ou la réponse à des questions visuelles. L'apprentissage contrastif est couramment utilisé pour leur préentraînement.
Voir aussi modèle génératif et modèle multimodal
compléments
à faire
Français
XXXXXX
Anglais
Vision-Language Model
Vision Language Model
Visual Language Model
VLM
Vision-language model are multimodal models belonging to generative models that take image and text inputs, and generate text outputs. They can accomplish various vision-language tasks suchs as image captioning and visual question answering. In their pretraining, contrastive learning is commonly used.
Vision-language models have also begun to incorporate instruction-fine-tuning and Reinforcement Learning from Human Feedback (RLHF) in vision-language models to improve multimodal chat capabilities and align outputs with desired responses.