« Large Language and Vision Assistant » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
LLaVa (Large Language and Vision Assistant) est un modèle multimodal libre de grande taille qui appartient à la catégorie des grands modèles de langues et qui améliore les capacités de reconnaissance et de réponses aux questions portant sur des images. Il offre une réponse plus complète que GPT-4, mais il présente | LLaVa (Large Language and Vision Assistant) est un modèle multimodal libre de grande taille qui appartient à la catégorie des grands modèles de langues et qui améliore les capacités de reconnaissance et de réponses aux questions portant sur des images. Il offre une réponse plus complète que GPT-4, mais il présente tout de même des limites sur le plan sémantique. | ||
Voir aussi '''[[grand modèle de langues]]''' | Voir aussi '''[[grand modèle de langues]]''' |
Version du 26 octobre 2024 à 11:43
en construction
Définition
LLaVa (Large Language and Vision Assistant) est un modèle multimodal libre de grande taille qui appartient à la catégorie des grands modèles de langues et qui améliore les capacités de reconnaissance et de réponses aux questions portant sur des images. Il offre une réponse plus complète que GPT-4, mais il présente tout de même des limites sur le plan sémantique.
Voir aussi grand modèle de langues
Français
LLaVa
grand assistant linguistique et visuel
Anglais
LLaVA
large language and vision assistant
LLaVa (Large Language and Vision Assistant) is an open-source large multi-modal model belonging to Large Language Models and enhances capabilities for recognizing and answering questions about images. It offers more comprehensive response than GPT-4 but it also has limitation with semantic.