« Modèle multimodal » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
(Une version intermédiaire par un autre utilisateur non affichée) | |||
Ligne 16 : | Ligne 16 : | ||
<!-- Basically, multimodal LLMs combine text with other kinds of information, such as images, videos, audio, and other sensory data. Multimodality can solve some of the problems of the current generation of LLMs. Multimodal language models will also unlock new applications that were impossible with text-only models. --> | <!-- Basically, multimodal LLMs combine text with other kinds of information, such as images, videos, audio, and other sensory data. Multimodality can solve some of the problems of the current generation of LLMs. Multimodal language models will also unlock new applications that were impossible with text-only models. --> | ||
==Sources== | |||
[https://bdtechtalks.com/2023/03/13/multimodal-large-language-models/ Source : bdtechtalks] | [https://bdtechtalks.com/2023/03/13/multimodal-large-language-models/ Source : bdtechtalks] | ||
[https://arxiv.org/abs/2302.14045arXiv Source : Huang et al. (2023)] | [https://arxiv.org/abs/2302.14045arXiv Source : Huang et al. (2023)] | ||
[https://microsoft.developpez.com/actu/342095/Microsoft-presente-le-grand-modele-de-langage-multimodal-Kosmos-1-les-chercheurs-montrent-que-le-passage-des-LLM-aux-MLLM-offre-de-nouvelles-capacites Source: Developpez.com] | [https://microsoft.developpez.com/actu/342095/Microsoft-presente-le-grand-modele-de-langage-multimodal-Kosmos-1-les-chercheurs-montrent-que-le-passage-des-LLM-aux-MLLM-offre-de-nouvelles-capacites Source: Developpez.com] |
Dernière version du 12 avril 2024 à 00:19
Définition
Modèle d'apprentissage qui admet plusieurs modalités de représentation des données (texte, son, image, vidéo, données issues de capteurs, etc.) en entrée et en sortie.
En d'autres mots, un modèle multimodal peut traiter et générer différents types de données, tels que du texte, des images, de l'audio et de la vidéo. Cela contrairement à un modèle non multimodal ou unimodal, qui ne traite que des données d'une seule modalité, comme uniquement du texte.
Compléments
La frontière entre multimodal et multimédia est floue. On parle davantage de mutimodal quand il est question de communication, d'interaction, de transmission de renseignement. Le terme multimédia est plutôt utilisé pour décrire l'aspect statique de l'information (image, vidéo, son, texte).
En IA, la tendance est plutôt d'utiliser l'adjectif multimodal que multimedia. On utilise 'grand modèle de langues multimodal' quand le modèle de langues est la partie prépondérante du système d'IA. Le cas échéant, on parle plutôt de grand modèle multimodal.
Français
modèle multimodal
Anglais
multimodal model
Sources
Contributeurs: Claude Coulombe, Patrick Drouin, wiki