« Grand modèle de langues multimodal » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 16 : | Ligne 16 : | ||
'''grand modèle de langage multimodal''' | '''grand modèle de langage multimodal''' | ||
'''GMLM''' | |||
== Anglais == | == Anglais == | ||
''' multimodal large language model''' | ''' multimodal large language model''' | ||
'''MLLM''' | |||
<!-- Basically, multimodal LLMs combine text with other kinds of information, such as images, videos, audio, and other sensory data. Multimodality can solve some of the problems of the current generation of LLMs. Multimodal language models will also unlock new applications that were impossible with text-only models. --> | <!-- Basically, multimodal LLMs combine text with other kinds of information, such as images, videos, audio, and other sensory data. Multimodality can solve some of the problems of the current generation of LLMs. Multimodal language models will also unlock new applications that were impossible with text-only models. --> | ||
Ligne 27 : | Ligne 30 : | ||
[https://bdtechtalks.com/2023/03/13/multimodal-large-language-models/ Source : bdtechtalks] | [https://bdtechtalks.com/2023/03/13/multimodal-large-language-models/ Source : bdtechtalks] | ||
[https://arxiv.org/abs/2302.14045arXiv Source : Huang et al. (2023)] | |||
[https://microsoft.developpez.com/actu/342095/Microsoft-presente-le-grand-modele-de-langage-multimodal-Kosmos-1-les-chercheurs-montrent-que-le-passage-des-LLM-aux-MLLM-offre-de-nouvelles-capacites Source: Developpez.com] | [https://microsoft.developpez.com/actu/342095/Microsoft-presente-le-grand-modele-de-langage-multimodal-Kosmos-1-les-chercheurs-montrent-que-le-passage-des-LLM-aux-MLLM-offre-de-nouvelles-capacites Source: Developpez.com] |
Version du 21 mars 2023 à 15:21
Définition
Grand modèle de langue qui admet plusieurs modes de représentation de l'information des données (texte, son, image, vidéo, données issues de capteurs, etc.) en entrée et en sortie.
Compléments
La frontière entre multimodal et multimédia est floue. On parle de multimédia quand il est question de médias bien établis (image, vidéo, son, texte) alors qu'on parle de multimodal pour tout ce qui peut éventuellement se représenter sous forme binaire.
En IA, la tendance est plutôt d'utiliser l'adjectif multimodal que multimedia. On utilise 'grand modèle de langue multimodal' quand le modèle de langue est la partie prépondérante du système d'IA. Le cas échéant, on parle plutôt de grand modèle multimodal.
Français
grand modèle de langue multimodal
grand modèle de langue multimédia
grand modèle de langage multimodal
GMLM
Anglais
multimodal large language model
MLLM
Contributeurs: Claude Coulombe, Patrick Drouin, wiki