« Grand modèle de langues multimodal » : différence entre les versions

Dernière version du 27 janvier 2024 à 22:43

Définition

Grand modèle de langues qui admet plusieurs modalités de représentation de l'information des données (texte, son, image, vidéo, données issues de capteurs, etc.) en entrée et en sortie.

Voir modèle multimodal.

Français

grand modèle de langue multimodal

grand modèle de langage multimodal

GMLM

grand modèle multimodal

Anglais

multimodal large language model

MLLM

large multimodal model

Sources

Source : bdtechtalks

Source : Huang et al. (2023)

Source: Developpez.com

@@ Ligne 2 : / Ligne 2 : @@
 [[Grand modèle de langues]] qui admet plusieurs modalités de représentation de l'information des données (texte, son, image, vidéo, données issues de capteurs, etc.) en entrée et en sortie.
-== Compléments ==
+Voir [[modèle multimodal]].
-La frontière entre multimodal et multimédia est floue. On parle de multimédia quand il est question de médias bien établis (image, vidéo, son, texte) alors qu'on parle de multimodal pour tout ce qui peut éventuellement se représenter sous forme binaire.
-En IA, la tendance est plutôt d'utiliser l'adjectif ''multimodal'' que ''multimedia''. On utilise 'grand modèle de langue multimodal' quand le modèle de langue est la partie prépondérante du système d'IA. Le cas échéant, on parle plutôt de ''grand modèle multimodal''.
 == Français ==
 ''' grand modèle de langue multimodal '''
-''' grand modèle de langue multimédia '''
 '''grand modèle de langage multimodal'''
@@ Ligne 26 : / Ligne 21 : @@
 <!--  Basically, multimodal LLMs combine text with other kinds of information, such as images, videos, audio, and other sensory data. Multimodality can solve some of the problems of the current generation of LLMs. Multimodal language models will also unlock new applications that were impossible with text-only models. -->
-<small>
+==Sources==
 [https://bdtechtalks.com/2023/03/13/multimodal-large-language-models/   Source : bdtechtalks]