« Grand modèle multimodal » : différence entre les versions

Version du 19 décembre 2023 à 15:55

Définition

Grand modèle qui admet plusieurs modes de représentation de l'information des données (texte, son, image, vidéo, données issues de capteurs, etc.) en entrée et en sortie.

Compléments

Voir modèle multimodal

Français

grand modèle multimodal

Anglais

large multimodal model

Source : ActuIA

Source: OpenAI

Source: Radio-Canada

@@ Ligne 3 : / Ligne 3 : @@
 == Compléments ==
-La frontière entre multimodal et multimédia est floue. On parle de multimédia quand il est question de médias bien établis (image, vidéo, son, texte) alors qu'on parle de multimodal pour tout ce qui peut éventuellement se représenter sous forme binaire. En IA, la tendance est plutôt d'utiliser l'adjectif ''multimodal'' que ''multimedia''.
+Voir [[modèle multimodal]]
 == Français ==
 ''' grand modèle multimodal '''
-''' grand modèle multimédia '''
 == Anglais ==
 '''large multimodal model'''
 <!--  Basically, multimodal LLMs combine text with other kinds of information, such as images, videos, audio, and other sensory data. Multimodality can solve some of the problems of the current generation of LLMs. Multimodal language models will also unlock new applications that were impossible with text-only models. -->