« Modèle multimodal en poupées russes » : différence entre les versions

Version du 24 février 2026 à 16:20

Définition

Approche qui représente le contenu visuel sous forme d'ensembles imbriqués de segments visuels capturant des informations à plusieurs degrés de précision (voir apprentissage de représentations en poupées russes).

Complément

Les grands modèles de langues ayant une extension modale en poupées russes ont un contrôle explicite sur la précision visuelle pendant l'inférence. Ceci permet d'ajuster le nombre de segments en fonction de la complexité du contenu. Par exemple, une image avec beaucoup de détails sera représentée avec un nombre segments plus important qu'une image plus simple.

Voir aussi LLaVa

Français

modèle multimodal en poupées russes

modèle multimodal en matriochka

M3

Anglais

Matryoshka Multimodal Models

M3

Source

Source : arxiv

@@ Ligne 3 : / Ligne 3 : @@
 == Complément ==
-Les '''[[Grand modèle de langues|grands modèles de langues]]''' ayant une extension modales en poupées russes ont un contrôle explicite sur la précision visuelle pendant l''''[[inférence]]''', ce qui permet d'ajuster le nombre de segments en fonction de la complexité du contenu.
+Les '''[[Grand modèle de langues|grands modèles de langues]]''' ayant une extension modale en poupées russes ont un contrôle explicite sur la précision visuelle pendant l''''[[inférence]]'''. Ceci permet d'ajuster le nombre de segments en fonction de la complexité du contenu. Par exemple, une image avec beaucoup de détails sera représentée avec un nombre segments plus important qu'une image plus simple.
-Par exemple, une image avec beaucoup de détails sera représentée avec un nombre segments plus important qu'une image plus simples.
 Voir aussi '''[[Large Language and Vision Assistant|LLaVa]]'''
 == Français ==
-''' Modèles multimodaux de Matryoshka '''
+''' modèle multimodal en poupées russes '''
+''' modèle multimodal en matriochka '''
 ''' M3'''

« Modèle multimodal en poupées russes » : différence entre les versions