« Modèle multimodal en poupées russes » : différence entre les versions

Dernière version du 4 mars 2026 à 18:07

Définition

Approche qui représente le contenu visuel sous forme d'ensembles imbriqués de segments visuels capturant des informations à plusieurs degrés de précision (voir apprentissage de représentations en poupées russes).

Complément

Les grands modèles de langues ayant une extension modale en poupées russes ont un contrôle explicite sur la précision visuelle pendant l'inférence. Ceci permet d'ajuster le nombre de segments en fonction de la complexité du contenu. Par exemple, une image avec beaucoup de détails sera représentée avec un nombre segments plus important qu'une image plus simple.

Voir aussi LLaVa

Français

modèle multimodal en poupées russes

modèle multimodal en matriochka

M3

Anglais

Matryoshka Multimodal Models

M3

Source

Source : arxiv

@@ Ligne 1 : / Ligne 1 : @@
-==en construction==
+== Définition ==
+Approche qui représente le contenu visuel sous forme d'ensembles imbriqués de segments visuels capturant des informations à plusieurs degrés de précision (voir [[apprentissage de représentations en poupées russes]]).
+== Complément ==
+Les '''[[Grand modèle de langues|grands modèles de langues]]''' ayant une extension modale en poupées russes ont un contrôle explicite sur la précision visuelle pendant l''''[[inférence]]'''. Ceci permet d'ajuster le nombre de segments en fonction de la complexité du contenu. Par exemple, une image avec beaucoup de détails sera représentée avec un nombre segments plus important qu'une image plus simple.
-== Définition ==
+Voir aussi '''[[Large Language and Vision Assistant|LLaVa]]'''
-XXXXXXXXX
 == Français ==
-''' XXXXXXXXX '''
+''' modèle multimodal en poupées russes '''
+''' modèle multimodal en matriochka '''
+''' M3'''
 == Anglais ==
 '''Matryoshka Multimodal Models'''
- Matryoshka Multimodal Models learn to represent visual content as nested sets of visual tokens that capture information across multiple coarse-to-fine granularities. Our approach offers several unique benefits for LMMs: (1) One can explicitly control the visual granularity per test instance during inference, e.g. , adjusting the number of tokens used to represent an image based on the anticipated complexity or simplicity of the content; (2) M3 provides a framework for analyzing the granularity needed for existing datasets, where we find that COCO-style benchmarks only need around ~9 visual tokens to obtain accuracy similar to that of using all 576 tokens; (3) Our approach provides a foundation to explore the best trade-off between performance and visual token length at sample level, where our investigation reveals that a large gap exists between the oracle upper bound and current fixed-scale representations.
+''' M3'''
+<!--''Approach that represents visual content as nested sets of visual tokens that capture information across multiple granularities. LMMs equipped with M3 afford explicit control over the visual granularity per test instance during inference, enabling the adjustment of the number of tokens based on the anticipated complexity or simplicity of the content. For example, an image with dense details can be represented with more tokens, while simpler images can use fewer tokens.''-->
 == Source ==
 [https://arxiv.org/abs/2405.17430   Source : arxiv]
+[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
-[[Catégorie:vocabulary]]

« Modèle multimodal en poupées russes » : différence entre les versions