« Modèle multimodal en poupées russes » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| (4 versions intermédiaires par le même utilisateur non affichées) | |||
| Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
Approche qui représente le contenu visuel sous forme d'ensembles imbriqués de segments | Approche qui représente le contenu visuel sous forme d'ensembles imbriqués de segments visuels capturant des informations à plusieurs degrés de précision (voir [[apprentissage de représentations en poupées russes]]). | ||
Par exemple, une image avec | == Complément == | ||
Les '''[[Grand modèle de langues|grands modèles de langues]]''' ayant une extension modale en poupées russes ont un contrôle explicite sur la précision visuelle pendant l''''[[inférence]]'''. Ceci permet d'ajuster le nombre de segments en fonction de la complexité du contenu. Par exemple, une image avec beaucoup de détails sera représentée avec un nombre segments plus important qu'une image plus simple. | |||
Voir aussi '''[[Large Language and Vision Assistant|LLaVa]]''' | Voir aussi '''[[Large Language and Vision Assistant|LLaVa]]''' | ||
== Français == | == Français == | ||
''' | ''' modèle multimodal en poupées russes ''' | ||
''' modèle multimodal en matriochka ''' | |||
''' M3''' | ''' M3''' | ||
| Ligne 18 : | Ligne 19 : | ||
''' M3''' | ''' M3''' | ||
''Approach that represents visual content as nested sets of visual tokens that capture information across multiple granularities. LMMs equipped with M3 afford explicit control over the visual granularity per test instance during inference, enabling the adjustment of the number of tokens based on the anticipated complexity or simplicity of the content. For example, an image with dense details can be represented with more tokens, while simpler images can use fewer tokens.'' | <!--''Approach that represents visual content as nested sets of visual tokens that capture information across multiple granularities. LMMs equipped with M3 afford explicit control over the visual granularity per test instance during inference, enabling the adjustment of the number of tokens based on the anticipated complexity or simplicity of the content. For example, an image with dense details can be represented with more tokens, while simpler images can use fewer tokens.''--> | ||
== Source == | == Source == | ||
[https://arxiv.org/abs/2405.17430 Source : arxiv] | [https://arxiv.org/abs/2405.17430 Source : arxiv] | ||
[[Catégorie:Publication]] | |||
[[Catégorie: | |||
Dernière version du 24 février 2026 à 15:20
Définition
Approche qui représente le contenu visuel sous forme d'ensembles imbriqués de segments visuels capturant des informations à plusieurs degrés de précision (voir apprentissage de représentations en poupées russes).
Complément
Les grands modèles de langues ayant une extension modale en poupées russes ont un contrôle explicite sur la précision visuelle pendant l'inférence. Ceci permet d'ajuster le nombre de segments en fonction de la complexité du contenu. Par exemple, une image avec beaucoup de détails sera représentée avec un nombre segments plus important qu'une image plus simple.
Voir aussi LLaVa
Français
modèle multimodal en poupées russes
modèle multimodal en matriochka
M3
Anglais
Matryoshka Multimodal Models
M3
Source
Contributeurs: Arianne Arel, Patrick Drouin, wiki





