Modèle multimodal en poupées russes - Historique des versions

Pitpitt le 4 mars 2026 à 22:07

2026-03-04T22:07:43Z

← Version précédente		Version du 4 mars 2026 à 18:07
Ligne 24 :		Ligne 24 :
	[https://arxiv.org/abs/2405.17430 Source : arxiv]		[https://arxiv.org/abs/2405.17430 Source : arxiv]

	[[Catégorie:~~Publication~~]]		[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Patrickdrouin le 24 février 2026 à 20:20

2026-02-24T20:20:09Z

← Version précédente		Version du 24 février 2026 à 16:20
Ligne 3 :		Ligne 3 :

	== Complément ==		== Complément ==
	Les '''[[Grand modèle de langues\|grands modèles de langues]]''' ayant une extension ~~modales~~ en poupées russes ont un contrôle explicite sur la précision visuelle pendant l''''[[inférence]]'''~~, ce qui~~ permet d'ajuster le nombre de segments en fonction de la complexité du contenu.		Les '''[[Grand modèle de langues\|grands modèles de langues]]''' ayant une extension modale en poupées russes ont un contrôle explicite sur la précision visuelle pendant l''''[[inférence]]'''. Ceci permet d'ajuster le nombre de segments en fonction de la complexité du contenu. Par exemple, une image avec beaucoup de détails sera représentée avec un nombre segments plus important qu'une image plus simple.

	Par exemple, une image avec beaucoup de détails sera représentée avec un nombre segments plus important qu'une image plus ~~simples~~.

	Voir aussi '''[[Large Language and Vision Assistant\|LLaVa]]'''		Voir aussi '''[[Large Language and Vision Assistant\|LLaVa]]'''

	== Français ==		== Français ==
	''' ~~Modèles multimodaux de Matryoshka~~ '''		''' modèle multimodal en poupées russes '''

			''' modèle multimodal en matriochka '''

	''' M3'''		''' M3'''

Patrickdrouin le 24 février 2026 à 20:16

2026-02-24T20:16:17Z

← Version précédente		Version du 24 février 2026 à 16:16
Ligne 19 :		Ligne 19 :
	''' M3'''		''' M3'''

	''Approach that represents visual content as nested sets of visual tokens that capture information across multiple granularities. LMMs equipped with M3 afford explicit control over the visual granularity per test instance during inference, enabling the adjustment of the number of tokens based on the anticipated complexity or simplicity of the content. For example, an image with dense details can be represented with more tokens, while simpler images can use fewer tokens.''		<!--''Approach that represents visual content as nested sets of visual tokens that capture information across multiple granularities. LMMs equipped with M3 afford explicit control over the visual granularity per test instance during inference, enabling the adjustment of the number of tokens based on the anticipated complexity or simplicity of the content. For example, an image with dense details can be represented with more tokens, while simpler images can use fewer tokens.''-->

	== Source ==		== Source ==

Patrickdrouin le 24 février 2026 à 20:15

2026-02-24T20:15:58Z

← Version précédente		Version du 24 février 2026 à 16:15
Ligne 1 :		Ligne 1 :
	==~~en construction~~==		== Définition ==
			Approche qui représente le contenu visuel sous forme d'ensembles imbriqués de segments visuels capturant des informations à plusieurs degrés de précision (voir [[apprentissage de représentations en poupées russes]]).

	== ~~Définition~~ ==		== Complément ==
	~~Approche qui représente le contenu visuel sous forme d'ensembles imbriqués de segments (''tokens'') visuels capturant des informations à plusieurs degrés de précision.~~ Les '''[[Grand modèle de langues\|grands modèles de langues]]''' ~~équipés de modèle multimodal~~ en poupées russes ont un contrôle explicite sur la précision visuelle ~~par instance de test~~ pendant l''''[[inférence]]''', ce qui permet d'ajuster le nombre de segments en fonction de la complexité ~~ou de la simplicité~~ du contenu.		Les '''[[Grand modèle de langues\|grands modèles de langues]]''' ayant une extension modales en poupées russes ont un contrôle explicite sur la précision visuelle pendant l''''[[inférence]]''', ce qui permet d'ajuster le nombre de segments en fonction de la complexité du contenu.

	Par exemple, une image avec ~~des~~ détails ~~denses peut être~~ représentée avec plus ~~de segments, tandis que des images~~ plus simples ~~peuvent en utiliser moins~~.		Par exemple, une image avec beaucoup de détails sera représentée avec un nombre segments plus important qu'une image plus simples.

	Voir aussi '''[[Large Language and Vision Assistant\|LLaVa]]'''		Voir aussi '''[[Large Language and Vision Assistant\|LLaVa]]'''
Ligne 23 :		Ligne 24 :
	[https://arxiv.org/abs/2405.17430 Source : arxiv]		[https://arxiv.org/abs/2405.17430 Source : arxiv]

			[[Catégorie:Publication]]
	[[Catégorie:~~vocabulary~~]]

Patrickdrouin le 24 février 2026 à 20:09

2026-02-24T20:09:24Z

← Version précédente		Version du 24 février 2026 à 16:09
Ligne 2 :		Ligne 2 :

	== Définition ==		== Définition ==
	Approche qui représente le contenu visuel sous forme d'ensembles imbriqués de segments (''tokens'') visuels capturant des informations à plusieurs degrés de précision. Les '''[[Grand modèle de langues\|grands modèles de langues]]''' équipés de M3 ont un contrôle explicite sur la précision visuelle par instance de test pendant l''''[[inférence]]''', ce qui permet d'ajuster le nombre de segments en fonction de la complexité ou de la simplicité du contenu.		Approche qui représente le contenu visuel sous forme d'ensembles imbriqués de segments (''tokens'') visuels capturant des informations à plusieurs degrés de précision. Les '''[[Grand modèle de langues\|grands modèles de langues]]''' équipés de modèle multimodal en poupées russes ont un contrôle explicite sur la précision visuelle par instance de test pendant l''''[[inférence]]''', ce qui permet d'ajuster le nombre de segments en fonction de la complexité ou de la simplicité du contenu.

	Par exemple, une image avec des détails denses peut être représentée avec plus de segments, tandis que des images plus simples peuvent en utiliser moins.		Par exemple, une image avec des détails denses peut être représentée avec plus de segments, tandis que des images plus simples peuvent en utiliser moins.

Patrickdrouin : Patrickdrouin a déplacé la page Matryoshka Multimodal Models vers Modèle multimodal en poupées russes : modèle multimodal en poupées russes

2026-02-24T20:05:38Z

Patrickdrouin a déplacé la page Matryoshka Multimodal Models vers Modèle multimodal en poupées russes : modèle multimodal en poupées russes

← Version précédente	Version du 24 février 2026 à 16:05
(Aucune différence)

Arianne le 7 octobre 2025 à 18:38

2025-10-07T18:38:55Z

← Version précédente		Version du 7 octobre 2025 à 14:38
Ligne 2 :		Ligne 2 :

	== Définition ==		== Définition ==
	~~XXXXXXXXX~~		Approche qui représente le contenu visuel sous forme d'ensembles imbriqués de segments (''tokens'') visuels capturant des informations à plusieurs degrés de précision. Les '''[[Grand modèle de langues\|grands modèles de langues]]''' équipés de M3 ont un contrôle explicite sur la précision visuelle par instance de test pendant l''''[[inférence]]''', ce qui permet d'ajuster le nombre de segments en fonction de la complexité ou de la simplicité du contenu.

			Par exemple, une image avec des détails denses peut être représentée avec plus de segments, tandis que des images plus simples peuvent en utiliser moins.

			Voir aussi '''[[Large Language and Vision Assistant\|LLaVa]]'''

	== Français ==		== Français ==
	''' Modèles multimodaux de Matryoshka '''		''' Modèles multimodaux de Matryoshka '''

			''' M3'''

	== Anglais ==		== Anglais ==
Ligne 12 :		Ligne 18 :
	''' M3'''		''' M3'''

	~~Matryoshka Multimodal Models learn to represent~~ visual content as nested sets of visual tokens that capture information across multiple ~~coarse-to-fine~~ granularities. ~~Our approach offers several unique benefits for~~ LMMs~~: (1) One can explicitly~~ control the visual granularity per test instance during inference, ~~e.g. , adjusting~~ the number of tokens ~~used to represent an image~~ based on the anticipated complexity or simplicity of the content~~; (2) M3 provides a framework for analyzing the granularity needed for existing datasets~~, ~~where we find that COCO-style benchmarks only need around ~9 visual~~ tokens ~~to obtain accuracy similar to that of using all 576~~ tokens; (3) Our approach provides a foundation to explore the best trade-off between performance and visual token length at sample level, where our investigation reveals that a large gap exists between the oracle upper bound and current fixed-scale representations.		''Approach that represents visual content as nested sets of visual tokens that capture information across multiple granularities. LMMs equipped with M3 afford explicit control over the visual granularity per test instance during inference, enabling the adjustment of the number of tokens based on the anticipated complexity or simplicity of the content. For example, an image with dense details can be represented with more tokens, while simpler images can use fewer tokens.''

	== Source ==		== Source ==

Arianne le 6 octobre 2025 à 15:30

2025-10-06T15:30:11Z

← Version précédente		Version du 6 octobre 2025 à 11:30
Ligne 5 :		Ligne 5 :

	== Français ==		== Français ==
	''' ~~XXXXXXXXX~~ '''		''' Modèles multimodaux de Matryoshka '''

	== Anglais ==		== Anglais ==
	'''Matryoshka Multimodal Models'''		'''Matryoshka Multimodal Models'''

			''' M3'''

	Matryoshka Multimodal Models learn to represent visual content as nested sets of visual tokens that capture information across multiple coarse-to-fine granularities. Our approach offers several unique benefits for LMMs: (1) One can explicitly control the visual granularity per test instance during inference, e.g. , adjusting the number of tokens used to represent an image based on the anticipated complexity or simplicity of the content; (2) M3 provides a framework for analyzing the granularity needed for existing datasets, where we find that COCO-style benchmarks only need around ~9 visual tokens to obtain accuracy similar to that of using all 576 tokens; (3) Our approach provides a foundation to explore the best trade-off between performance and visual token length at sample level, where our investigation reveals that a large gap exists between the oracle upper bound and current fixed-scale representations.		Matryoshka Multimodal Models learn to represent visual content as nested sets of visual tokens that capture information across multiple coarse-to-fine granularities. Our approach offers several unique benefits for LMMs: (1) One can explicitly control the visual granularity per test instance during inference, e.g. , adjusting the number of tokens used to represent an image based on the anticipated complexity or simplicity of the content; (2) M3 provides a framework for analyzing the granularity needed for existing datasets, where we find that COCO-style benchmarks only need around ~9 visual tokens to obtain accuracy similar to that of using all 576 tokens; (3) Our approach provides a foundation to explore the best trade-off between performance and visual token length at sample level, where our investigation reveals that a large gap exists between the oracle upper bound and current fixed-scale representations.

Pitpitt : Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == '''Matryoshka Multimodal Models''' Matryoshka Multimodal Models learn to represent visual content as nested sets of visual tokens that capture information across multiple coarse-to-fine granularities. Our approach offers several unique benefits for LMMs: (1) One can explicitly control the visual granularity per test instance during inference, e.g. , adjusting the... »

2025-07-02T19:40:38Z

Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == '''Matryoshka Multimodal Models''' Matryoshka Multimodal Models learn to represent visual content as nested sets of visual tokens that capture information across multiple coarse-to-fine granularities. Our approach offers several unique benefits for LMMs: (1) One can explicitly control the visual granularity per test instance during inference, e.g. , adjusting the... »

Nouvelle page

==en construction==

== Définition ==
XXXXXXXXX

== Français ==
''' XXXXXXXXX '''

== Anglais ==
'''Matryoshka Multimodal Models'''

Matryoshka Multimodal Models learn to represent visual content as nested sets of visual tokens that capture information across multiple coarse-to-fine granularities. Our approach offers several unique benefits for LMMs: (1) One can explicitly control the visual granularity per test instance during inference, e.g. , adjusting the number of tokens used to represent an image based on the anticipated complexity or simplicity of the content; (2) M3 provides a framework for analyzing the granularity needed for existing datasets, where we find that COCO-style benchmarks only need around ~9 visual tokens to obtain accuracy similar to that of using all 576 tokens; (3) Our approach provides a foundation to explore the best trade-off between performance and visual token length at sample level, where our investigation reveals that a large gap exists between the oracle upper bound and current fixed-scale representations.

== Source ==
[https://arxiv.org/abs/2405.17430 Source : arxiv]

[[Catégorie:vocabulary]]