« Réseau autoattentif visuel multiéchelle » : différence entre les versions
(Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == ''' Multiscale Vision Transformers''' We present Multiscale Vision Transformers (MViT) for video and image recognition, by connecting the seminal idea of multiscale feature hierarchies with transformer models. Multiscale Transformers have several channel-resolution scale stages. Starting from the input resolution and a small channel dimension, the stages hierarchi... ») |
Aucun résumé des modifications |
||
Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Le réseau autoattentif visuelle multiéchelle est un modèle servant à modéliser des données visuelles comme des images ou des vidéos. Il relie les concepts fondamentaux des hiérarchies des caractéristiques multiéchelles et du '''[[réseau autoattentif]]'''. Le réseau autoattentif visuel multiéchelle comporte plusieurs niveaux d'analyse pour la résolution des cannaux, contrairement aux réseaux autoattentif conventionnels. | |||
Voir aussi '''[[canal]]''' | |||
== Français == | == Français == | ||
''' | ''' réseau autoattentif visuel multiéchelle ''' | ||
== Anglais == | == Anglais == | ||
''' | ''' multiscale vision transformers''' | ||
''' MViT''' | |||
''The Multiscale Vision Transformer (MViT) is a model used for modeling visual data such as images and videos. MVit aims to connect the fundamental concepts of multiscale features hierarchies with the transformer model and unlike conventional transformers, MViT has several channel resolution ‘scale’ stages.'' | |||
Ligne 20 : | Ligne 24 : | ||
[[Catégorie: | [[Catégorie:publication]] |
Version du 28 septembre 2024 à 09:28
en construction
Définition
Le réseau autoattentif visuelle multiéchelle est un modèle servant à modéliser des données visuelles comme des images ou des vidéos. Il relie les concepts fondamentaux des hiérarchies des caractéristiques multiéchelles et du réseau autoattentif. Le réseau autoattentif visuel multiéchelle comporte plusieurs niveaux d'analyse pour la résolution des cannaux, contrairement aux réseaux autoattentif conventionnels.
Voir aussi canal
Français
réseau autoattentif visuel multiéchelle
Anglais
multiscale vision transformers
MViT
The Multiscale Vision Transformer (MViT) is a model used for modeling visual data such as images and videos. MVit aims to connect the fundamental concepts of multiscale features hierarchies with the transformer model and unlike conventional transformers, MViT has several channel resolution ‘scale’ stages.