« Réseau autoattentif visuel multiéchelle » : différence entre les versions
m (Arianne a déplacé la page Multiscale Vision Transformers vers Réseau autoattentif visuel multiéchelle) |
Aucun résumé des modifications |
||
(Une version intermédiaire par un autre utilisateur non affichée) | |||
Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
Le réseau autoattentif visuel multiéchelle est un modèle servant à modéliser des données visuelles comme des images ou des vidéos. Il relie les concepts fondamentaux des hiérarchies des caractéristiques multiéchelles et du '''[[réseau autoattentif]]'''. Le réseau autoattentif visuel multiéchelle comporte plusieurs niveaux d'analyse pour la résolution des cannaux, contrairement aux réseaux autoattentif conventionnels. | Le réseau autoattentif visuel multiéchelle est un modèle servant à modéliser des données visuelles comme des images ou des vidéos. Il relie les concepts fondamentaux des hiérarchies des caractéristiques multiéchelles et du '''[[réseau autoattentif]]'''. Le réseau autoattentif visuel multiéchelle comporte plusieurs niveaux d'analyse pour la résolution des cannaux, contrairement aux réseaux autoattentif conventionnels. | ||
Voir aussi '''[[canal]]''' | Voir aussi '''[[canal]]''' et '''[[vision artificielle]]''' | ||
== Français == | == Français == | ||
Ligne 15 : | Ligne 13 : | ||
''The Multiscale Vision Transformer (MViT) is a model used for modeling visual data such as images and videos. MVit aims to connect the fundamental concepts of multiscale features hierarchies with the transformer model and unlike conventional transformers, MViT has several channel resolution ‘scale’ stages.'' | ''The Multiscale Vision Transformer (MViT) is a model used for modeling visual data such as images and videos. MVit aims to connect the fundamental concepts of multiscale features hierarchies with the transformer model and unlike conventional transformers, MViT has several channel resolution ‘scale’ stages.'' | ||
== Source == | == Source == | ||
Ligne 23 : | Ligne 20 : | ||
[https://ai.meta.com/blog/multiscale-vision-transformers-an-architecture-for-modeling-visual-data/ Source : ai.meta ] | [https://ai.meta.com/blog/multiscale-vision-transformers-an-architecture-for-modeling-visual-data/ Source : ai.meta ] | ||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] | |||
[[Catégorie: |
Dernière version du 28 septembre 2024 à 12:39
Définition
Le réseau autoattentif visuel multiéchelle est un modèle servant à modéliser des données visuelles comme des images ou des vidéos. Il relie les concepts fondamentaux des hiérarchies des caractéristiques multiéchelles et du réseau autoattentif. Le réseau autoattentif visuel multiéchelle comporte plusieurs niveaux d'analyse pour la résolution des cannaux, contrairement aux réseaux autoattentif conventionnels.
Voir aussi canal et vision artificielle
Français
réseau autoattentif visuel multiéchelle
Anglais
multiscale vision transformers
MViT
The Multiscale Vision Transformer (MViT) is a model used for modeling visual data such as images and videos. MVit aims to connect the fundamental concepts of multiscale features hierarchies with the transformer model and unlike conventional transformers, MViT has several channel resolution ‘scale’ stages.