Réseau autoattentif visuel multiéchelle


Révision datée du 28 septembre 2024 à 12:39 par Pitpitt (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Définition

Le réseau autoattentif visuel multiéchelle est un modèle servant à modéliser des données visuelles comme des images ou des vidéos. Il relie les concepts fondamentaux des hiérarchies des caractéristiques multiéchelles et du réseau autoattentif. Le réseau autoattentif visuel multiéchelle comporte plusieurs niveaux d'analyse pour la résolution des cannaux, contrairement aux réseaux autoattentif conventionnels.

Voir aussi canal et vision artificielle

Français

réseau autoattentif visuel multiéchelle

Anglais

multiscale vision transformers

MViT

The Multiscale Vision Transformer (MViT) is a model used for modeling visual data such as images and videos. MVit aims to connect the fundamental concepts of multiscale features hierarchies with the transformer model and unlike conventional transformers, MViT has several channel resolution ‘scale’ stages.

Source

Source : arxiv

Source : ai.meta

Contributeurs: Arianne , wiki