« Réseau autoattentif visuel multiéchelle » : historique des versions


Sélection du diff : cochez les boutons radio des versions à comparer et appuyez sur entrée ou sur le bouton en bas.
Légende : (actu) = différence avec la dernière version, (diff) = différence avec la version précédente, m = modification mineure.

28 septembre 2024

2 avril 2024

  • actudiff 08:232 avril 2024 à 08:23Pitpitt discussion contributions 1 418 octets +1 418 Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == ''' Multiscale Vision Transformers''' We present Multiscale Vision Transformers (MViT) for video and image recognition, by connecting the seminal idea of multiscale feature hierarchies with transformer models. Multiscale Transformers have several channel-resolution scale stages. Starting from the input resolution and a small channel dimension, the stages hierarchi... »