« Autoattention multitêtes » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 18 : | Ligne 18 : | ||
== Source == | == Source == | ||
[https://infoscience.epfl.ch/record/300271/files/EPFL_TH9822.pdf | [https://infoscience.epfl.ch/record/300271/files/EPFL_TH9822.pdf Cordonnier, J.-B. (2023), ''Transformer Models for Vision''.] | ||
[https://medium.com/@punya8147_26846/difference-between-self-attention-and-multi-head-self-attention-e33ebf4f3ee0, | [https://medium.com/@punya8147_26846/difference-between-self-attention-and-multi-head-self-attention-e33ebf4f3ee0, Punyakeerthi (2024), ''Difference between Self-Attention and Multi-head Self-Attention''] | ||
[https://cs.paperswithcode.com/method/multi-head-attention | [https://cs.paperswithcode.com/method/multi-head-attention Vaswani et al. (2017) ''Attention Is All You Need''] | ||
[[Catégorie:Publication]] | [[Catégorie:Publication]] |
Version du 3 septembre 2024 à 14:24
Définition
En apprentissage profond, l'autoattention multitêtes est un traitement de séquences (typiquement en langue naturelle) qui consiste à paralléliser le mécanisme d'autoattention en plusieurs points de la séquence pour ensuite fusionner les résultats.
Français
Autoattention multitêtes
Autoattention multi-têtes
Anglais
Multi-Head Attention
Multi-Head Self-Attention
Source
Cordonnier, J.-B. (2023), Transformer Models for Vision.
Punyakeerthi (2024), Difference between Self-Attention and Multi-head Self-Attention
Contributeurs: Claude Coulombe, Patrick Drouin, wiki