« Autoattention multitêtes » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 22 : | Ligne 22 : | ||
[https://medium.com/@punya8147_26846/difference-between-self-attention-and-multi-head-self-attention-e33ebf4f3ee0, Source: Punyakeerthi (2024), ''Difference between Self-Attention and Multi-head Self-Attention''] | [https://medium.com/@punya8147_26846/difference-between-self-attention-and-multi-head-self-attention-e33ebf4f3ee0, Source: Punyakeerthi (2024), ''Difference between Self-Attention and Multi-head Self-Attention''] | ||
[https://cs.paperswithcode.com/method/multi-head-attention Source : | [https://cs.paperswithcode.com/method/multi-head-attention Source : Vaswani et al. (2017) ''Attention Is All You Need''] | ||
[[Catégorie:Publication]] | [[Catégorie:Publication]] |
Version du 3 septembre 2024 à 14:23
Définition
En apprentissage profond, l'autoattention multitêtes est un traitement de séquences (typiquement en langue naturelle) qui consiste à paralléliser le mécanisme d'autoattention en plusieurs points de la séquence pour ensuite fusionner les résultats.
Français
Autoattention multitêtes
Autoattention multi-têtes
Anglais
Multi-Head Attention
Multi-Head Self-Attention
Source
Source : Cordonnier, J.-B. (2023), Transformer Models for Vision.
Source: Punyakeerthi (2024), Difference between Self-Attention and Multi-head Self-Attention
Contributeurs: Claude Coulombe, Patrick Drouin, wiki