« Autoattention multitêtes » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
(Une version intermédiaire par un autre utilisateur non affichée) | |||
Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
En [[apprentissage profond]], l' | En [[apprentissage profond]], l'autoattention multitêtes est un traitement de [[Séquence de mots|séquence]] (typiquement en [[langue naturelle]]) qui consiste à paralléliser le mécanisme d'[[Mécanisme d'attention|autoattention]] en plusieurs points de la séquence pour ensuite fusionner les résultats. | ||
== Compléments == | == Compléments == | ||
Ligne 9 : | Ligne 9 : | ||
== Français == | == Français == | ||
''' | ''' autoattention multitêtes ''' | ||
''' | ''' autoattention multi-têtes ''' | ||
''' | '''attention multitêtes''' | ||
''' | '''attention multi-têtes''' | ||
== Anglais == | == Anglais == | ||
''' | ''' multi-head self-attention''' | ||
''' | ''' Mmulti-head attention''' | ||
<!-- Multi-head | <!-- Multi-head attention is a module for attention mechanisms which runs through an attention mechanism several times in parallel. The independent attention outputs are then concatenated and linearly transformed into the expected dimension. Intuitively, multiple attention heads allows for attending to parts of the sequence differently (e.g. longer-term dependencies versus shorter-term dependencies). --> | ||
== Source == | == Source == | ||
[https://infoscience.epfl.ch/record/300271/files/EPFL_TH9822.pdf Cordonnier, J.-B. (2023), ''Transformer Models for Vision''.] | [https://infoscience.epfl.ch/record/300271/files/EPFL_TH9822.pdf Cordonnier, J.-B. (2023), ''Transformer Models for Vision''.] | ||
Ligne 30 : | Ligne 30 : | ||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] | ||
[[Catégorie:101]] |
Dernière version du 15 janvier 2025 à 20:16
Définition
En apprentissage profond, l'autoattention multitêtes est un traitement de séquence (typiquement en langue naturelle) qui consiste à paralléliser le mécanisme d'autoattention en plusieurs points de la séquence pour ensuite fusionner les résultats.
Compléments
Puisque chaque tête prête attention à un élément distinct de la séquence, le modèle capture mieux les effets de la position dans la séquence. Il en résulte une représentation plus riche.
En fonction des segments sur lesquels se focalise l'attention, le mécanisme pourra vérifier l'accord sujet-verbe, reconnaîtra une entité nommée ou simplement une relation entre deux mots.
Français
autoattention multitêtes
autoattention multi-têtes
attention multitêtes
attention multi-têtes
Anglais
multi-head self-attention
Mmulti-head attention
Source
Cordonnier, J.-B. (2023), Transformer Models for Vision.
Punyakeerthi (2024), Difference between Self-Attention and Multi-head Self-Attention
Contributeurs: Arianne , Claude Coulombe, Patrick Drouin, wiki