« Autoattention multitêtes » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
En [[apprentissage profond]], l'[[Réseau autoattentif|autoattention]] multitêtes est un traitement de séquences (typiquement en langue naturelle) qui consiste à paralléliser le mécanisme d'[[Réseau autoattentif|autoattention]] en plusieurs points de la séquence pour ensuite fusionner les résultats. | |||
== Français == | == Français == | ||
Ligne 13 : | Ligne 14 : | ||
Multi-head Attention is a module for attention mechanisms which runs through an attention mechanism several times in parallel. The independent attention outputs are then concatenated and linearly transformed into the expected dimension. Intuitively, multiple attention heads allows for attending to parts of the sequence differently (e.g. longer-term dependencies versus shorter-term dependencies). | <!-- Multi-head Attention is a module for attention mechanisms which runs through an attention mechanism several times in parallel. The independent attention outputs are then concatenated and linearly transformed into the expected dimension. Intuitively, multiple attention heads allows for attending to parts of the sequence differently (e.g. longer-term dependencies versus shorter-term dependencies). | ||
--> | |||
== Source == | == Source == |
Version du 3 septembre 2024 à 14:15
Définition
En apprentissage profond, l'autoattention multitêtes est un traitement de séquences (typiquement en langue naturelle) qui consiste à paralléliser le mécanisme d'autoattention en plusieurs points de la séquence pour ensuite fusionner les résultats.
Français
Autoattention multitêtes
Autoattention multi-têtes
Anglais
Multi-Head Attention
Multi-Head Self-Attention
Source
Source : Cordonnier, J.-B. (2023), Transformer Models for Vision.
Source: Punyakeerthi (2024), Difference between Self-Attention and Multi-head Self-Attention
Contributeurs: Claude Coulombe, Patrick Drouin, wiki