« Autoattention multitêtes » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 2 : | Ligne 2 : | ||
En [[apprentissage profond]], l'[[Mécanisme d'attention|autoattention]] multitêtes est un traitement de [[Séquence de mots|séquences]] (typiquement en [[langue naturelle]]) qui consiste à paralléliser le mécanisme d'[[Mécanisme d'attention|autoattention]] en plusieurs points de la [[Séquence de mots|séquence]] pour ensuite fusionner les résultats. | En [[apprentissage profond]], l'[[Mécanisme d'attention|autoattention]] multitêtes est un traitement de [[Séquence de mots|séquences]] (typiquement en [[langue naturelle]]) qui consiste à paralléliser le mécanisme d'[[Mécanisme d'attention|autoattention]] en plusieurs points de la [[Séquence de mots|séquence]] pour ensuite fusionner les résultats. | ||
== Compléments == | |||
En fonction du segment sur lequel se focalise l'[[Mécanisme d'attention|attention]], le [[Mécanisme d'attention|mécanisme]] pourra vérifier l'accord sujet-verbe, reconnaîtra une entité nommée ou simplement une relation entre deux [[segment|segments]] (en anglais tokens). | |||
== Français == | == Français == |
Version du 3 septembre 2024 à 14:38
Définition
En apprentissage profond, l'autoattention multitêtes est un traitement de séquences (typiquement en langue naturelle) qui consiste à paralléliser le mécanisme d'autoattention en plusieurs points de la séquence pour ensuite fusionner les résultats.
Compléments
En fonction du segment sur lequel se focalise l'attention, le mécanisme pourra vérifier l'accord sujet-verbe, reconnaîtra une entité nommée ou simplement une relation entre deux segments (en anglais tokens).
Français
Autoattention multitêtes
Autoattention multi-têtes
Anglais
Multi-Head Attention
Multi-Head Self-Attention
Source
Cordonnier, J.-B. (2023), Transformer Models for Vision.
Punyakeerthi (2024), Difference between Self-Attention and Multi-head Self-Attention
Contributeurs: Claude Coulombe, Patrick Drouin, wiki