« Autoattention multitêtes » : différence entre les versions

Version du 3 septembre 2024 à 14:38

Définition

En apprentissage profond, l'autoattention multitêtes est un traitement de séquences (typiquement en langue naturelle) qui consiste à paralléliser le mécanisme d'autoattention en plusieurs points de la séquence pour ensuite fusionner les résultats.

Compléments

En fonction des segments sur lesquels se focalise l'attention, le mécanisme pourra vérifier l'accord sujet-verbe, reconnaîtra une entité nommée ou simplement une relation entre deux segments (en anglais tokens).

Français

Autoattention multitêtes

Autoattention multi-têtes

Anglais

Multi-Head Attention

Multi-Head Self-Attention

Source

Cordonnier, J.-B. (2023), Transformer Models for Vision.

Punyakeerthi (2024), Difference between Self-Attention and Multi-head Self-Attention

Vaswani et al. (2017) Attention Is All You Need

@@ Ligne 4 : / Ligne 4 : @@
 == Compléments ==
-En fonction du segment sur lequel se focalise l'[[Mécanisme d'attention|attention]], le [[Mécanisme d'attention|mécanisme]] pourra vérifier l'accord sujet-verbe, reconnaîtra une entité nommée ou simplement une relation entre deux [[segment|segments]] (en anglais tokens).
+En fonction des [[segment|segments]] sur lesquels se focalise l'[[Mécanisme d'attention|attention]], le [[Mécanisme d'attention|mécanisme]] pourra vérifier l'accord sujet-verbe, reconnaîtra une entité nommée ou simplement une relation entre deux [[segment|segments]] (en anglais tokens).
 == Français ==

« Autoattention multitêtes » : différence entre les versions