« Autoattention multitêtes » : différence entre les versions

Dernière version du 18 avril 2026 à 11:36

Définition

En apprentissage profond, l'autoattention multitêtes est un traitement de séquence (typiquement en langue naturelle) qui consiste à paralléliser le mécanisme d'autoattention en plusieurs points de la séquence pour ensuite fusionner les résultats.

Compléments

Puisque chaque tête prête attention à un élément distinct de la séquence, le modèle capture mieux les effets de la position dans la séquence. Il en résulte une représentation plus riche.

En fonction des segments sur lesquels se focalise l'attention, le mécanisme pourra vérifier l'accord sujet-verbe, reconnaîtra une entité nommée ou simplement une relation entre deux mots.

Français

autoattention multitêtes

autoattention multi-têtes

attention multitêtes

attention multi-têtes

Anglais

multi-head self-attention

multi-head attention In deep learning, multi-head self-attention is the processing of a word string (typically in natural language) by parallelizing the attention mechanism at several points in the sequence and then merging the results.

Español

autoatención multicéfala

En el aprendizaje profundo, la autoatención multicabezal es el procesamiento de una secuencia (normalmente en lengua natural) paralelizando el mecanismo de autoatención en varios puntos de la secuencia y fusionando después los resultados.

Source

Cordonnier, J.-B. (2023), Transformer Models for Vision.

Punyakeerthi (2024), Difference between Self-Attention and Multi-head Self-Attention

Vaswani et al. (2017) Attention Is All You Need 101 MOTS DE L' IA
Ce terme est sélectionné pour le livre « Les 101 mots de l'intelligence artificielle »

@@ Ligne 1 : / Ligne 1 : @@
 == Définition ==
-En [[apprentissage profond]], l'[[Mécanisme d'attention|autoattention]] multitêtes est un traitement de [[Séquence de mots|séquences]] (typiquement en [[langue naturelle]]) qui consiste à paralléliser le mécanisme d'[[Mécanisme d'attention|autoattention]] en plusieurs points de la [[Séquence de mots|séquence]] pour ensuite fusionner les résultats.
+En [[apprentissage profond]], l'autoattention multitêtes est un traitement de [[Séquence de mots|séquence]] (typiquement en [[langue naturelle]]) qui consiste à paralléliser le mécanisme d'[[Mécanisme d'attention|autoattention]] en plusieurs points de la séquence pour ensuite fusionner les résultats.
+== Compléments ==
+Puisque chaque tête prête attention à un élément distinct de la séquence, le modèle capture mieux les effets de la position dans la séquence. Il en résulte une représentation plus riche.
+<hr/>
+En fonction des [[segment|segments]] sur lesquels se focalise l'[[Mécanisme d'attention|attention]], le [[Mécanisme d'attention|mécanisme]] pourra vérifier l'accord sujet-verbe, reconnaîtra une entité nommée ou simplement une relation entre deux mots.
 == Français ==
-''' Autoattention multitêtes '''
+''' autoattention multitêtes '''
-''' Autoattention multi-têtes '''
+''' autoattention multi-têtes '''
+'''attention multitêtes'''
+'''attention multi-têtes'''
 == Anglais ==
-''' Multi-Head Attention'''
+''' multi-head self-attention'''
-''' Multi-Head Self-Attention'''
+''' multi-head attention'''
+In deep learning, multi-head self-attention is the processing of a word string (typically in natural language) by parallelizing the attention mechanism at several points in the sequence and then merging the results.
+==Español==
+[[Catégorie:es]]
-<!-- Multi-head Attention is a module for attention mechanisms which runs through an attention mechanism several times in parallel. The independent attention outputs are then concatenated and linearly transformed into the expected dimension. Intuitively, multiple attention heads allows for attending to parts of the sequence differently (e.g. longer-term dependencies versus shorter-term dependencies).
+''''' autoatención multicéfala '''''
--->
+''En el aprendizaje profundo, la autoatención multicabezal es el procesamiento de una secuencia (normalmente en lengua natural) paralelizando el mecanismo de autoatención en varios puntos de la secuencia y fusionando después los resultados.''
 == Source ==
-[https://infoscience.epfl.ch/record/300271/files/EPFL_TH9822.pdf Source : Cordonnier, J.-B. (2023), ''Transformer Models for Vision''.]
+[https://infoscience.epfl.ch/record/300271/files/EPFL_TH9822.pdf Cordonnier, J.-B. (2023), ''Transformer Models for Vision''.]
+[https://medium.com/@punya8147_26846/difference-between-self-attention-and-multi-head-self-attention-e33ebf4f3ee0, Punyakeerthi (2024), ''Difference between Self-Attention and Multi-head Self-Attention'']
-[https://medium.com/@punya8147_26846/difference-between-self-attention-and-multi-head-self-attention-e33ebf4f3ee0, Source: Punyakeerthi (2024), ''Difference between Self-Attention and Multi-head Self-Attention'']
+[https://cs.paperswithcode.com/method/multi-head-attention Vaswani et al. (2017) ''Attention Is All You Need'']
+{{Modèle:101}}
-[https://cs.paperswithcode.com/method/multi-head-attention   Source : paperswithcode]
+[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
-[[Catégorie:Publication]]
+[[Catégorie:101]]

« Autoattention multitêtes » : différence entre les versions