« Réseau autoattentif » : différence entre les versions

Version du 22 mars 2023 à 11:43

Définition

Le réseau autoattentif ou réseau de neurones autoattentif désigne une architecture de réseau de neurones profond, de séquence à séquence, très performante. Il utilise le mécanisme d'attention, plus précisément l'autoattention, pour remplacer à la fois la récurrence et les convolutions.

Contrairement à un réseau récurrent, un réseau autoattentif peut traiter toutes les données d'entrée simultanément. Grâce au mécanisme d'autoattention, le réseau peut donner un poids variable à différentes parties de la séquence de données d'entrée en relation avec n'importe quelle autre partie de cette séquence. Ceci permet d'améliorer considérablement sa précision sur le plan sémantique et de traiter des jeux de données beaucoup plus volumineux.

Compléments

En anglais on dit self-attention learning et plus souvent transformer qui est un clin d'œil à la franchise de jouets et films japonais « Transformers ».

Les réseaux autoattentifs sont issus des travaux pionniers du laboratoire MILA dirigé par Yoshua Bengio à l'Université de Montréal qui ont défini un mécanisme d'attention d'abord utilisé en traduction automatique neuronale.

Français

réseau de neurones autoattentif

réseau autoattentif

modèle autoattentif

apprentissage autoatttentif

réseau de neurones à autoattention

réseau à autoattention

architecture autoattentive

modèle autoattentif

transformeur

transformateur

Anglais

Transformer

self-attention network

self-attention learning

Source: Claude Coulombe, Datafranca.org

Source: Termino

@@ Ligne 2 : / Ligne 2 : @@
 Le réseau autoattentif ou réseau de neurones autoattentif désigne une architecture de réseau de neurones profond, de  [[Modèle séquence à séquence|séquence à séquence]], très performante. Il utilise le mécanisme d'attention, plus précisément l'autoattention, pour remplacer à la fois la récurrence et les convolutions.
-Contrairement à un [réseau récurrent], un réseau autoattentif peut traiter toutes les données d'entrée simultanément. Grâce au mécanisme d'autoattention, le réseau peut donner un poids variable à différentes parties de la séquence de données d'entrée en relation avec n'importe quelle autre partie de cette séquence. Ceci permet d'améliorer considérablement sa précision sur le plan sémantique et de traiter des jeux de données beaucoup plus volumineux.
+Contrairement à un [[réseau récurrent]], un réseau autoattentif peut traiter toutes les données d'entrée simultanément. Grâce au mécanisme d'autoattention, le réseau peut donner un poids variable à différentes parties de la séquence de données d'entrée en relation avec n'importe quelle autre partie de cette séquence. Ceci permet d'améliorer considérablement sa précision sur le plan sémantique et de traiter des jeux de données beaucoup plus volumineux.
 ==Compléments==

« Réseau autoattentif » : différence entre les versions