« Multi-Head Attention » : historique des versions


Sélection du diff : cochez les boutons radio des versions à comparer et appuyez sur entrée ou sur le bouton en bas.
Légende : (actu) = différence avec la dernière version, (diff) = différence avec la version précédente, m = modification mineure.

30 avril 2024

  • actudiff 08:4830 avril 2024 à 08:48Pitpitt discussion contributions 658 octets +658 Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == ''' Multi-Head Attention''' Multi-head Attention is a module for attention mechanisms which runs through an attention mechanism several times in parallel. The independent attention outputs are then concatenated and linearly transformed into the expected dimension. Intuitively, multiple attention heads allows for attending to parts of the sequence differently (e.g.... »