Attention éclair

Définition

Ce concept regroupe différentes approches algorithmiques pour augmenter la performance en temps d'exécution et/ou en mémoire du mécanisme d'attention original.

Sur le plan technique, il existe différentes implémentations qui dépendent entre autres de l'organisation matérielle des processeurs graphiques, souvent pour un fabricant de puces en particulier.

Compléments

Les couches d'auto-attention permettent de comprendre les relations contextuelles entre les données d'entrée. Cependant, la consommation maximale de mémoire des processeurs graphiques pour les couches d'auto-attention augmente de manière quadratique avec la longueur de la séquence d’entrée. Ainsi, l'algorithme d'auto-attention classique devient rapidement prohibitif en termes de mémoire pour les longs contextes d'entrée.

Afin de résoudre ce problème, Tri Dao et al. ont inventé en 2022 l'algorithme d'attention éclair (FlashAttention) dont le coût en mémoire n'augmente que linéairement avec la longueur de la séquence d'entrée. Évidemment, l’algorithme d’attention éclair est un peu plus lent. En contrepartie, l'attention-éclair est plus rapide en inférence que l'attention classique car elle réduit considérablement les accès mémoires plus lents du processeur graphique en se concentrant plutôt sur la mémoire vive statique (SRAM) qui est plus rapide.

Le mécanisme d'attention éclair proposé par Qin & al. en 2023, appelé lightning attention, fait appel à une approximation qui s'exécute en temps linéaire alors que le mécanisme d'attention original s'exécute en temps quadratique. Cette amélioration est basée sur la normalisation du gradient pour lutter contre l'explosion du gradient et l'utilisation privilégiée de la diagonale de la matrice d'attention c.-à-d. les jetons textuels voisins pour lutter contre l'évanescence du gradient.

Français

attention éclair

attention flash Calque de l'anglais

Anglais

FlashAttention Proposition originale de Tri Dao et al. (2022)

flash attention

lightning attention

Sources

- arxiv - Jay Shah & al. 2024 - FlashAttention-3

- arxiv - Qin & al. 2023 - Lightning Attention

- arxiv - Tri Dao et al. (2022) - FlashAttention

Source: Medium