« Attention éclair » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 1 : | Ligne 1 : | ||
==Définition== | ==Définition== | ||
Pour économiser de la mémoire, l'attention éclair consiste à reprendre des étapes du calcul de normalisation de la fonction [[softmax]] en utilisant des astuces mathématiques au lieu de les mémoriser. | Pour économiser de la mémoire, l'attention éclair consiste à reprendre des étapes du calcul de [[normalisation de lot|normalisation]] de la fonction [[softmax]] en utilisant des astuces mathématiques au lieu de les mémoriser. | ||
== Compléments == | == Compléments == | ||
Ligne 6 : | Ligne 6 : | ||
Les couches d'auto-attention permettent de comprendre les relations contextuelles entre les données d'entrée. Cependant, la consommation maximale de mémoire GPU pour les couches d'auto-attention augmente quadratiquement avec la longueur de la séquence d’entrée. Ainsi, l'algorithme d'auto-attention classique devient rapidement prohibitif en termes de mémoire pour les longs contextes d'entrée. | Les [[Réseau autoattentif|couches d'auto-attention]] permettent de comprendre les relations contextuelles entre les données d'entrée. Cependant, la consommation maximale de mémoire GPU pour les [[Réseau autoattentif|couches d'auto-attention]] augmente quadratiquement avec la longueur de la séquence d’entrée. Ainsi, l'[[Réseau autoattentif|algorithme d'auto-attention classique]] devient rapidement prohibitif en termes de mémoire pour les longs contextes d'entrée. | ||
Version du 26 septembre 2023 à 13:40
Définition
Pour économiser de la mémoire, l'attention éclair consiste à reprendre des étapes du calcul de normalisation de la fonction softmax en utilisant des astuces mathématiques au lieu de les mémoriser.
Compléments
En 2022, Tri Dao et al. ont inventé l’algorithme d’attention éclair dont le coût en mémoire n'augmente que linéairement avec la longueur de la séquence d’entrée. Évidemment, l’algorithme d’attention éclair est un peu plus lent. Cependant, l’attention-éclair est plus rapide en inférence que l'attention classique car elle réduit considérablement les accès mémoires plus lents du processeur graphique en se concentrant plutôt sur la mémoire vive statique (SRAM) qui est plus rapide.
Les couches d'auto-attention permettent de comprendre les relations contextuelles entre les données d'entrée. Cependant, la consommation maximale de mémoire GPU pour les couches d'auto-attention augmente quadratiquement avec la longueur de la séquence d’entrée. Ainsi, l'algorithme d'auto-attention classique devient rapidement prohibitif en termes de mémoire pour les longs contextes d'entrée.
Français
attention éclair
Anglais
flash attention
FlashAttention Proposition originale de Tri Dao et al. (2022)
Contributeurs: Patrick Drouin, wiki