« Attention éclair » : différence entre les versions


Aucun résumé des modifications
m (Remplacement de texte : « ↵↵<small> » par « ==Sources== »)
 
(8 versions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
==Définition==
==Définition==
Pour économiser de la mémoire, l'attention éclair consiste à reprendre des étapes du calcul de normalisation de la fonction [[softmax]] en utilisant des astuces mathématiques au lieu de les mémoriser.
Pour économiser de la mémoire, l'attention éclair consiste à reprendre des étapes du calcul de la fonction [[softmax]] en utilisant des astuces mathématiques au lieu de les mémoriser.


== Compléments ==
== Compléments ==
En 2022,  Tri Dao et al. ont inventé l’algorithme d’attention éclair dont le coût en mémoire n'augmente que linéairement avec la longueur de la séquence d’entrée. Évidemment, l’algorithme d’attention éclair est un peu plus lent. Cependant,  l’attention-éclair est plus rapide en inférence que l'attention classique car elle réduit considérablement les accès mémoires plus lents du processeur graphique en se concentrant plutôt sur la mémoire vive statique (SRAM) qui est plus rapide.
Les [[Réseau autoattentif|couches d'auto-attention]] permettent de comprendre les relations contextuelles entre les données d'entrée. Cependant, la consommation maximale de mémoire GPU pour les [[Réseau autoattentif|couches d'auto-attention]] augmente quadratiquement avec la longueur de la séquence d’entrée. Ainsi, l'[[Réseau autoattentif|algorithme d'auto-attention classique]] devient rapidement prohibitif en termes de mémoire pour les longs contextes d'entrée.
 
 
Les couches d'auto-attention permettent de comprendre les relations contextuelles entre les données d'entrée. Cependant, la consommation maximale de mémoire GPU pour les couches d'auto-attention augmente quadratiquement avec la longueur de la séquence d’entrée. Ainsi, l'algorithme d'auto-attention classique devient rapidement prohibitif en termes de mémoire pour les longs contextes d'entrée.  


Afin de résoudre ce problème,  Tri Dao et al. ont inventé en 2022 l'algorithme d'attention éclair dont le coût en mémoire n'augmente que linéairement avec la longueur de la séquence d'entrée. Évidemment, l’algorithme d’attention éclair est un peu plus lent. Cependant,  l'attention-éclair est plus rapide en inférence que l'attention classique car elle réduit considérablement les accès mémoires plus lents du processeur graphique en se concentrant plutôt sur la mémoire vive statique (SRAM) qui est plus rapide.


==Français==
==Français==
'''attention éclair'''
'''attention éclair'''
'''attention flash''' <small>'' Calque de l'anglais''</small>


==Anglais==
==Anglais==
'''flash attention'''
'''flash attention'''


'''FlashAttention'''<small>''Proposition originale de Tri Dao et al. (2022)''</small>
'''FlashAttention''' <small>'' Proposition originale de Tri Dao et al. (2022)''</small>==Sources==
 
 
<small>


[https://arxiv.org/abs/2205.14135  Source : Tri Dao et al. (2022)]
[https://arxiv.org/abs/2205.14135  Source : Tri Dao et al. (2022)]
Ligne 24 : Ligne 21 :
[https://gordicaleksa.medium.com/eli5-flash-attention-5c44017022ad Source: Medium]
[https://gordicaleksa.medium.com/eli5-flash-attention-5c44017022ad Source: Medium]


[[Catégorie:Publication]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Dernière version du 27 janvier 2024 à 15:54

Définition

Pour économiser de la mémoire, l'attention éclair consiste à reprendre des étapes du calcul de la fonction softmax en utilisant des astuces mathématiques au lieu de les mémoriser.

Compléments

Les couches d'auto-attention permettent de comprendre les relations contextuelles entre les données d'entrée. Cependant, la consommation maximale de mémoire GPU pour les couches d'auto-attention augmente quadratiquement avec la longueur de la séquence d’entrée. Ainsi, l'algorithme d'auto-attention classique devient rapidement prohibitif en termes de mémoire pour les longs contextes d'entrée.

Afin de résoudre ce problème, Tri Dao et al. ont inventé en 2022 l'algorithme d'attention éclair dont le coût en mémoire n'augmente que linéairement avec la longueur de la séquence d'entrée. Évidemment, l’algorithme d’attention éclair est un peu plus lent. Cependant, l'attention-éclair est plus rapide en inférence que l'attention classique car elle réduit considérablement les accès mémoires plus lents du processeur graphique en se concentrant plutôt sur la mémoire vive statique (SRAM) qui est plus rapide.

Français

attention éclair

attention flash Calque de l'anglais

Anglais

flash attention

FlashAttention Proposition originale de Tri Dao et al. (2022)==Sources==

Source : Tri Dao et al. (2022)

Source: Medium

Contributeurs: Patrick Drouin, wiki