Attention sink


Révision datée du 27 janvier 2026 à 17:03 par Arianne (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

en construction

Définition

Ce terme peut désigner le phénomène ou le type de segment textuel concerné par ce phénomène.

Phénomène présent dans tous les grands modèles de langues autorégressifs, dans lesquels les premiers segments textuels représentent une part extrêmement importante du score d'attention, même s'ils ne sont pas importants sur le plan sémantique.

Compléments

Ce phénomène apparaît à la suite d'une optimisation efficace sur une quantité suffisante de données d'entraînement.

La raison pour laquelle les segments textuels initiaux sont considérés comme des « segments puits » est intuitive : ils sont visibles par presque tous les segments textuels suivants en raison de la nature autorégressive du modèle, ce qui les entraînent pour être des « puits d'attention ».

Français

puits d'attention

Anglais

attention sink


Sources

Source : arxiv

Source : arxiv

Source : Hugging Face Blog

Contributeurs: Arianne Arel