« Puits d'attention » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| (10 versions intermédiaires par 4 utilisateurs non affichées) | |||
| Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
Phénomène d'effondrement ou perte [[mécanisme d'attention|d'attention]] présent dans tous les '''[[Grand modèle de langues (GML)| grands modèles de langues]]''', dans lesquels les premiers [[jeton textuel|jetons textuels]] représentent une part extrêmement importante du score d'attention, même s'ils ne sont pas importants sur le plan sémantique. | |||
== Compléments == | |||
Ce terme peut désigner le phénomène ou le type de '''[[jeton textuel]]''' concerné par le phénomène. | |||
Le phénomène apparaît à la suite d'une optimisation efficace sur une grande quantité de '''[[données d'entraînement]]'''. | |||
La raison pour laquelle les | La raison pour laquelle les [[jeton textuel|jetons textuels]] initiaux sont considérés comme des « jetons puits » est intuitive : ils sont visibles par presque tous les [[jeton textuel|jetons]] suivants en raison de la nature autorégressive du modèle, ce qui les rend plus aptes à servir de « puits d'attention ». | ||
== Français == | == Français == | ||
| Ligne 17 : | Ligne 15 : | ||
''' attention sink''' | ''' attention sink''' | ||
''This term can refer to the phenomenon or to the type of token concerned by the phenomenon. This phenomenon is present in all autoregressive large language models, in which the first few tokens make up for a shockingly large amount of the attention score, even if the tokens are not semantically important. It emerges after effective optimization on sufficient training data. '' | |||
''The reason behind initial tokens as “sink tokens” is intuitive: initial tokens are visible to almost all subsequent tokens because of the autoregressive language modeling nature, making them more readily trained to serve as “attention sinks”.'' | |||
This phenomenon has been widely adopted in applications such as streaming/long context generation, KV cache optimization, inference acceleration, model quantization, and others. | ''This phenomenon has been widely adopted in applications such as streaming/long context generation, KV cache optimization, inference acceleration, model quantization, and others.'' | ||
== Sources == | == Sources == | ||
| Ligne 28 : | Ligne 28 : | ||
[https://huggingface.co/blog/tomaarsen/attention-sinks Source : Hugging Face Blog] | [https://huggingface.co/blog/tomaarsen/attention-sinks Source : Hugging Face Blog] | ||
[[Catégorie: | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] | ||
[[Catégorie:Publication]] | |||
Dernière version du 9 juin 2026 à 15:50
Définition
Phénomène d'effondrement ou perte d'attention présent dans tous les grands modèles de langues, dans lesquels les premiers jetons textuels représentent une part extrêmement importante du score d'attention, même s'ils ne sont pas importants sur le plan sémantique.
Compléments
Ce terme peut désigner le phénomène ou le type de jeton textuel concerné par le phénomène.
Le phénomène apparaît à la suite d'une optimisation efficace sur une grande quantité de données d'entraînement.
La raison pour laquelle les jetons textuels initiaux sont considérés comme des « jetons puits » est intuitive : ils sont visibles par presque tous les jetons suivants en raison de la nature autorégressive du modèle, ce qui les rend plus aptes à servir de « puits d'attention ».
Français
puits d'attention
Anglais
attention sink
This term can refer to the phenomenon or to the type of token concerned by the phenomenon. This phenomenon is present in all autoregressive large language models, in which the first few tokens make up for a shockingly large amount of the attention score, even if the tokens are not semantically important. It emerges after effective optimization on sufficient training data.
The reason behind initial tokens as “sink tokens” is intuitive: initial tokens are visible to almost all subsequent tokens because of the autoregressive language modeling nature, making them more readily trained to serve as “attention sinks”.
This phenomenon has been widely adopted in applications such as streaming/long context generation, KV cache optimization, inference acceleration, model quantization, and others.
Sources
Contributeurs: Arianne Arel, Claude Coulombe, Patrick Drouin, wiki





