« Cache clé-valeur » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
==en construction==
== Définition ==
Technique d'optimisation utilisée pour accélérer l''''[[inférence]]''' dans les '''[[Modèle|modèles]]''' d''''[[apprentissage automatique]]''', en particulier dans les '''[[Modèle autoattentif|modèles autoattentifs]]'''.


== Définition ==
Elle consiste à cacher les clés et les valeurs antérieures afin d'éliminer le besoin de les recalculer pour chaque nouveau '''[[segment textuel]]'''. Ceci réduit considérablement la taille des '''[[Matrice|matrices]]''' et accélère les calculs.  
Technique utilisée pour accélérer l''''[[inférence]]''' dans les '''[[Modèle|modèles]]''' d''''[[apprentissage automatique]]''', en particulier dans les '''[[Modèle autorégressif|modèles autorégressifs]]'''. Elle consiste à cacher les clés et les valeurs antérieures afin d'éliminer le besoin de les recalculer pour chaque nouveau '''[[segment textuel]]'''. Ceci réduit considérablement la taille des '''[[Matrice|matrices]]''' utilisées dans les calculs et accélère les multiplications matricielles.  


Autrement dit, le modèle utilisant cette technique réutilise les calculs passés pour obtenir des résultats plus rapides, ce qui lui permet de rester rapide même avec des textes plus longs et d'éviter les calculs répétitifs.
Autrement dit, le modèle utilisant cette technique réutilise les calculs passés pour obtenir des résultats plus rapides, ce qui lui permet de rester rapide même avec des textes plus longs et d'éviter les calculs répétitifs.


== Français ==
== Français ==
''' XXXXXXXXX '''
'''cache clé-valeur'''
 
'''cache KV"


== Anglais ==
== Anglais ==
Ligne 23 : Ligne 25 :
[https://cyrilzakka.github.io/llm-playbook/nested/kv-cache.html  Source : The Large Language Model Playbook]
[https://cyrilzakka.github.io/llm-playbook/nested/kv-cache.html  Source : The Large Language Model Playbook]


[[Catégorie:vocabulary]]


[[Catégorie:vocabulary]]
[[[[Catégorie:publication]]

Version du 10 mars 2026 à 18:26

Définition

Technique d'optimisation utilisée pour accélérer l'inférence dans les modèles d'apprentissage automatique, en particulier dans les modèles autoattentifs.

Elle consiste à cacher les clés et les valeurs antérieures afin d'éliminer le besoin de les recalculer pour chaque nouveau segment textuel. Ceci réduit considérablement la taille des matrices et accélère les calculs.

Autrement dit, le modèle utilisant cette technique réutilise les calculs passés pour obtenir des résultats plus rapides, ce qui lui permet de rester rapide même avec des textes plus longs et d'éviter les calculs répétitifs.

Français

cache clé-valeur

cache KV"

Anglais

KV Cache

A technique used to accelerate the inference process in machine learning models, particularly in autoregressive models. It involves caching the previous keys and values, so we don’t need to recalculate them for each new token, thus reducing the size of matrices used in calculations, making matrix multiplications faster. The model employing this technique reuses past calculations for faster results, so it stays fast even with longer texts by avoiding repeated work.

Sources

Source : Arxiv

Source : huggingface

Source : The Large Language Model Playbook

[[

Contributeurs: Arianne Arel, Claude Coulombe, wiki