Stocker chaque paire KV est-il significatif ? Surtout lorsque le modèle ne consulte en réalité qu'une très petite partie d'entre elles.
L'idée de KVzap est très simple — apprendre à déterminer quels éléments du cache ne seront pas utilisés lors des requêtes suivantes, puis les supprimer activement. Le résultat est une compression de la taille du cache à 1/2 ou 1/4 de l'original, tout en ayant presque aucun impact sur la performance.
Cette méthode de pruning de cache KV intelligente et dynamique, basée sur des dépendances, a une réelle importance pour améliorer l'efficacité de l'inférence du modèle et réduire les coûts de stockage. Surtout dans des scénarios de déploiement à grande échelle, cet espace d'optimisation reste assez considérable.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
10 J'aime
Récompense
10
3
Reposter
Partager
Commentaire
0/400
DogeBachelor
· Il y a 4h
Ce n'est pas autre chose qu'une blague, les stratégies de cache KV précédentes étaient vraiment une perte... compresser à 1/4 tout en pouvant fonctionner, c'est pas mal.
Voir l'originalRépondre0
AlphaWhisperer
· Il y a 4h
Haha, ce vieux problème de gaspillage d'espace de stockage qui a enfin été bien résolu, la démarche KVzap est vraiment rafraîchissante
Voir l'originalRépondre0
bridgeOops
· Il y a 4h
C'est ça, une approche pragmatique de l'optimisation, pas une optimisation pour l'optimisation. Un taux de compression de 1/2 à 1/4, et les coûts sont directement réduits.
Stocker chaque paire KV est-il significatif ? Surtout lorsque le modèle ne consulte en réalité qu'une très petite partie d'entre elles.
L'idée de KVzap est très simple — apprendre à déterminer quels éléments du cache ne seront pas utilisés lors des requêtes suivantes, puis les supprimer activement. Le résultat est une compression de la taille du cache à 1/2 ou 1/4 de l'original, tout en ayant presque aucun impact sur la performance.
Cette méthode de pruning de cache KV intelligente et dynamique, basée sur des dépendances, a une réelle importance pour améliorer l'efficacité de l'inférence du modèle et réduire les coûts de stockage. Surtout dans des scénarios de déploiement à grande échelle, cet espace d'optimisation reste assez considérable.