2026-01-14 23:22:00

Armazenar cada par KV faz sentido? Especialmente quando o modelo na verdade só consulta uma pequena parte deles.

A ideia do KVzap é bastante direta — aprender a identificar quais entradas de cache não serão usadas em consultas futuras e, então, removê-las ativamente. O resultado é que o tamanho do cache pode ser comprimido para 1/2 a 1/4 do original, quase sem impacto no desempenho.

Esse método inteligente e dinâmico de poda de cache KV, baseado em dependências, tem um significado prático para melhorar a eficiência da inferência do modelo e reduzir os custos de armazenamento. Especialmente em cenários de implantação em larga escala, esse tipo de otimização ainda é bastante promissor.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

15 Curtidas

Recompensa
15
7
Repostar
Compartilhar

Comentário

0/400

BearMarketSurvivor

· 17h atrás

Par de pares de valores (KV) com redundância de armazenamento, como suprimentos acumulados no campo de batalha que não são utilizados — ocupam espaço e atrasam. A operação de compressão do KVzap, reduzindo para 1/4, parece que finalmente alguém fez as contas com seriedade.

Ver originalResponder0

OnchainFortuneTeller

· 18h atrás

Haha, não é exatamente uma questão de descarte e reorganização do cache KV? Finalmente alguém entendeu essa questão.

Ver originalResponder0

LightningClicker

· 01-16 00:38

Meu Deus, finalmente alguém fez isso, antes achava que era um desperdício, realmente foi um desperdício armazenar tantos dados inúteis

Ver originalResponder0

DogeBachelor

· 01-14 23:49

Isto não é mais do que uma brincadeira, as estratégias de cache KV anteriores eram mesmo um desperdício... comprimindo para 1/4 ainda consegue rodar, ótimo.

Ver originalResponder0

AlphaWhisperer

· 01-14 23:46

Haha, este velho problema de desperdício de espaço de armazenamento finalmente foi resolvido de forma eficiente, a ideia do KVzap é realmente refrescante

Ver originalResponder0

bridgeOops

· 01-14 23:43

Esta é a verdadeira abordagem pragmática de otimização, não otimizar apenas por otimizar. Uma taxa de compressão de 1/2 a 1/4 reduz diretamente os custos.

Ver originalResponder0