Armazenar cada par KV faz sentido? Especialmente quando o modelo na verdade só consulta uma pequena parte deles.
A ideia do KVzap é bastante direta — aprender a identificar quais entradas de cache não serão usadas em consultas futuras e, então, removê-las ativamente. O resultado é que o tamanho do cache pode ser comprimido para 1/2 a 1/4 do original, quase sem impacto no desempenho.
Esse método inteligente e dinâmico de poda de cache KV, baseado em dependências, tem um significado prático para melhorar a eficiência da inferência do modelo e reduzir os custos de armazenamento. Especialmente em cenários de implantação em larga escala, esse tipo de otimização ainda é bastante promissor.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
15 Curtidas
Recompensa
15
7
Repostar
Compartilhar
Comentário
0/400
BearMarketSurvivor
· 17h atrás
Par de pares de valores (KV) com redundância de armazenamento, como suprimentos acumulados no campo de batalha que não são utilizados — ocupam espaço e atrasam. A operação de compressão do KVzap, reduzindo para 1/4, parece que finalmente alguém fez as contas com seriedade.
Ver originalResponder0
OnchainFortuneTeller
· 18h atrás
Haha, não é exatamente uma questão de descarte e reorganização do cache KV? Finalmente alguém entendeu essa questão.
Ver originalResponder0
LightningClicker
· 01-16 00:38
Meu Deus, finalmente alguém fez isso, antes achava que era um desperdício, realmente foi um desperdício armazenar tantos dados inúteis
Ver originalResponder0
DogeBachelor
· 01-14 23:49
Isto não é mais do que uma brincadeira, as estratégias de cache KV anteriores eram mesmo um desperdício... comprimindo para 1/4 ainda consegue rodar, ótimo.
Ver originalResponder0
AlphaWhisperer
· 01-14 23:46
Haha, este velho problema de desperdício de espaço de armazenamento finalmente foi resolvido de forma eficiente, a ideia do KVzap é realmente refrescante
Ver originalResponder0
bridgeOops
· 01-14 23:43
Esta é a verdadeira abordagem pragmática de otimização, não otimizar apenas por otimizar. Uma taxa de compressão de 1/2 a 1/4 reduz diretamente os custos.
Armazenar cada par KV faz sentido? Especialmente quando o modelo na verdade só consulta uma pequena parte deles.
A ideia do KVzap é bastante direta — aprender a identificar quais entradas de cache não serão usadas em consultas futuras e, então, removê-las ativamente. O resultado é que o tamanho do cache pode ser comprimido para 1/2 a 1/4 do original, quase sem impacto no desempenho.
Esse método inteligente e dinâmico de poda de cache KV, baseado em dependências, tem um significado prático para melhorar a eficiência da inferência do modelo e reduzir os custos de armazenamento. Especialmente em cenários de implantação em larga escala, esse tipo de otimização ainda é bastante promissor.