Armazenar cada par KV faz sentido? Especialmente quando o modelo na verdade só consulta uma pequena parte deles.



A ideia do KVzap é bastante direta — aprender a identificar quais entradas de cache não serão usadas em consultas futuras e, então, removê-las ativamente. O resultado é que o tamanho do cache pode ser comprimido para 1/2 a 1/4 do original, quase sem impacto no desempenho.

Esse método inteligente e dinâmico de poda de cache KV, baseado em dependências, tem um significado prático para melhorar a eficiência da inferência do modelo e reduzir os custos de armazenamento. Especialmente em cenários de implantação em larga escala, esse tipo de otimização ainda é bastante promissor.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 7
  • Repostar
  • Compartilhar
Comentário
0/400
BearMarketSurvivorvip
· 17h atrás
Par de pares de valores (KV) com redundância de armazenamento, como suprimentos acumulados no campo de batalha que não são utilizados — ocupam espaço e atrasam. A operação de compressão do KVzap, reduzindo para 1/4, parece que finalmente alguém fez as contas com seriedade.
Ver originalResponder0
OnchainFortuneTellervip
· 18h atrás
Haha, não é exatamente uma questão de descarte e reorganização do cache KV? Finalmente alguém entendeu essa questão.
Ver originalResponder0
LightningClickervip
· 01-16 00:38
Meu Deus, finalmente alguém fez isso, antes achava que era um desperdício, realmente foi um desperdício armazenar tantos dados inúteis
Ver originalResponder0
DogeBachelorvip
· 01-14 23:49
Isto não é mais do que uma brincadeira, as estratégias de cache KV anteriores eram mesmo um desperdício... comprimindo para 1/4 ainda consegue rodar, ótimo.
Ver originalResponder0
AlphaWhisperervip
· 01-14 23:46
Haha, este velho problema de desperdício de espaço de armazenamento finalmente foi resolvido de forma eficiente, a ideia do KVzap é realmente refrescante
Ver originalResponder0
bridgeOopsvip
· 01-14 23:43
Esta é a verdadeira abordagem pragmática de otimização, não otimizar apenas por otimizar. Uma taxa de compressão de 1/2 a 1/4 reduz diretamente os custos.
Ver originalResponder0
  • Marcar

Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)