2026-01-14 23:22:00

Apakah menyimpan setiap pasangan KV bermakna? Terutama ketika model sebenarnya hanya akan melakukan query pada sebagian kecil dari mereka.

Gagasan KVzap sangat langsung—melalui pembelajaran untuk menentukan cache mana yang tidak akan digunakan dalam query selanjutnya, lalu secara aktif menghapusnya. Hasilnya adalah dapat mengompresi volume cache menjadi 1/2 hingga 1/4 dari ukuran aslinya, sekaligus hampir tidak mempengaruhi kinerja.

Metode pruning cache KV yang cerdas dan bergantung secara dinamis ini memiliki arti praktis dalam meningkatkan efisiensi inferensi model dan menurunkan biaya penyimpanan. Terutama dalam skenario deployment skala besar, ruang optimisasi seperti ini masih cukup signifikan.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

10 Suka