Apakah menyimpan setiap pasangan KV bermakna? Terutama ketika model sebenarnya hanya akan melakukan query pada sebagian kecil dari mereka.
Gagasan KVzap sangat langsung—melalui pembelajaran untuk menentukan cache mana yang tidak akan digunakan dalam query selanjutnya, lalu secara aktif menghapusnya. Hasilnya adalah dapat mengompresi volume cache menjadi 1/2 hingga 1/4 dari ukuran aslinya, sekaligus hampir tidak mempengaruhi kinerja.
Metode pruning cache KV yang cerdas dan bergantung secara dinamis ini memiliki arti praktis dalam meningkatkan efisiensi inferensi model dan menurunkan biaya penyimpanan. Terutama dalam skenario deployment skala besar, ruang optimisasi seperti ini masih cukup signifikan.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
10 Suka
Hadiah
10
3
Posting ulang
Bagikan
Komentar
0/400
DogeBachelor
· 7jam yang lalu
Ini memang cuma hiburan, strategi cache KV sebelumnya benar-benar sia-sia... Dikompresi menjadi 1/4 tetap bisa berjalan, keren nih
Lihat AsliBalas0
AlphaWhisperer
· 7jam yang lalu
Haha, masalah lama tentang pemborosan ruang penyimpanan akhirnya terselesaikan dengan baik, ide KVzap ini benar-benar segar
Lihat AsliBalas0
bridgeOops
· 7jam yang lalu
Ini adalah pendekatan optimisasi yang realistis, bukan sekadar untuk mengoptimalkan. Rasio kompresi dari 1/2 hingga 1/4, biaya langsung dipangkas.
Apakah menyimpan setiap pasangan KV bermakna? Terutama ketika model sebenarnya hanya akan melakukan query pada sebagian kecil dari mereka.
Gagasan KVzap sangat langsung—melalui pembelajaran untuk menentukan cache mana yang tidak akan digunakan dalam query selanjutnya, lalu secara aktif menghapusnya. Hasilnya adalah dapat mengompresi volume cache menjadi 1/2 hingga 1/4 dari ukuran aslinya, sekaligus hampir tidak mempengaruhi kinerja.
Metode pruning cache KV yang cerdas dan bergantung secara dinamis ini memiliki arti praktis dalam meningkatkan efisiensi inferensi model dan menurunkan biaya penyimpanan. Terutama dalam skenario deployment skala besar, ruang optimisasi seperti ini masih cukup signifikan.