Hugging Face перепостив інструмент turboquant-gpu, заявляючи про забезпечення 5.02-кратного стиснення кешу KV

robot
Генерація анотацій у процесі

ME News Новини, 6 квітня (UTC+8), Hugging Face нещодавно ретвітнув повідомлення, опубліковане anirudhbv_ce, про запуск інструменту turboquant-gpu. Цей інструмент стверджує, що може забезпечити до 5.02-кратного стиснення кешу KV для будь-якого GPU (включаючи RTX, H100, A100, B200). У статті зазначено, що його особливості включають: сумісність з бібліотекою Hugging Face Transformers; мінімалістичний API, який, за заявою, дозволяє здійснити стиснення та генерацію всього за 3 рядки коду; використання технології стиснення KV з об’єднанням Lloyd-Max 3-біт та заявляється досягнення косинусної схожості 0.98. У статті висловлюється думка, що його продуктивність перевищує MXFP4 (3.76-кратне стиснення) та ще один не названий проект. (Джерело: InFoQ)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити