Скануйте, щоб завантажити додаток Gate
qrCode
Більше варіантів завантаження
Не нагадувати сьогодні

Io.net Бенчмарки виявляють оптимальне співвідношення ціни та продуктивності для кластерів RTX 4090

Рецензована стаття, прийнята до 6-ї Міжнародної конференції з штучного інтелекту та блокчейну (AIBC 2025), стверджує, що невикористовувані споживчі GPU, на прикладі Nvidia RTX 4090, можуть суттєво знизити вартість запуску інференсу великих мовних моделей при використанні разом із традиційним обладнанням дата-центрів.

Дослідження з io.net під назвою «Idle Consumer GPUs as a Complement to Enterprise Hardware for LLM Inference» першим опублікувало відкриті бенчмарки гетерогенних GPU-кластерів на децентралізованому хмарному рішенні проекту. Аналіз порівнює кластери зі споживчими відеокартами з дата-центрними прискорювачами H100 і знаходить чіткий компроміс між вартістю та продуктивністю, який може змінити підходи до формування інференс-флотів в організаціях.

Згідно з роботою, кластери на базі RTX 4090 забезпечують від 62 до 78 відсотків пропускної здатності H100 при приблизно вдвічі меншій вартості. Для пакетних завдань або застосунків, нечутливих до затримки, витрати на токен знижуються до 75 відсотків. Дослідники підкреслюють, що ці заощадження найбільш помітні, коли розробники можуть миритися з більшою кінцевою затримкою або використовувати споживче обладнання для додаткових і фонових задач, таких як розробка, пакетна обробка, генерація ембеддінгів та великомасштабні оціночні прогони.

Алайн Алмейда, керівник відділу досліджень IOG Foundation і головний автор дослідження, зазначила: «Наші результати демонструють, що гібридна маршрутизація між корпоративними та споживчими GPU забезпечує прагматичний баланс між продуктивністю, вартістю й стійкістю. Замість бінарного вибору, гетерогенна інфраструктура дозволяє організаціям оптимізувати під власні вимоги до затримки та бюджету, зменшуючи вуглецевий слід».

Гібридні GPU-флоти

Стаття не замовчує переваги H100: дата-центрні карти Nvidia забезпечують показник P99 time-to-first-token менше 55 мс навіть під високим навантаженням, що робить їх незамінними для реального часу та чутливих до затримок застосунків, таких як продакшн-чатботи та інтерактивні агенти. Натомість споживчі кластери GPU краще підходять для трафіку, який може працювати із затримкою у кінці розподілу; автори вважають реалістичним вікно P99 у 200–500 мс для багатьох дослідницьких і dev/test навантажень.

Енергоспоживання та стійкість також є частиною рівняння. Хоча H100 залишаються приблизно у 3.1 рази енергоефективнішими на токен, дослідження вказує, що використання невикористовуваних споживчих GPU може зменшити вуглецевий слід обчислень шляхом подовження терміну служби обладнання і залучення енергомереж з великою часткою відновлюваних джерел. Тобто змішаний флот може бути і дешевшим, і екологічнішим при стратегічному розгортанні.

Гаурава Шарма, CEO io.net, сказав: «Цей рецензований аналіз підтверджує головну ідею io.net: майбутнє обчислень — це розподіленість, гетерогенність і доступність. Поєднуючи потужності дата-центрного та споживчого обладнання, ми можемо демократизувати доступ до сучасної AI-інфраструктури і зробити її більш стійкою».

Практичні поради зі статті адресовані насамперед командам MLOps і AI-розробникам. Автори радять використовувати корпоративні GPU для маршрутизації в реальному часі з низькою затримкою, а розробку, експерименти й масові завдання — спрямовувати на споживчі кластери. Вони визначили оптимальний робочий режим, у якому конфігурації з чотирма RTX 4090 досягають найкращої вартості за мільйон токенів — від $0.111 до $0.149 — при цьому забезпечуючи значну частку продуктивності H100.

Окрім бенчмарків, дослідження підкріплює місію io.net щодо масштабування обчислень через об’єднання розподілених GPU у програмований пул на вимогу. Компанія позиціонує свою стекову архітектуру — поєднання програмованої інфраструктури io.cloud та інструментарію API io.intelligence — як повне рішення для стартапів, яким потрібні тренування, виконання агентів та масштабний інференс без необхідності купувати лише дата-центрне обладнання.

Повні бенчмарки та методологія доступні в репозиторії io.net на GitHub для тих, хто бажає ознайомитися з цифрами та відтворити експерименти. Дослідження додає важливий, емпірично обґрунтований голос до дискусії про те, як масштабувати LLM-деплойменти доступно і стійко у найближчі роки.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити