Рецензируемая статья, принятая на 6-ю Международную конференцию по искусственному интеллекту и блокчейну (AIBC 2025), утверждает, что простаивающие потребительские видеокарты, такие как Nvidia RTX 4090, могут существенно снизить стоимость инференса больших языковых моделей при совместном использовании с традиционным датацентровым оборудованием.
Статья, озаглавленная «Простаивающие потребительские GPU как дополнение к корпоративному оборудованию для инференса LLM», подготовленная командой io.net, первой опубликовала открытые бенчмарки гетерогенных кластеров GPU на децентрализованном облаке проекта. В исследовании сравниваются кластеры потребительских карт с датацентровыми ускорителями уровня H100, выявляя явный компромисс между стоимостью и производительностью, который способен изменить подход организаций к проектированию своих инференс-флотов.
Согласно статье, кластеры на базе RTX 4090 способны обеспечивать от 62 до 78 процентов пропускной способности H100 при примерно вдвое меньшей стоимости. Для пакетных задач или приложений, не чувствительных к задержкам, стоимость токена может снизиться до 75 процентов. Исследователи подчеркивают, что эта экономия наиболее впечатляюща, когда разработчики могут мириться с более высокими хвостовыми задержками или использовать потребительское оборудование для задач переполнения и фоновых процессов, таких как разработка, пакетная обработка, генерация эмбеддингов и крупномасштабные оценочные прогоны.
Алин Алмейда, руководитель отдела исследований в IOG Foundation и ведущий автор работы, отмечает: «Наши результаты показывают, что гибридная маршрутизация между корпоративными и потребительскими GPU обеспечивает прагматичный баланс между производительностью, стоимостью и устойчивостью. Вместо бинарного выбора гетерогенная инфраструктура позволяет организациям оптимизировать свои требования по задержкам и бюджету, сокращая при этом углеродный след».
Гибридные флоты GPU
Статья не умаляет достоинств H100: датацентровые карты Nvidia обеспечивают время до первого токена (P99) менее 55 миллисекунд даже под высокой нагрузкой, что делает их незаменимыми для приложений, критичных к задержкам в реальном времени, таких как производственные чат-боты и интерактивные агенты. Кластеры потребительских GPU, напротив, лучше подходят для трафика, терпимого к увеличенным хвостовым задержкам; авторы считают реалистичным окно P99 в 200–500 мс для многих исследовательских и тестовых задач.
В расчет также принимаются энергопотребление и устойчивость. Хотя H100 примерно в 3,1 раза энергоэффективнее на токен, исследование утверждает, что использование простаивающих потребительских GPU позволяет снизить совокупный углеродный след вычислений за счет продления срока службы оборудования и использования энергосистем, богатых возобновляемыми источниками. Иными словами, смешанный флот может быть одновременно дешевле и экологичнее при грамотном развертывании.
Гаураф Шарма, CEO io.net, говорит: «Этот рецензируемый анализ подтверждает основную идею io.net: будущее вычислений будет распределенным, гетерогенным и доступным. Используя как датацентровое, так и потребительское оборудование, мы можем демократизировать доступ к современной AI-инфраструктуре и сделать ее более устойчивой».
Практические рекомендации статьи адресованы MLOps-командам и AI-разработчикам. Авторы советуют использовать корпоративные GPU для задач с низкой задержкой в реальном времени, а разработки, эксперименты и массовые задачи отдавать на потребительские кластеры. Они отмечают оптимальное соотношение цены и производительности для конфигураций из четырех RTX 4090: стоимость за миллион токенов составляет от $0,111 до $0,149 при существенной доле производительности H100.
Вне рамок бенчмарков исследование укрепляет миссию io.net по расширению вычислительных мощностей путем объединения распределенных GPU в программируемый пул по требованию. Компания позиционирует свой стек — комбинацию программируемой инфраструктуры io.cloud и инструментов API io.intelligence — как комплексное решение для стартапов, которым нужны обучение, выполнение агентов и масштабный инференс без капитальных затрат только на датацентровое оборудование.
Полные бенчмарки и методология доступны в репозитории GitHub компании io.net для всех, кто хочет изучить цифры и повторить эксперименты. Исследование добавляет важный, основанный на эмпирических данных голос в дискуссию о том, как масштабировать LLM-деплойменты доступно и устойчиво в ближайшие годы.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Тесты Io.net выявили оптимальное соотношение цены и производительности для кластеров RTX 4090
Рецензируемая статья, принятая на 6-ю Международную конференцию по искусственному интеллекту и блокчейну (AIBC 2025), утверждает, что простаивающие потребительские видеокарты, такие как Nvidia RTX 4090, могут существенно снизить стоимость инференса больших языковых моделей при совместном использовании с традиционным датацентровым оборудованием.
Статья, озаглавленная «Простаивающие потребительские GPU как дополнение к корпоративному оборудованию для инференса LLM», подготовленная командой io.net, первой опубликовала открытые бенчмарки гетерогенных кластеров GPU на децентрализованном облаке проекта. В исследовании сравниваются кластеры потребительских карт с датацентровыми ускорителями уровня H100, выявляя явный компромисс между стоимостью и производительностью, который способен изменить подход организаций к проектированию своих инференс-флотов.
Согласно статье, кластеры на базе RTX 4090 способны обеспечивать от 62 до 78 процентов пропускной способности H100 при примерно вдвое меньшей стоимости. Для пакетных задач или приложений, не чувствительных к задержкам, стоимость токена может снизиться до 75 процентов. Исследователи подчеркивают, что эта экономия наиболее впечатляюща, когда разработчики могут мириться с более высокими хвостовыми задержками или использовать потребительское оборудование для задач переполнения и фоновых процессов, таких как разработка, пакетная обработка, генерация эмбеддингов и крупномасштабные оценочные прогоны.
Алин Алмейда, руководитель отдела исследований в IOG Foundation и ведущий автор работы, отмечает: «Наши результаты показывают, что гибридная маршрутизация между корпоративными и потребительскими GPU обеспечивает прагматичный баланс между производительностью, стоимостью и устойчивостью. Вместо бинарного выбора гетерогенная инфраструктура позволяет организациям оптимизировать свои требования по задержкам и бюджету, сокращая при этом углеродный след».
Гибридные флоты GPU
Статья не умаляет достоинств H100: датацентровые карты Nvidia обеспечивают время до первого токена (P99) менее 55 миллисекунд даже под высокой нагрузкой, что делает их незаменимыми для приложений, критичных к задержкам в реальном времени, таких как производственные чат-боты и интерактивные агенты. Кластеры потребительских GPU, напротив, лучше подходят для трафика, терпимого к увеличенным хвостовым задержкам; авторы считают реалистичным окно P99 в 200–500 мс для многих исследовательских и тестовых задач.
В расчет также принимаются энергопотребление и устойчивость. Хотя H100 примерно в 3,1 раза энергоэффективнее на токен, исследование утверждает, что использование простаивающих потребительских GPU позволяет снизить совокупный углеродный след вычислений за счет продления срока службы оборудования и использования энергосистем, богатых возобновляемыми источниками. Иными словами, смешанный флот может быть одновременно дешевле и экологичнее при грамотном развертывании.
Гаураф Шарма, CEO io.net, говорит: «Этот рецензируемый анализ подтверждает основную идею io.net: будущее вычислений будет распределенным, гетерогенным и доступным. Используя как датацентровое, так и потребительское оборудование, мы можем демократизировать доступ к современной AI-инфраструктуре и сделать ее более устойчивой».
Практические рекомендации статьи адресованы MLOps-командам и AI-разработчикам. Авторы советуют использовать корпоративные GPU для задач с низкой задержкой в реальном времени, а разработки, эксперименты и массовые задачи отдавать на потребительские кластеры. Они отмечают оптимальное соотношение цены и производительности для конфигураций из четырех RTX 4090: стоимость за миллион токенов составляет от $0,111 до $0,149 при существенной доле производительности H100.
Вне рамок бенчмарков исследование укрепляет миссию io.net по расширению вычислительных мощностей путем объединения распределенных GPU в программируемый пул по требованию. Компания позиционирует свой стек — комбинацию программируемой инфраструктуры io.cloud и инструментов API io.intelligence — как комплексное решение для стартапов, которым нужны обучение, выполнение агентов и масштабный инференс без капитальных затрат только на датацентровое оборудование.
Полные бенчмарки и методология доступны в репозитории GitHub компании io.net для всех, кто хочет изучить цифры и повторить эксперименты. Исследование добавляет важный, основанный на эмпирических данных голос в дискуссию о том, как масштабировать LLM-деплойменты доступно и устойчиво в ближайшие годы.