Um artigo revisto por pares, aceite na 6.ª Conferência Internacional de Inteligência Artificial e Blockchain (AIBC 2025), defende que GPUs de consumidores ociosas, exemplificadas pela RTX 4090 da Nvidia, podem reduzir significativamente o custo da inferência de grandes modelos de linguagem quando utilizadas em conjunto com hardware tradicional de datacenter.
Intitulado “GPUs de Consumidor Ociosas como Complemento ao Hardware Empresarial para Inferência de LLM”, o estudo da io.net é o primeiro a publicar benchmarks abertos de clusters heterogéneos de GPU na cloud descentralizada do projeto. A análise compara clusters de placas de consumo com aceleradores H100 de nível datacenter e identifica um claro compromisso entre custo e desempenho que pode remodelar a forma como as organizações desenham as suas frotas de inferência.
De acordo com o artigo, clusters compostos por GPUs RTX 4090 podem atingir entre 62 e 78 por cento do throughput dos H100, operando a cerca de metade do custo. Para cargas de trabalho em lote ou aplicações tolerantes à latência, o custo por token pode descer até 75 por cento. Os investigadores sublinham que estas poupanças são mais relevantes quando os programadores conseguem tolerar latências mais elevadas ou utilizar hardware de consumo para tarefas de overflow e de fundo, como desenvolvimento, processamento em lote, geração de embeddings e avaliações em grande escala.
Aline Almeida, Diretora de Investigação na IOG Foundation e autora principal do estudo, afirmou: “Os nossos resultados demonstram que o encaminhamento híbrido entre GPUs empresariais e de consumo oferece um equilíbrio pragmático entre desempenho, custo e sustentabilidade. Em vez de uma escolha binária, a infraestrutura heterogénea permite às organizações otimizar para os seus requisitos específicos de latência e orçamento, ao mesmo tempo que reduz o impacto carbónico.”
Frotas Híbridas de GPU
O artigo não ignora os pontos fortes dos H100: as placas de datacenter da Nvidia mantêm uma performance P99 sub-55 milissegundos para o tempo até ao primeiro token mesmo sob carga elevada, um limite que as torna indispensáveis para aplicações em tempo real e sensíveis à latência, como chatbots de produção e agentes interativos. Os clusters de GPU de consumo, por outro lado, são mais adequados para tráfego que pode tolerar latências superiores; os autores apontam para uma janela P99 de 200–500 ms como realista para muitas cargas de trabalho de investigação e desenvolvimento/teste.
Energia e sustentabilidade também fazem parte da equação. Embora os H100 continuem a ser aproximadamente 3,1 vezes mais eficientes em termos energéticos por token, o estudo sugere que aproveitar GPUs de consumidor ociosas pode reduzir a pegada de carbono incorporada do processamento ao prolongar a vida útil do hardware e ao utilizar redes elétricas ricas em energias renováveis. Em suma, uma frota mista pode ser simultaneamente mais barata e mais ecológica quando implementada de forma estratégica.
Gaurav Sharma, CEO da io.net, afirmou: “Esta análise revista por pares valida a tese central da io.net: que o futuro do processamento será distribuído, heterogéneo e acessível. Ao aproveitar tanto hardware de datacenter como de consumo, podemos democratizar o acesso a infraestruturas avançadas de IA, tornando-as também mais sustentáveis.”
As orientações práticas do artigo destinam-se diretamente a equipas de MLOps e programadores de IA. Os autores recomendam a utilização de GPUs empresariais para encaminhamento em tempo real e de baixa latência, enquanto o desenvolvimento, experimentação e cargas de trabalho em massa devem ser encaminhados para clusters de consumo. Apontam um ponto ótimo operacional em que configurações de quatro RTX 4090 atingem o melhor custo por milhão de tokens, entre $0,111 e $0,149, enquanto fornecem uma parte substancial do desempenho dos H100.
Para além dos benchmarks, a investigação reforça a missão da io.net de expandir o processamento através da ligação de GPUs distribuídas num pool programável e sob demanda. A empresa posiciona a sua stack, combinando a infraestrutura programável da io.cloud com o conjunto de ferramentas API da io.intelligence, como uma solução completa para startups que necessitam de treino, execução de agentes e inferência em larga escala sem a intensidade de capital de aquisição exclusiva de hardware de datacenter.
Os benchmarks completos e a metodologia estão disponíveis no repositório GitHub da io.net para quem quiser analisar os números e reproduzir as experiências. O estudo acrescenta uma voz importante e empiricamente fundamentada ao debate sobre como escalar a implementação de LLMs de forma acessível e sustentável nos próximos anos.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Benchmarks da Io.net Revelam o “Ponto Ideal” de Custo-Desempenho para Clusters RTX 4090
Um artigo revisto por pares, aceite na 6.ª Conferência Internacional de Inteligência Artificial e Blockchain (AIBC 2025), defende que GPUs de consumidores ociosas, exemplificadas pela RTX 4090 da Nvidia, podem reduzir significativamente o custo da inferência de grandes modelos de linguagem quando utilizadas em conjunto com hardware tradicional de datacenter.
Intitulado “GPUs de Consumidor Ociosas como Complemento ao Hardware Empresarial para Inferência de LLM”, o estudo da io.net é o primeiro a publicar benchmarks abertos de clusters heterogéneos de GPU na cloud descentralizada do projeto. A análise compara clusters de placas de consumo com aceleradores H100 de nível datacenter e identifica um claro compromisso entre custo e desempenho que pode remodelar a forma como as organizações desenham as suas frotas de inferência.
De acordo com o artigo, clusters compostos por GPUs RTX 4090 podem atingir entre 62 e 78 por cento do throughput dos H100, operando a cerca de metade do custo. Para cargas de trabalho em lote ou aplicações tolerantes à latência, o custo por token pode descer até 75 por cento. Os investigadores sublinham que estas poupanças são mais relevantes quando os programadores conseguem tolerar latências mais elevadas ou utilizar hardware de consumo para tarefas de overflow e de fundo, como desenvolvimento, processamento em lote, geração de embeddings e avaliações em grande escala.
Aline Almeida, Diretora de Investigação na IOG Foundation e autora principal do estudo, afirmou: “Os nossos resultados demonstram que o encaminhamento híbrido entre GPUs empresariais e de consumo oferece um equilíbrio pragmático entre desempenho, custo e sustentabilidade. Em vez de uma escolha binária, a infraestrutura heterogénea permite às organizações otimizar para os seus requisitos específicos de latência e orçamento, ao mesmo tempo que reduz o impacto carbónico.”
Frotas Híbridas de GPU
O artigo não ignora os pontos fortes dos H100: as placas de datacenter da Nvidia mantêm uma performance P99 sub-55 milissegundos para o tempo até ao primeiro token mesmo sob carga elevada, um limite que as torna indispensáveis para aplicações em tempo real e sensíveis à latência, como chatbots de produção e agentes interativos. Os clusters de GPU de consumo, por outro lado, são mais adequados para tráfego que pode tolerar latências superiores; os autores apontam para uma janela P99 de 200–500 ms como realista para muitas cargas de trabalho de investigação e desenvolvimento/teste.
Energia e sustentabilidade também fazem parte da equação. Embora os H100 continuem a ser aproximadamente 3,1 vezes mais eficientes em termos energéticos por token, o estudo sugere que aproveitar GPUs de consumidor ociosas pode reduzir a pegada de carbono incorporada do processamento ao prolongar a vida útil do hardware e ao utilizar redes elétricas ricas em energias renováveis. Em suma, uma frota mista pode ser simultaneamente mais barata e mais ecológica quando implementada de forma estratégica.
Gaurav Sharma, CEO da io.net, afirmou: “Esta análise revista por pares valida a tese central da io.net: que o futuro do processamento será distribuído, heterogéneo e acessível. Ao aproveitar tanto hardware de datacenter como de consumo, podemos democratizar o acesso a infraestruturas avançadas de IA, tornando-as também mais sustentáveis.”
As orientações práticas do artigo destinam-se diretamente a equipas de MLOps e programadores de IA. Os autores recomendam a utilização de GPUs empresariais para encaminhamento em tempo real e de baixa latência, enquanto o desenvolvimento, experimentação e cargas de trabalho em massa devem ser encaminhados para clusters de consumo. Apontam um ponto ótimo operacional em que configurações de quatro RTX 4090 atingem o melhor custo por milhão de tokens, entre $0,111 e $0,149, enquanto fornecem uma parte substancial do desempenho dos H100.
Para além dos benchmarks, a investigação reforça a missão da io.net de expandir o processamento através da ligação de GPUs distribuídas num pool programável e sob demanda. A empresa posiciona a sua stack, combinando a infraestrutura programável da io.cloud com o conjunto de ferramentas API da io.intelligence, como uma solução completa para startups que necessitam de treino, execução de agentes e inferência em larga escala sem a intensidade de capital de aquisição exclusiva de hardware de datacenter.
Os benchmarks completos e a metodologia estão disponíveis no repositório GitHub da io.net para quem quiser analisar os números e reproduzir as experiências. O estudo acrescenta uma voz importante e empiricamente fundamentada ao debate sobre como escalar a implementação de LLMs de forma acessível e sustentável nos próximos anos.