Scannez pour télécharger l’application Gate
qrCode
Autres options de téléchargement
Ne pas rappeler aujourd’hui

Les benchmarks d’Io.net révèlent un « sweet spot » coût-performance pour les clusters RTX 4090

Un article évalué par des pairs, accepté à la 6e Conférence Internationale sur l’Intelligence Artificielle et la Blockchain (AIBC 2025), soutient que les GPU grand public inactifs, illustrés par la RTX 4090 de Nvidia, peuvent significativement réduire le coût de l’inférence de grands modèles de langage lorsqu’ils sont utilisés en complément des infrastructures traditionnelles de centre de données.

Intitulée « Idle Consumer GPUs as a Complement to Enterprise Hardware for LLM Inference », l’étude menée par io.net est la première à publier des benchmarks ouverts de clusters GPU hétérogènes sur le cloud décentralisé du projet. L’analyse compare des clusters de cartes grand public à des accélérateurs H100 de niveau datacenter et met en évidence un compromis clair entre coût et performance, susceptible de transformer la façon dont les organisations conçoivent leurs flottes d’inférence.

Selon l’article, les clusters composés de GPU RTX 4090 peuvent fournir entre 62 et 78 % du débit des H100, tout en fonctionnant à environ la moitié du coût. Pour les charges de travail par lots ou les applications tolérantes à la latence, le coût par jeton diminue jusqu’à 75 %. Les chercheurs soulignent que ces économies sont particulièrement attractives lorsque les développeurs peuvent tolérer des latences extrêmes plus élevées ou utiliser du matériel grand public pour des tâches de débordement et d’arrière-plan telles que le développement, le traitement par lots, la génération d’embeddings et les évaluations à grande échelle.

Aline Almeida, responsable de la recherche à la IOG Foundation et auteure principale de l’étude, a déclaré : « Nos résultats démontrent que le routage hybride entre GPU d’entreprise et grand public offre un équilibre pragmatique entre performance, coût et durabilité. Plutôt qu’un choix binaire, l’infrastructure hétérogène permet aux organisations d’optimiser leurs exigences spécifiques en matière de latence et de budget tout en réduisant leur impact carbone. »

Flottes hybrides de GPU

L’article ne minimise pas les atouts des H100 : les cartes datacenter de Nvidia maintiennent une performance P99 sous les 55 millisecondes pour le temps jusqu’au premier jeton, même sous forte charge, une limite qui les rend indispensables pour les applications en temps réel et sensibles à la latence, telles que les chatbots de production et les agents interactifs. Les clusters de GPU grand public, en revanche, conviennent mieux à un trafic pouvant tolérer des latences extrêmes plus longues ; les auteurs évoquent une fenêtre P99 de 200 à 500 ms comme réaliste pour de nombreux travaux de recherche et de développement/test.

L’énergie et la durabilité font également partie de l’équation. Bien que les H100 restent environ 3,1 fois plus efficaces énergétiquement par jeton, l’étude suggère que l’exploitation de GPU grand public inactifs peut réduire l’empreinte carbone intrinsèque du calcul en prolongeant la durée de vie du matériel et en utilisant des réseaux électriques riches en énergies renouvelables. En résumé, une flotte mixte peut être à la fois moins coûteuse et plus écologique lorsqu’elle est déployée de manière stratégique.

Gaurav Sharma, PDG de io.net, a déclaré : « Cette analyse évaluée par des pairs valide la thèse centrale d’io.net : l’avenir du calcul sera distribué, hétérogène et accessible. En exploitant à la fois le matériel de niveau datacenter et le matériel grand public, nous pouvons démocratiser l’accès à une infrastructure IA avancée tout en la rendant plus durable. »

Les recommandations pratiques de l’article s’adressent directement aux équipes MLOps et aux développeurs IA. Les auteurs recommandent d’utiliser les GPU d’entreprise pour le routage en temps réel et à faible latence, tandis que le développement, l’expérimentation et les lots volumineux peuvent être dirigés vers les clusters grand public. Ils identifient un point d’équilibre opérationnel où les configurations à quatre RTX 4090 offrent le meilleur coût par million de jetons, entre 0,111 $ et 0,149 $, tout en fournissant une part substantielle de la performance des H100.

Au-delà des benchmarks, la recherche vient renforcer la mission d’io.net : étendre la puissance de calcul en fédérant des GPU distribués dans un pool programmable à la demande. L’entreprise positionne sa pile, combinant l’infrastructure programmable de io.cloud et la boîte à outils API de io.intelligence, comme une solution complète pour les startups ayant besoin d’entraînement, d’exécution d’agents et d’inférence à grande échelle sans l’investissement massif lié à l’achat exclusif de matériel datacenter.

Les benchmarks complets et la méthodologie sont disponibles sur le dépôt GitHub d’io.net pour ceux qui souhaitent consulter les chiffres et reproduire les expériences. L’étude apporte une contribution importante et empiriquement fondée au débat sur la manière de faire évoluer les déploiements de LLM de manière abordable et durable dans les années à venir.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)