Sebuah makalah yang telah melalui proses peer-review dan diterima di 6th International Artificial Intelligence and Blockchain Conference (AIBC 2025) berargumen bahwa GPU konsumen yang menganggur, seperti Nvidia RTX 4090, dapat secara signifikan mengurangi biaya menjalankan inferensi large language model jika digunakan bersama perangkat keras datacenter tradisional.
Dengan judul Idle Consumer GPUs as a Complement to Enterprise Hardware for LLM Inference, studi dari io.net ini merupakan yang pertama yang mempublikasikan tolok ukur terbuka dari klaster GPU heterogen di cloud terdesentralisasi milik proyek tersebut. Analisisnya membandingkan klaster kartu grafis konsumen dengan akselerator H100 kelas datacenter dan menemukan tradeoff biaya-performa yang jelas yang dapat mengubah cara organisasi merancang armada inferensi mereka.
Menurut makalah tersebut, klaster yang dibangun dari GPU RTX 4090 dapat memberikan antara 62 hingga 78 persen throughput dari H100 sambil beroperasi dengan biaya sekitar setengahnya. Untuk beban kerja batch atau aplikasi yang toleran terhadap latensi, biaya token dapat turun hingga 75 persen. Para peneliti menyoroti bahwa penghematan ini paling menarik ketika pengembang dapat mentolerir latensi ekor yang lebih tinggi atau menggunakan perangkat keras konsumen untuk overflow dan tugas latar belakang seperti pengembangan, pemrosesan batch, pembuatan embeddings, dan evaluasi skala besar.
Aline Almeida, Kepala Penelitian di IOG Foundation dan penulis utama studi ini, mengatakan, “Temuan kami menunjukkan bahwa routing hibrida antara GPU enterprise dan konsumen menawarkan keseimbangan pragmatis antara performa, biaya, dan keberlanjutan. Alih-alih pilihan biner, infrastruktur heterogen memungkinkan organisasi mengoptimalkan kebutuhan latensi dan anggaran spesifik mereka sambil mengurangi dampak karbon.”
Armada GPU Hibrida
Makalah ini juga tidak menutupi keunggulan H100: Kartu datacenter Nvidia ini mempertahankan performa time-to-first-token P99 di bawah 55 milidetik bahkan pada beban tinggi, batas yang membuatnya sangat penting untuk aplikasi real-time dan sensitif terhadap latensi seperti chatbot produksi dan agen interaktif. Klaster GPU konsumen, sebaliknya, lebih cocok untuk lalu lintas yang dapat mentolerir latensi ekor yang diperpanjang; para penulis menunjukkan jendela P99 200–500 ms sebagai realistis untuk banyak beban kerja riset serta pengembangan/pengujian.
Energi dan keberlanjutan juga menjadi bagian dari perhitungan. Meskipun H100 tetap sekitar 3,1 kali lebih efisien energi per token, studi ini menyarankan bahwa memanfaatkan GPU konsumen yang menganggur dapat menurunkan jejak karbon embodied dari komputasi dengan memperpanjang umur perangkat keras dan memanfaatkan jaringan listrik yang kaya energi terbarukan. Singkatnya, armada campuran dapat menjadi lebih murah dan lebih ramah lingkungan jika digunakan secara strategis.
Gaurav Sharma, CEO io.net, mengatakan, “Analisis peer-review ini memvalidasi tesis inti di balik io.net: masa depan komputasi akan bersifat terdistribusi, heterogen, dan dapat diakses. Dengan memanfaatkan perangkat keras kelas datacenter dan konsumen, kita dapat mendemokratisasi akses ke infrastruktur AI canggih sekaligus menjadikannya lebih berkelanjutan.”
Panduan praktis dari makalah ini ditujukan langsung kepada tim MLOps dan pengembang AI. Para penulis merekomendasikan penggunaan GPU enterprise untuk routing real-time dan latensi rendah, sementara pengembangan, eksperimen, dan beban kerja massal diarahkan ke klaster konsumen. Mereka melaporkan sweet spot operasional di mana konfigurasi RTX 4090 empat kartu mencapai biaya terbaik per satu juta token, antara $0,111 dan $0,149, sambil memberikan porsi substansial dari performa H100.
Di luar tolok ukur, riset ini memperkuat misi io.net untuk memperluas komputasi dengan menghubungkan GPU terdistribusi menjadi kumpulan yang dapat diprogram dan sesuai permintaan. Perusahaan memposisikan stack mereka, yang menggabungkan infrastruktur programmable io.cloud dengan toolkit API io.intelligence, sebagai solusi lengkap bagi startup yang membutuhkan pelatihan, eksekusi agen, dan inferensi skala besar tanpa harus membeli perangkat keras datacenter secara penuh.
Tolok ukur lengkap dan metodologi tersedia di repositori GitHub io.net bagi yang ingin mendalami data dan mereproduksi eksperimen. Studi ini menambah suara penting yang berbasis empiris dalam debat tentang bagaimana melakukan skalabilitas deployment LLM secara terjangkau dan berkelanjutan di tahun-tahun mendatang.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Benchmark Io.net Mengungkap “Sweet Spot” Biaya-Performa untuk Klaster RTX 4090
Sebuah makalah yang telah melalui proses peer-review dan diterima di 6th International Artificial Intelligence and Blockchain Conference (AIBC 2025) berargumen bahwa GPU konsumen yang menganggur, seperti Nvidia RTX 4090, dapat secara signifikan mengurangi biaya menjalankan inferensi large language model jika digunakan bersama perangkat keras datacenter tradisional.
Dengan judul Idle Consumer GPUs as a Complement to Enterprise Hardware for LLM Inference, studi dari io.net ini merupakan yang pertama yang mempublikasikan tolok ukur terbuka dari klaster GPU heterogen di cloud terdesentralisasi milik proyek tersebut. Analisisnya membandingkan klaster kartu grafis konsumen dengan akselerator H100 kelas datacenter dan menemukan tradeoff biaya-performa yang jelas yang dapat mengubah cara organisasi merancang armada inferensi mereka.
Menurut makalah tersebut, klaster yang dibangun dari GPU RTX 4090 dapat memberikan antara 62 hingga 78 persen throughput dari H100 sambil beroperasi dengan biaya sekitar setengahnya. Untuk beban kerja batch atau aplikasi yang toleran terhadap latensi, biaya token dapat turun hingga 75 persen. Para peneliti menyoroti bahwa penghematan ini paling menarik ketika pengembang dapat mentolerir latensi ekor yang lebih tinggi atau menggunakan perangkat keras konsumen untuk overflow dan tugas latar belakang seperti pengembangan, pemrosesan batch, pembuatan embeddings, dan evaluasi skala besar.
Aline Almeida, Kepala Penelitian di IOG Foundation dan penulis utama studi ini, mengatakan, “Temuan kami menunjukkan bahwa routing hibrida antara GPU enterprise dan konsumen menawarkan keseimbangan pragmatis antara performa, biaya, dan keberlanjutan. Alih-alih pilihan biner, infrastruktur heterogen memungkinkan organisasi mengoptimalkan kebutuhan latensi dan anggaran spesifik mereka sambil mengurangi dampak karbon.”
Armada GPU Hibrida
Makalah ini juga tidak menutupi keunggulan H100: Kartu datacenter Nvidia ini mempertahankan performa time-to-first-token P99 di bawah 55 milidetik bahkan pada beban tinggi, batas yang membuatnya sangat penting untuk aplikasi real-time dan sensitif terhadap latensi seperti chatbot produksi dan agen interaktif. Klaster GPU konsumen, sebaliknya, lebih cocok untuk lalu lintas yang dapat mentolerir latensi ekor yang diperpanjang; para penulis menunjukkan jendela P99 200–500 ms sebagai realistis untuk banyak beban kerja riset serta pengembangan/pengujian.
Energi dan keberlanjutan juga menjadi bagian dari perhitungan. Meskipun H100 tetap sekitar 3,1 kali lebih efisien energi per token, studi ini menyarankan bahwa memanfaatkan GPU konsumen yang menganggur dapat menurunkan jejak karbon embodied dari komputasi dengan memperpanjang umur perangkat keras dan memanfaatkan jaringan listrik yang kaya energi terbarukan. Singkatnya, armada campuran dapat menjadi lebih murah dan lebih ramah lingkungan jika digunakan secara strategis.
Gaurav Sharma, CEO io.net, mengatakan, “Analisis peer-review ini memvalidasi tesis inti di balik io.net: masa depan komputasi akan bersifat terdistribusi, heterogen, dan dapat diakses. Dengan memanfaatkan perangkat keras kelas datacenter dan konsumen, kita dapat mendemokratisasi akses ke infrastruktur AI canggih sekaligus menjadikannya lebih berkelanjutan.”
Panduan praktis dari makalah ini ditujukan langsung kepada tim MLOps dan pengembang AI. Para penulis merekomendasikan penggunaan GPU enterprise untuk routing real-time dan latensi rendah, sementara pengembangan, eksperimen, dan beban kerja massal diarahkan ke klaster konsumen. Mereka melaporkan sweet spot operasional di mana konfigurasi RTX 4090 empat kartu mencapai biaya terbaik per satu juta token, antara $0,111 dan $0,149, sambil memberikan porsi substansial dari performa H100.
Di luar tolok ukur, riset ini memperkuat misi io.net untuk memperluas komputasi dengan menghubungkan GPU terdistribusi menjadi kumpulan yang dapat diprogram dan sesuai permintaan. Perusahaan memposisikan stack mereka, yang menggabungkan infrastruktur programmable io.cloud dengan toolkit API io.intelligence, sebagai solusi lengkap bagi startup yang membutuhkan pelatihan, eksekusi agen, dan inferensi skala besar tanpa harus membeli perangkat keras datacenter secara penuh.
Tolok ukur lengkap dan metodologi tersedia di repositori GitHub io.net bagi yang ingin mendalami data dan mereproduksi eksperimen. Studi ini menambah suara penting yang berbasis empiris dalam debat tentang bagaimana melakukan skalabilitas deployment LLM secara terjangkau dan berkelanjutan di tahun-tahun mendatang.