Một bài báo được bình duyệt đã được chấp nhận tại Hội nghị Trí tuệ Nhân tạo và Blockchain Quốc tế lần thứ 6 (AIBC 2025) lập luận rằng các GPU tiêu dùng nhàn rỗi, điển hình là Nvidia RTX 4090, có thể giảm đáng kể chi phí vận hành suy luận mô hình ngôn ngữ lớn khi được sử dụng song song với phần cứng trung tâm dữ liệu truyền thống.
Với tiêu đề GPU tiêu dùng nhàn rỗi như một phần bổ sung cho phần cứng doanh nghiệp trong suy luận LLM, nghiên cứu đến từ io.net là nghiên cứu đầu tiên công bố các chỉ số đánh giá mở về các cụm GPU không đồng nhất trên đám mây phi tập trung của dự án. Phân tích so sánh các cụm card tiêu dùng với các bộ tăng tốc H100 cấp trung tâm dữ liệu và cho thấy một đánh đổi rõ ràng giữa chi phí và hiệu năng có thể thay đổi cách các tổ chức thiết kế đội ngũ suy luận của mình.
Theo bài báo, các cụm được xây dựng từ GPU RTX 4090 có thể cung cấp từ 62 đến 78 phần trăm thông lượng của H100 trong khi hoạt động với chi phí chỉ khoảng một nửa. Đối với các khối lượng công việc theo lô hoặc ứng dụng chịu được độ trễ, chi phí mỗi token có thể giảm tới 75 phần trăm. Các nhà nghiên cứu nhấn mạnh rằng khoản tiết kiệm này hấp dẫn nhất khi các nhà phát triển có thể chấp nhận độ trễ đuôi cao hơn, hoặc sử dụng phần cứng tiêu dùng cho các tác vụ phụ và nền như phát triển, xử lý theo lô, tạo embedding và đánh giá quy mô lớn.
Aline Almeida, Trưởng phòng Nghiên cứu tại IOG Foundation và là tác giả chính của nghiên cứu, cho biết: “Phát hiện của chúng tôi chứng minh rằng định tuyến lai giữa GPU doanh nghiệp và tiêu dùng mang lại sự cân bằng thực tế giữa hiệu năng, chi phí và tính bền vững. Thay vì lựa chọn nhị phân, hạ tầng không đồng nhất cho phép các tổ chức tối ưu hóa theo yêu cầu độ trễ và ngân sách cụ thể đồng thời giảm tác động carbon.”
Đội ngũ GPU lai
Bài báo không né tránh những điểm mạnh của H100: các card trung tâm dữ liệu Nvidia duy trì thời gian P99 từ khi nhận token đầu tiên dưới 55 mili giây ngay cả khi tải cao, một ranh giới khiến chúng không thể thay thế đối với các ứng dụng thời gian thực, nhạy cảm với độ trễ như chatbot sản xuất và tác nhân tương tác. Ngược lại, các cụm GPU tiêu dùng phù hợp hơn với lưu lượng có thể chịu được độ trễ đuôi kéo dài; các tác giả chỉ ra cửa sổ P99 từ 200–500 ms là thực tế cho nhiều khối lượng công việc nghiên cứu và phát triển/thử nghiệm.
Năng lượng và tính bền vững cũng là một phần của phép tính. Dù H100 vẫn tiết kiệm năng lượng hơn khoảng 3,1 lần cho mỗi token, nghiên cứu cho rằng tận dụng GPU tiêu dùng nhàn rỗi có thể giảm dấu chân carbon tích hợp của tính toán bằng cách kéo dài tuổi thọ phần cứng và tận dụng lưới điện giàu năng lượng tái tạo. Nói ngắn gọn, một đội ngũ hỗn hợp có thể vừa rẻ hơn vừa xanh hơn khi được triển khai một cách chiến lược.
Gaurav Sharma, CEO của io.net, cho biết: “Phân tích được bình duyệt này xác thực luận điểm cốt lõi phía sau io.net: tương lai của tính toán sẽ là phân tán, không đồng nhất và dễ tiếp cận. Bằng cách tận dụng cả phần cứng trung tâm dữ liệu và tiêu dùng, chúng ta có thể dân chủ hóa quyền truy cập hạ tầng AI tiên tiến đồng thời làm cho nó bền vững hơn.”
Hướng dẫn thực tiễn từ bài báo hướng trực tiếp tới các đội ngũ MLOps và nhà phát triển AI. Các tác giả khuyến nghị sử dụng GPU doanh nghiệp cho định tuyến thời gian thực, độ trễ thấp, đồng thời chuyển phát triển, thử nghiệm và khối lượng công việc lớn sang các cụm tiêu dùng. Họ ghi nhận điểm tối ưu vận hành ở cấu hình RTX 4090 bốn card với chi phí tốt nhất cho mỗi triệu token, từ $0.111 đến $0.149, đồng thời cung cấp một phần đáng kể hiệu năng của H100.
Vượt ra ngoài các chỉ số, nghiên cứu củng cố sứ mệnh của io.net trong việc mở rộng tính toán bằng cách kết nối các GPU phân tán thành một nhóm lập trình theo yêu cầu. Công ty định vị bộ công cụ của mình, kết hợp hạ tầng lập trình của io.cloud với bộ API của io.intelligence, như một giải pháp hoàn chỉnh cho các startup cần đào tạo, thực thi tác nhân và suy luận quy mô lớn mà không cần đầu tư vốn lớn vào phần cứng trung tâm dữ liệu.
Bộ chỉ số đánh giá đầy đủ và phương pháp luận có sẵn trên kho GitHub của io.net cho những ai muốn tìm hiểu chi tiết và tái tạo thí nghiệm. Nghiên cứu bổ sung một tiếng nói quan trọng, dựa trên thực nghiệm vào cuộc tranh luận về cách mở rộng triển khai LLM một cách hợp lý và bền vững trong những năm tới.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Các chỉ số của Io.net tiết lộ “điểm ngọt” về chi phí-hiệu năng cho các cụm RTX 4090
Một bài báo được bình duyệt đã được chấp nhận tại Hội nghị Trí tuệ Nhân tạo và Blockchain Quốc tế lần thứ 6 (AIBC 2025) lập luận rằng các GPU tiêu dùng nhàn rỗi, điển hình là Nvidia RTX 4090, có thể giảm đáng kể chi phí vận hành suy luận mô hình ngôn ngữ lớn khi được sử dụng song song với phần cứng trung tâm dữ liệu truyền thống.
Với tiêu đề GPU tiêu dùng nhàn rỗi như một phần bổ sung cho phần cứng doanh nghiệp trong suy luận LLM, nghiên cứu đến từ io.net là nghiên cứu đầu tiên công bố các chỉ số đánh giá mở về các cụm GPU không đồng nhất trên đám mây phi tập trung của dự án. Phân tích so sánh các cụm card tiêu dùng với các bộ tăng tốc H100 cấp trung tâm dữ liệu và cho thấy một đánh đổi rõ ràng giữa chi phí và hiệu năng có thể thay đổi cách các tổ chức thiết kế đội ngũ suy luận của mình.
Theo bài báo, các cụm được xây dựng từ GPU RTX 4090 có thể cung cấp từ 62 đến 78 phần trăm thông lượng của H100 trong khi hoạt động với chi phí chỉ khoảng một nửa. Đối với các khối lượng công việc theo lô hoặc ứng dụng chịu được độ trễ, chi phí mỗi token có thể giảm tới 75 phần trăm. Các nhà nghiên cứu nhấn mạnh rằng khoản tiết kiệm này hấp dẫn nhất khi các nhà phát triển có thể chấp nhận độ trễ đuôi cao hơn, hoặc sử dụng phần cứng tiêu dùng cho các tác vụ phụ và nền như phát triển, xử lý theo lô, tạo embedding và đánh giá quy mô lớn.
Aline Almeida, Trưởng phòng Nghiên cứu tại IOG Foundation và là tác giả chính của nghiên cứu, cho biết: “Phát hiện của chúng tôi chứng minh rằng định tuyến lai giữa GPU doanh nghiệp và tiêu dùng mang lại sự cân bằng thực tế giữa hiệu năng, chi phí và tính bền vững. Thay vì lựa chọn nhị phân, hạ tầng không đồng nhất cho phép các tổ chức tối ưu hóa theo yêu cầu độ trễ và ngân sách cụ thể đồng thời giảm tác động carbon.”
Đội ngũ GPU lai
Bài báo không né tránh những điểm mạnh của H100: các card trung tâm dữ liệu Nvidia duy trì thời gian P99 từ khi nhận token đầu tiên dưới 55 mili giây ngay cả khi tải cao, một ranh giới khiến chúng không thể thay thế đối với các ứng dụng thời gian thực, nhạy cảm với độ trễ như chatbot sản xuất và tác nhân tương tác. Ngược lại, các cụm GPU tiêu dùng phù hợp hơn với lưu lượng có thể chịu được độ trễ đuôi kéo dài; các tác giả chỉ ra cửa sổ P99 từ 200–500 ms là thực tế cho nhiều khối lượng công việc nghiên cứu và phát triển/thử nghiệm.
Năng lượng và tính bền vững cũng là một phần của phép tính. Dù H100 vẫn tiết kiệm năng lượng hơn khoảng 3,1 lần cho mỗi token, nghiên cứu cho rằng tận dụng GPU tiêu dùng nhàn rỗi có thể giảm dấu chân carbon tích hợp của tính toán bằng cách kéo dài tuổi thọ phần cứng và tận dụng lưới điện giàu năng lượng tái tạo. Nói ngắn gọn, một đội ngũ hỗn hợp có thể vừa rẻ hơn vừa xanh hơn khi được triển khai một cách chiến lược.
Gaurav Sharma, CEO của io.net, cho biết: “Phân tích được bình duyệt này xác thực luận điểm cốt lõi phía sau io.net: tương lai của tính toán sẽ là phân tán, không đồng nhất và dễ tiếp cận. Bằng cách tận dụng cả phần cứng trung tâm dữ liệu và tiêu dùng, chúng ta có thể dân chủ hóa quyền truy cập hạ tầng AI tiên tiến đồng thời làm cho nó bền vững hơn.”
Hướng dẫn thực tiễn từ bài báo hướng trực tiếp tới các đội ngũ MLOps và nhà phát triển AI. Các tác giả khuyến nghị sử dụng GPU doanh nghiệp cho định tuyến thời gian thực, độ trễ thấp, đồng thời chuyển phát triển, thử nghiệm và khối lượng công việc lớn sang các cụm tiêu dùng. Họ ghi nhận điểm tối ưu vận hành ở cấu hình RTX 4090 bốn card với chi phí tốt nhất cho mỗi triệu token, từ $0.111 đến $0.149, đồng thời cung cấp một phần đáng kể hiệu năng của H100.
Vượt ra ngoài các chỉ số, nghiên cứu củng cố sứ mệnh của io.net trong việc mở rộng tính toán bằng cách kết nối các GPU phân tán thành một nhóm lập trình theo yêu cầu. Công ty định vị bộ công cụ của mình, kết hợp hạ tầng lập trình của io.cloud với bộ API của io.intelligence, như một giải pháp hoàn chỉnh cho các startup cần đào tạo, thực thi tác nhân và suy luận quy mô lớn mà không cần đầu tư vốn lớn vào phần cứng trung tâm dữ liệu.
Bộ chỉ số đánh giá đầy đủ và phương pháp luận có sẵn trên kho GitHub của io.net cho những ai muốn tìm hiểu chi tiết và tái tạo thí nghiệm. Nghiên cứu bổ sung một tiếng nói quan trọng, dựa trên thực nghiệm vào cuộc tranh luận về cách mở rộng triển khai LLM một cách hợp lý và bền vững trong những năm tới.