Dữ liệu Kim Tứ ngày 3 tháng 3, Lenovo Group mới đây đã thông báo rằng dựa trên máy chủ Lenovo Hỏi Thiên WA7780 G3, họ đã thành công triển khai mô hình lớn DeepSeek-R1/V3 671B trên một máy duy nhất lần đầu tiên trong ngành, với dung lượng VRAM thấp hơn so với 1TGB được công nhận trong ngành (thực tế là 768GB), mang lại trải nghiệm mượt mà cho 100 người dùng song song. Theo dữ liệu thử nghiệm thực tế của Lenovo, trong môi trường thử nghiệm chuẩn 512 token, hệ thống này có thể hỗ trợ 100 người dùng song song liên tục nhận được đầu ra ổn định 10 token mỗi giây, với thời gian phản hồi token đầu tiên được nén xuống dưới 30 giây.
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Máy chủ AI của Lenovo lần đầu tiên triển khai cục bộ, DeepSeek toàn mô hình dưới 1TB, hỗ trợ 100 đồng thời
Dữ liệu Kim Tứ ngày 3 tháng 3, Lenovo Group mới đây đã thông báo rằng dựa trên máy chủ Lenovo Hỏi Thiên WA7780 G3, họ đã thành công triển khai mô hình lớn DeepSeek-R1/V3 671B trên một máy duy nhất lần đầu tiên trong ngành, với dung lượng VRAM thấp hơn so với 1TGB được công nhận trong ngành (thực tế là 768GB), mang lại trải nghiệm mượt mà cho 100 người dùng song song. Theo dữ liệu thử nghiệm thực tế của Lenovo, trong môi trường thử nghiệm chuẩn 512 token, hệ thống này có thể hỗ trợ 100 người dùng song song liên tục nhận được đầu ra ổn định 10 token mỗi giây, với thời gian phản hồi token đầu tiên được nén xuống dưới 30 giây.