Jin10 dữ liệu ngày 3 tháng 4, vào lúc 1 giờ sáng hôm nay, OpenAI đã mã nguồn mở một tiêu chuẩn đánh giá AI Agent hoàn toàn mới - PaperBench. Tiêu chuẩn này chủ yếu đánh giá khả năng tìm kiếm, tổng hợp và thực thi của các tác nhân, cần phải tái hiện các bài báo hàng đầu tại Hội nghị Máy học Quốc tế 2024, bao gồm khả năng hiểu nội dung bài báo, viết mã và thực hiện thí nghiệm. Theo dữ liệu thử nghiệm được OpenAI công bố, hiện tại các tác nhân được xây dựng bởi các mô hình lớn nổi tiếng vẫn không thể vượt qua các tiến sĩ chuyên ngành máy học hàng đầu. Nhưng chúng rất hữu ích trong việc hỗ trợ học tập và hiểu nội dung nghiên cứu.
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
OpenAI Mã nguồn mở PaperBench, tái định hình đánh giá AI Agent hàng đầu
Jin10 dữ liệu ngày 3 tháng 4, vào lúc 1 giờ sáng hôm nay, OpenAI đã mã nguồn mở một tiêu chuẩn đánh giá AI Agent hoàn toàn mới - PaperBench. Tiêu chuẩn này chủ yếu đánh giá khả năng tìm kiếm, tổng hợp và thực thi của các tác nhân, cần phải tái hiện các bài báo hàng đầu tại Hội nghị Máy học Quốc tế 2024, bao gồm khả năng hiểu nội dung bài báo, viết mã và thực hiện thí nghiệm. Theo dữ liệu thử nghiệm được OpenAI công bố, hiện tại các tác nhân được xây dựng bởi các mô hình lớn nổi tiếng vẫn không thể vượt qua các tiến sĩ chuyên ngành máy học hàng đầu. Nhưng chúng rất hữu ích trong việc hỗ trợ học tập và hiểu nội dung nghiên cứu.