Vào ngày 23 tháng 2, một nhân viên của OpenAI đã công khai cáo buộc công ty xAI của Elon Musk, nói rằng kết quả kiểm tra chuẩn Điểm của mô hình AI mới nhất Grok3 do nó phát hành là sai lệch. Đáp lại, đồng sáng lập xAI Igor Babushkin khẳng định rằng công ty không sai. Biểu đồ của xAI cho thấy hai phiên bản của Grok3 - Grok3 Reasoning Beta và Grok3 mini Reasoning - vượt trội so với mô hình mạnh nhất hiện có của OpenAI, o3-mini-high, tại AIME 2025. Tuy nhiên, các nhân viên của OpenAI đã nhanh chóng chỉ ra trên nền tảng X rằng biểu đồ của xAI không bao gồm điểm AIME 2025 là o3-mini-cao trong điều kiện "cons@64". Babushkin lập luận trên nền tảng X rằng OpenAI đã đăng các biểu đồ thử nghiệm chuẩn Điểm gây hiểu lầm tương tự trong quá khứ. Mặc dù các biểu đồ này được sử dụng để so sánh hiệu suất của các mô hình của riêng họ.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Nhân viên của OpenAI đã công khai chỉ trích kết quả kiểm tra Điểm chuẩn của Grok3 là có tính đa nghĩa
Vào ngày 23 tháng 2, một nhân viên của OpenAI đã công khai cáo buộc công ty xAI của Elon Musk, nói rằng kết quả kiểm tra chuẩn Điểm của mô hình AI mới nhất Grok3 do nó phát hành là sai lệch. Đáp lại, đồng sáng lập xAI Igor Babushkin khẳng định rằng công ty không sai. Biểu đồ của xAI cho thấy hai phiên bản của Grok3 - Grok3 Reasoning Beta và Grok3 mini Reasoning - vượt trội so với mô hình mạnh nhất hiện có của OpenAI, o3-mini-high, tại AIME 2025. Tuy nhiên, các nhân viên của OpenAI đã nhanh chóng chỉ ra trên nền tảng X rằng biểu đồ của xAI không bao gồm điểm AIME 2025 là o3-mini-cao trong điều kiện "cons@64". Babushkin lập luận trên nền tảng X rằng OpenAI đã đăng các biểu đồ thử nghiệm chuẩn Điểm gây hiểu lầm tương tự trong quá khứ. Mặc dù các biểu đồ này được sử dụng để so sánh hiệu suất của các mô hình của riêng họ.