Golden Ten Data, 23 Februari, baru-baru ini, seorang karyawan OpenAI secara terbuka menuduh perusahaan xAI Elon Musk, mengatakan bahwa hasil tes Benchmark dari model AI terbaru Grok3 yang dirilis olehnya menyesatkan. Sebagai tanggapan, salah satu pendiri xAI Igor Babushkin bersikeras bahwa perusahaan itu tidak salah. Grafik xAI menunjukkan bahwa dua versi Grok3 – Grok3 Reasoning Beta dan Grok3 mini Reasoning – mengungguli model OpenAI terkuat yang tersedia saat ini, o3-mini-high, di AIME 2025. Namun, karyawan OpenAI dengan cepat menunjukkan pada platform X bahwa bagan xAI tidak menyertakan skor AIME 2025 o3-mini-high dalam kondisi "cons@64". Babushkin berpendapat pada platform X bahwa OpenAI telah memposting grafik Benchmark menyesatkan serupa di masa lalu. Meskipun grafik ini digunakan untuk membandingkan kinerja model mereka sendiri.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Karyawan OpenAI secara terbuka menuduh hasil pengujian Benchmark Grok3 bersifat menyesatkan
Golden Ten Data, 23 Februari, baru-baru ini, seorang karyawan OpenAI secara terbuka menuduh perusahaan xAI Elon Musk, mengatakan bahwa hasil tes Benchmark dari model AI terbaru Grok3 yang dirilis olehnya menyesatkan. Sebagai tanggapan, salah satu pendiri xAI Igor Babushkin bersikeras bahwa perusahaan itu tidak salah. Grafik xAI menunjukkan bahwa dua versi Grok3 – Grok3 Reasoning Beta dan Grok3 mini Reasoning – mengungguli model OpenAI terkuat yang tersedia saat ini, o3-mini-high, di AIME 2025. Namun, karyawan OpenAI dengan cepat menunjukkan pada platform X bahwa bagan xAI tidak menyertakan skor AIME 2025 o3-mini-high dalam kondisi "cons@64". Babushkin berpendapat pada platform X bahwa OpenAI telah memposting grafik Benchmark menyesatkan serupa di masa lalu. Meskipun grafik ini digunakan untuk membandingkan kinerja model mereka sendiri.