ChainCatcher 消息,據金十報道,OpenAI 的一名員工公開指責馬斯克旗下的xAI公司,稱其發佈的最新 AI 模型 Grok3 的基準測試結果具有誤導性。對此,xAI 的聯合創始人伊戈爾・巴布什金(Igor Babushkin)則堅稱公司並無不當。 xAI 的圖表顯示,Grok3 的兩個版本——Grok3 Reasoning Beta 和 Grok3 mini Reasoning——在 AIME 2025 上的表現超過了 OpenAI 當前最強的可用模型 o3-mini-high。然而,OpenAI 的員工很快在 X 平臺上指出,xAI的圖表並未包含 o3-mini-high 在“cons@64”條件下的 AIME 2025 得分。 巴布什金在 X 平臺上辯稱,OpenAI 過去也曾發佈過類似的誤導性基準測試圖表。儘管這些圖表是用於比較其自身模型的表現。
10.1萬 熱度
1.4萬 熱度
8282 熱度
17萬 熱度
791 熱度
OpenAI 員工公開指責 xAI 最新 AI 模型 Grok3 的基準測試結果具有誤導性
ChainCatcher 消息,據金十報道,OpenAI 的一名員工公開指責馬斯克旗下的xAI公司,稱其發佈的最新 AI 模型 Grok3 的基準測試結果具有誤導性。對此,xAI 的聯合創始人伊戈爾・巴布什金(Igor Babushkin)則堅稱公司並無不當。 xAI 的圖表顯示,Grok3 的兩個版本——Grok3 Reasoning Beta 和 Grok3 mini Reasoning——在 AIME 2025 上的表現超過了 OpenAI 當前最強的可用模型 o3-mini-high。然而,OpenAI 的員工很快在 X 平臺上指出,xAI的圖表並未包含 o3-mini-high 在“cons@64”條件下的 AIME 2025 得分。 巴布什金在 X 平臺上辯稱,OpenAI 過去也曾發佈過類似的誤導性基準測試圖表。儘管這些圖表是用於比較其自身模型的表現。