OpenAIの従業員は、Grok3のベンチマークテスト結果が誤解を招くと公然と非難しています

GoldenOctober2024

2025-02-23 02:44:46

概要作成中

金十データ2月23日、最近、OpenAIの1人の従業員が、イーロン・マスクの傘下のXAI社が公開した最新のAIモデルGrok3のベンチマークテスト結果が誤解を招くと非難しました。これに対し、XAIの共同創設者イゴール・バブシュキン（Igor Babushkin）氏は、会社に不正がないと主張しています。XAIの図によると、Grok3には2つのバージョンがあり、Grok3 Reasoning BetaとGrok3 mini Reasoningは、AIME 2025でOpenAIの現在利用可能な最強モデルo3-mini-highを上回っています。しかし、OpenAIの従業員はすぐにXプラットフォーム上で指摘しました、XAIの図にはo3-mini-highの“cons@64”条件でのAIME 2025スコアが含まれていないと。バブシュキン氏はXプラットフォーム上で反論し、OpenAIも過去に同様の誤解を招くベンチマークテスト図を公開したことがあると述べました。これらの図は、自社のモデルのパフォーマンスを比較するために使用されていましたが。

GROK1.22%

XAI-3.63%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

3 いいね