PANews 9月26日の報道によると、OpenAIは新しい評価ツールGDPvalを発表しました。これは、AIの現実世界の経済価値に関するタスクにおけるパフォーマンスを測定することに焦点を当てています。GDPvalは、アメリカのGDPに最も貢献している9つの業界の44の職業をカバーしており、タスクは平均14年の経験を持つ業界専門家によって設計されています。評価結果は、Claude Opus 4.1モデルの出力のほぼ半分が専門家のレベルに匹敵するか、それ以上であることを示しています。OpenAIは、今後GDPvalの評価範囲と詳細を拡張し続けると述べています。
OpenAIはGDPvalを発表し、AIの経済価値タスクのパフォーマンスを評価します。
PANews 9月26日の報道によると、OpenAIは新しい評価ツールGDPvalを発表しました。これは、AIの現実世界の経済価値に関するタスクにおけるパフォーマンスを測定することに焦点を当てています。GDPvalは、アメリカのGDPに最も貢献している9つの業界の44の職業をカバーしており、タスクは平均14年の経験を持つ業界専門家によって設計されています。評価結果は、Claude Opus 4.1モデルの出力のほぼ半分が専門家のレベルに匹敵するか、それ以上であることを示しています。OpenAIは、今後GDPvalの評価範囲と詳細を拡張し続けると述べています。