OpenAIはGDPval評価AI経済価値タスクのパフォーマンスを発表しました。PANews 9月26日の報道によると、OpenAIは新しい評価ツールGDPvalを導入し、AIの現実世界の経済価値タスクにおけるパフォーマンスを測定することに重点を置いています。GDPvalは、米国GDPに最も貢献している9つの業界の44の職業をカバーしており、タスクは平均14年の経験を持つ業界の専門家によって設計されています。評価結果は、Claude Opus 4.1モデルの出力のほぼ半分が専門家レベルと同等またはそれ以上であることを示しています。OpenAIは、将来的にGDPval評価の範囲と詳細を拡張し続けると述べています。
OpenAIはGDPval評価AI経済価値タスクのパフォーマンスを発表しました。PANews 9月26日の報道によると、OpenAIは新しい評価ツールGDPvalを導入し、AIの現実世界の経済価値タスクにおけるパフォーマンスを測定することに重点を置いています。GDPvalは、米国GDPに最も貢献している9つの業界の44の職業をカバーしており、タスクは平均14年の経験を持つ業界の専門家によって設計されています。評価結果は、Claude Opus 4.1モデルの出力のほぼ半分が専門家レベルと同等またはそれ以上であることを示しています。OpenAIは、将来的にGDPval評価の範囲と詳細を拡張し続けると述べています。