أخبار PANews 26 سبتمبر ، أطلقت OpenAI أداة تقييم جديدة تُدعى GDPval تركز على قياس أداء الذكاء الاصطناعي في مهام القيمة الاقتصادية في العالم الحقيقي. تغطي GDPval 44 مهنة من أكبر تسعة صناعات تساهم في الناتج المحلي الإجمالي الأمريكي ، حيث تم تصميم المهام بواسطة خبراء في الصناعة بمتوسط خبرة 14 عامًا. تظهر نتائج التقييم أن نموذج Claude Opus 4.1 يحقق ما يقرب من نصف مخرجاته مستوى مماثل أو أفضل من مستوى الخبراء. وأفادت OpenAI بأنها ستستمر في توسيع نطاق ودقة تقييم GDPval في المستقبل.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
أصدرت OpenAI تقييم GDPval لأداء مهمة تقييم القيمة الاقتصادية للذكاء الاصطناعي
أخبار PANews 26 سبتمبر ، أطلقت OpenAI أداة تقييم جديدة تُدعى GDPval تركز على قياس أداء الذكاء الاصطناعي في مهام القيمة الاقتصادية في العالم الحقيقي. تغطي GDPval 44 مهنة من أكبر تسعة صناعات تساهم في الناتج المحلي الإجمالي الأمريكي ، حيث تم تصميم المهام بواسطة خبراء في الصناعة بمتوسط خبرة 14 عامًا. تظهر نتائج التقييم أن نموذج Claude Opus 4.1 يحقق ما يقرب من نصف مخرجاته مستوى مماثل أو أفضل من مستوى الخبراء. وأفادت OpenAI بأنها ستستمر في توسيع نطاق ودقة تقييم GDPval في المستقبل.