أصدرت OpenAI أداة التقييم GDPval لأداء مهام القيمة الاقتصادية للذكاء الاصطناعي
أخبار PANews 26 سبتمبر، أطلقت OpenAI أداة تقييم جديدة تُدعى GDPval، تركز على قياس أداء الذكاء الاصطناعي في مهام القيمة الاقتصادية في العالم الحقيقي. تغطي GDPval 44 مهنة من أكبر تسعة قطاعات تساهم في الناتج المحلي الإجمالي الأمريكي، وتم تصميم المهام من قبل خبراء صناعيين بمتوسط خبرة 14 عامًا. تُظهر نتائج التقييم أن نموذج Claude Opus 4.1 يُعادل أو يتفوق على مستوى الخبراء في ما يقرب من نصف المخرجات. ذكرت OpenAI أنها ستستمر في توسيع نطاق وتفاصيل تقييم GDPval في المستقبل.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
أصدرت OpenAI أداة التقييم GDPval لأداء مهام القيمة الاقتصادية للذكاء الاصطناعي
أخبار PANews 26 سبتمبر، أطلقت OpenAI أداة تقييم جديدة تُدعى GDPval، تركز على قياس أداء الذكاء الاصطناعي في مهام القيمة الاقتصادية في العالم الحقيقي. تغطي GDPval 44 مهنة من أكبر تسعة قطاعات تساهم في الناتج المحلي الإجمالي الأمريكي، وتم تصميم المهام من قبل خبراء صناعيين بمتوسط خبرة 14 عامًا. تُظهر نتائج التقييم أن نموذج Claude Opus 4.1 يُعادل أو يتفوق على مستوى الخبراء في ما يقرب من نصف المخرجات. ذكرت OpenAI أنها ستستمر في توسيع نطاق وتفاصيل تقييم GDPval في المستقبل.