جين10 بيانات 3 أبريل ، اليوم في الساعة 1 صباحًا ، أصدرت OpenAI معيار تقييم جديد لوكلاء الذكاء الاصطناعي - PaperBench. هذا المعيار يقيم بشكل أساسي قدرات الوكلاء في البحث والتكامل والتنفيذ ، ويتطلب إعادة إنتاج أفضل الأوراق البحثية في مؤتمر التعلم الآلي الدولي لعام 2024 ، بما في ذلك فهم محتوى الورقة وكتابة الشيفرة وتنفيذ التجارب. وفقًا لبيانات اختبار OpenAI المنشورة ، لا تزال الوكلاء التي تم إنشاؤها بواسطة نماذج كبيرة معروفة غير قادرة على التغلب على أفضل حاملي الدكتوراه في التعلم الآلي. لكنهم مفيدون جدًا في دعم التعلم وفهم محتوى البحث.
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
OpenAI مفتوح المصدر PaperBench ، إعادة تشكيل تقييمات أفضل وكيل ذكاء اصطناعي
جين10 بيانات 3 أبريل ، اليوم في الساعة 1 صباحًا ، أصدرت OpenAI معيار تقييم جديد لوكلاء الذكاء الاصطناعي - PaperBench. هذا المعيار يقيم بشكل أساسي قدرات الوكلاء في البحث والتكامل والتنفيذ ، ويتطلب إعادة إنتاج أفضل الأوراق البحثية في مؤتمر التعلم الآلي الدولي لعام 2024 ، بما في ذلك فهم محتوى الورقة وكتابة الشيفرة وتنفيذ التجارب. وفقًا لبيانات اختبار OpenAI المنشورة ، لا تزال الوكلاء التي تم إنشاؤها بواسطة نماذج كبيرة معروفة غير قادرة على التغلب على أفضل حاملي الدكتوراه في التعلم الآلي. لكنهم مفيدون جدًا في دعم التعلم وفهم محتوى البحث.