OpenAI open-source PaperBench ปรับโฉมการประเมินตัวแทน AI ชั้นนํา

robot
ดำเนินการเจนเนเรชั่นบทคัดย่อ

Jin10 ข้อมูล 3 เมษายน รายงานว่า วันนี้เวลาประมาณ 1 โมงเช้า OpenAI ได้เปิดตัวเกณฑ์เปรียบเทียบสมรรถนะ AI Agent ใหม่ล่าสุด — PaperBench เกณฑ์นี้จะประเมินความสามารถในการค้นหา การรวมข้อมูล และการดำเนินการของตัวแทน ซึ่งจำเป็นต้องมีการจำลองเอกสารวิจัยชั้นนำที่นำเสนอในงานประชุมวิทยาการแมชชีนเลิร์นนิงระดับนานาชาติปี 2024 รวมถึงความสามารถในการเข้าใจเนื้อหาของเอกสาร การเขียนโค้ด และการดำเนินการทดลอง ตามข้อมูลการทดสอบที่ OpenAI เปิดเผย ขณะนี้ ตัวแทนที่สร้างโดยโมเดลขนาดใหญ่ที่มีชื่อเสียงยังไม่สามารถเอาชนะผู้ที่มีปริญญาเอกด้านแมชชีนเลิร์นนิงระดับสูงได้ แต่มีประโยชน์มากในการช่วยเรียนรู้และทำความเข้าใจเนื้อหาทางวิทยาศาสตร์.

ดูต้นฉบับ
เนื้อหานี้มีสำหรับการอ้างอิงเท่านั้น ไม่ใช่การชักชวนหรือข้อเสนอ ไม่มีคำแนะนำด้านการลงทุน ภาษี หรือกฎหมาย ดูข้อจำกัดความรับผิดชอบสำหรับการเปิดเผยความเสี่ยงเพิ่มเติม
  • รางวัล
  • แสดงความคิดเห็น
  • แชร์
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น
  • ปักหมุด