Jin10 ข้อมูล 3 เมษายน รายงานว่า วันนี้เวลาประมาณ 1 โมงเช้า OpenAI ได้เปิดตัวเกณฑ์เปรียบเทียบสมรรถนะ AI Agent ใหม่ล่าสุด — PaperBench เกณฑ์นี้จะประเมินความสามารถในการค้นหา การรวมข้อมูล และการดำเนินการของตัวแทน ซึ่งจำเป็นต้องมีการจำลองเอกสารวิจัยชั้นนำที่นำเสนอในงานประชุมวิทยาการแมชชีนเลิร์นนิงระดับนานาชาติปี 2024 รวมถึงความสามารถในการเข้าใจเนื้อหาของเอกสาร การเขียนโค้ด และการดำเนินการทดลอง ตามข้อมูลการทดสอบที่ OpenAI เปิดเผย ขณะนี้ ตัวแทนที่สร้างโดยโมเดลขนาดใหญ่ที่มีชื่อเสียงยังไม่สามารถเอาชนะผู้ที่มีปริญญาเอกด้านแมชชีนเลิร์นนิงระดับสูงได้ แต่มีประโยชน์มากในการช่วยเรียนรู้และทำความเข้าใจเนื้อหาทางวิทยาศาสตร์.
OpenAI open-source PaperBench ปรับโฉมการประเมินตัวแทน AI ชั้นนํา
Jin10 ข้อมูล 3 เมษายน รายงานว่า วันนี้เวลาประมาณ 1 โมงเช้า OpenAI ได้เปิดตัวเกณฑ์เปรียบเทียบสมรรถนะ AI Agent ใหม่ล่าสุด — PaperBench เกณฑ์นี้จะประเมินความสามารถในการค้นหา การรวมข้อมูล และการดำเนินการของตัวแทน ซึ่งจำเป็นต้องมีการจำลองเอกสารวิจัยชั้นนำที่นำเสนอในงานประชุมวิทยาการแมชชีนเลิร์นนิงระดับนานาชาติปี 2024 รวมถึงความสามารถในการเข้าใจเนื้อหาของเอกสาร การเขียนโค้ด และการดำเนินการทดลอง ตามข้อมูลการทดสอบที่ OpenAI เปิดเผย ขณะนี้ ตัวแทนที่สร้างโดยโมเดลขนาดใหญ่ที่มีชื่อเสียงยังไม่สามารถเอาชนะผู้ที่มีปริญญาเอกด้านแมชชีนเลิร์นนิงระดับสูงได้ แต่มีประโยชน์มากในการช่วยเรียนรู้และทำความเข้าใจเนื้อหาทางวิทยาศาสตร์.