PANews 26 September melaporkan, OpenAI telah meluncurkan alat evaluasi baru GDPval, yang berfokus pada pengukuran kinerja AI dalam tugas nilai ekonomi dunia nyata. GDPval mencakup 44 profesi di sembilan industri yang memberikan kontribusi terbesar terhadap PDB AS, dengan tugas yang dirancang oleh para ahli industri dengan pengalaman rata-rata 14 tahun. Hasil evaluasi menunjukkan bahwa model Claude Opus 4.1 memiliki hampir setengah output yang setara atau lebih baik dibandingkan dengan tingkat ahli. OpenAI menyatakan bahwa di masa depan akan terus memperluas jangkauan dan rincian evaluasi GDPval.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
OpenAI meluncurkan tugas penilaian nilai ekonomi AI GDPval
PANews 26 September melaporkan, OpenAI telah meluncurkan alat evaluasi baru GDPval, yang berfokus pada pengukuran kinerja AI dalam tugas nilai ekonomi dunia nyata. GDPval mencakup 44 profesi di sembilan industri yang memberikan kontribusi terbesar terhadap PDB AS, dengan tugas yang dirancang oleh para ahli industri dengan pengalaman rata-rata 14 tahun. Hasil evaluasi menunjukkan bahwa model Claude Opus 4.1 memiliki hampir setengah output yang setara atau lebih baik dibandingkan dengan tingkat ahli. OpenAI menyatakan bahwa di masa depan akan terus memperluas jangkauan dan rincian evaluasi GDPval.