OpenAI lanza GDPval para evaluar el rendimiento de tareas de valor económico de la IA
PANews, 26 de septiembre. OpenAI ha lanzado una nueva herramienta de evaluación llamada GDPval, centrada en medir el rendimiento de la IA en tareas de valor económico en el mundo real. GDPval cubre 44 ocupaciones en los nueve sectores que más contribuyen al PIB de EE. UU., con tareas diseñadas por expertos de la industria con un promedio de 14 años de experiencia. Los resultados de la evaluación muestran que el modelo Claude Opus 4.1 tiene casi la mitad de sus salidas a la par o superiores al nivel de los expertos. OpenAI ha declarado que continuará ampliando el alcance y los detalles de la evaluación GDPval en el futuro.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
OpenAI lanza GDPval para evaluar el rendimiento de tareas de valor económico de la IA
PANews, 26 de septiembre. OpenAI ha lanzado una nueva herramienta de evaluación llamada GDPval, centrada en medir el rendimiento de la IA en tareas de valor económico en el mundo real. GDPval cubre 44 ocupaciones en los nueve sectores que más contribuyen al PIB de EE. UU., con tareas diseñadas por expertos de la industria con un promedio de 14 años de experiencia. Los resultados de la evaluación muestran que el modelo Claude Opus 4.1 tiene casi la mitad de sus salidas a la par o superiores al nivel de los expertos. OpenAI ha declarado que continuará ampliando el alcance y los detalles de la evaluación GDPval en el futuro.