OpenAI Открытый исходный код PaperBench, переработка оценки топовых AI агентов

robot
Генерация тезисов в процессе

Jin10 данные 3 апреля, сегодня в 1 час ночи OpenAI выпустила новый бенчмарк для оценки AI-агентов — PaperBench. Этот бенчмарк в основном оценивает способности агентов в поиске, интеграции и выполнении задач, что требует воспроизведения ведущих статей на международной конференции по машинному обучению 2024 года, включая понимание содержания статей, написание кода и выполнение экспериментов. Согласно опубликованным OpenAI тестовым данным, в настоящее время известные большие модели, созданные для агентов, все еще не могут превзойти лучших докторов наук в области машинного обучения. Однако они очень полезны в поддержке обучения и понимании научного содержания.

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить