Результати пошуку для "SFT"
2026-04-23
04:54

Perplexity розкриває метод пост-тренування агента веб-пошуку; модель на базі Qwen3.5 перевершує GPT-5.4 за точністю та вартістю

Perplexity використовує SFT із подальшим RL із моделями Qwen3.5, застосовуючи багатокроковий набір даних для QA та перевірки за рубрикою, щоб підвищити точність і ефективність пошуку, досягаючи рівня FRAMES найвищого класу. Анотація: Робочий процес пост-тренування Perplexity для агентів веб-пошуку поєднує контрольоване донавчання (SFT) для забезпечення дотримання інструкцій і мовної узгодженості з онлайн підкріплювальним навчанням (RL) через алгоритм GRPO. Етап RL використовує власний багатоходовий верифікований датасет запитань-відповідей і розмовні дані на основі рубрики, щоб запобігти дрейфу SFT, із обмеженням винагород і штрафами за ефективність у межах групи. Оцінювання показує, що Qwen3.5-397B-SFT-RL досягає найвищих показників FRAMES: 57,3% точності за одного виклику інструмента та 73,9% за чотирьох викликів при $0,02 за запит, випереджаючи GPT-5.4 і Claude Sonnet 4.6 за цими метриками. Ціноутворення базується на API і не включає кешування.
Більше
05:38

Prime Intellect випустила модель INTELLECT-3

Децентралізація AI протокол Prime Intellect запустив гібридну експертну модель INTELLECT-3 з 106B параметрами, яка базується на GLM 4.5 Air Base моделі та використовує SFT і RL для навчання. Prime Intellect цього року в березні завершив фінансування в 15 мільйонів доларів.
Більше