Hasil pencarian untuk "SFT"
2026-04-23
04:54

Perplexity 揭示网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确性与成本上优于 GPT-5.4

Perplexity 使用 SFT,随后采用带有 Qwen3.5 模型的 RL,通过多跳 QA 数据集和评分标准检查来提升搜索准确性与效率,从而实现同类最佳的 FRAMES 表现。 摘要:Perplexity 面向网页搜索代理的后训练流程,将监督微调 (SFT) 与在线强化学习 (RL) 相结合,并通过 GRPO 算法来强化指令遵循与语言一致性。RL 阶段使用其自有的多跳可验证问答数据集以及基于评分标准的对话数据,以防止 SFT 漂移;通过奖励门控与组内效率惩罚来实现。评估显示,Qwen3.5-397B-SFT-RL 在 FRAMES 上达到顶级表现:单次工具调用准确率为 57.3%,四次调用准确率为 73.9%,成本为每次查询 $0.02;在这些指标上优于 GPT-5.4 与 Claude Sonnet 4.6。定价基于 API,并不包含缓存。
Lainnya
05:38

Prime Intellect meluncurkan model INTELLECT-3

Protokol AI Desentralisasi Prime Intellect meluncurkan model ahli campuran INTELLECT-3 dengan 106B parameter, yang berbasis pada model GLM 4.5 Air Base, dan dilatih menggunakan SFT dan RL. Prime Intellect menyelesaikan pendanaan sebesar 15 juta dolar AS pada bulan Maret tahun ini.
Lainnya