Результаты поиска для "SFT"
2026-04-23
04:54

Perplexity 公开 Web 搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

Perplexity 使用基于 Qwen3.5 模型的 SFT,随后接着使用带有 RL 的强化学习,利用多跳问答数据集和评分准则检查来提升搜索准确性与效率,实现同级最优的 FRAMES 表现。 摘要:Perplexity 面向 Web 搜索代理的后训练流程,将监督微调 (SFT) 与在线强化学习 (RL) 结合,借助 GRPO 算法来强化指令遵循与语言一致性。强化学习阶段使用专有的多跳可验证问答数据集以及基于评分准则的对话数据,以防止 SFT 漂移;通过奖励门控与组内效率惩罚来实现。评估显示,Qwen3.5-397B-SFT-RL 在 FRAMES 上取得顶级表现,在单次工具调用下准确率为 57.3%,在四次调用下为 73.9%,成本为每次查询 $0.02;在这些指标上优于 GPT-5.4 和 Claude Sonnet 4.6。定价基于 API,并且不包含缓存。
Больше
05:38

Prime Intellect представила модель INTELLECT-3

Децентрализация AI Протокол Prime Intellect запустил смешанную экспертную модель INTELLECT-3 с 106B параметрами, основанную на модели GLM 4.5 Air Base и обученную с использованием SFT и RL. Prime Intellect завершил финансирование в 15 миллионов долларов в этом году в марте.
Больше