ChainThink 消息,4月23日,Perplexity 研究團隊發表技術文章,公開其網頁搜尋 agent 的後訓練流程。
該流程基於開源模型 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B,採用兩階段訓練方案:先通過監督微調(SFT)建立指令遵循、語言一致性等部署必需行為,再通過在線策略強化學習(RL)優化搜索準確率和工具使用效率。
RL 階段使用 GRPO 算法,訓練數據包含自研合成的多跳可驗證問答數據集,以及基於評分標準的通用對話數據。
獎勵設計的核心為門控聚合,僅當基線正確時,偏好得分才會參與計算,以防止高偏好訊號掩蓋事實錯誤;效率懲罰採用組內錨定方式,以同組的正確回答為基準,對額外工具調用和生成長度施加平滑懲罰。
評測顯示,後訓練的 Qwen3.5-397B-SFT-RL 在多個搜索基準上表現最佳。
在 FRAMES 基準中,單次工具調用準確率達 57.3%,較 GPT-5.4 高 5.7 個百分點、較 Sonnet 4.6 高 4.7 個百分點;
在中等預算(4 次工具調用)下,準確率為 73.9%,每查詢成本為 2.0 美分;在此相同條件下,GPT-5.4 為 67.8%/8.5 美分,Sonnet 4.6 為 62.4%/15.3 美分。成本數據依據各廠商公開 API 定價計算,未包含快取優化。
📝 本文最后更新于 2026年04月27日,部分内容可能已发生变化,请以最新信息为准
安全稳定的交易平台 | 新用户注册享专属福利
⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策