发布时间:2026-04-25 | 更新时间:2026-04-27
浏览量图标 3次浏览

Perplexity 揭示搜尋代理的後訓練方法,Qwen3.5 在準確率與成本上優於 GPT-5.4

摘要
4 月 23 日,Perplexity 團隊分享了其網路搜尋代理程式的一種新後訓練方法。該方法採用 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B 進行兩階段處理:首先進行監督微調,然後使用 GRPO 進行線上策略強化學習。該方法利用多跳 QA 數據集,並基於閘控聚合與組內錨定進行評分。Qwen3.5-397B-SFT-RL 在 FRAMES 基準測試中表現優於 GPT-5.4,單次調用準確率達 57.3%,四次工具調用時準確率達 73.9%,每筆查詢成本為 2.0 美分。這些性能提升與流動性增長及加密市場效率提升相符。MiCA 在歐盟市場的實施可能進一步影響此類發展。

ChainThink 消息,4月23日,Perplexity 研究團隊發表技術文章,公開其網頁搜尋 agent 的後訓練流程。


該流程基於開源模型 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B,採用兩階段訓練方案:先通過監督微調(SFT)建立指令遵循、語言一致性等部署必需行為,再通過在線策略強化學習(RL)優化搜索準確率和工具使用效率。


RL 階段使用 GRPO 算法,訓練數據包含自研合成的多跳可驗證問答數據集,以及基於評分標準的通用對話數據。


獎勵設計的核心為門控聚合,僅當基線正確時,偏好得分才會參與計算,以防止高偏好訊號掩蓋事實錯誤;效率懲罰採用組內錨定方式,以同組的正確回答為基準,對額外工具調用和生成長度施加平滑懲罰。


評測顯示,後訓練的 Qwen3.5-397B-SFT-RL 在多個搜索基準上表現最佳。


在 FRAMES 基準中,單次工具調用準確率達 57.3%,較 GPT-5.4 高 5.7 個百分點、較 Sonnet 4.6 高 4.7 個百分點;


在中等預算(4 次工具調用)下,準確率為 73.9%,每查詢成本為 2.0 美分;在此相同條件下,GPT-5.4 為 67.8%/8.5 美分,Sonnet 4.6 為 62.4%/15.3 美分。成本數據依據各廠商公開 API 定價計算,未包含快取優化。

📝 本文最后更新于 2026年04月27日,部分内容可能已发生变化,请以最新信息为准

🚀 主流数字货币交易所推荐

安全稳定的交易平台 | 新用户注册享专属福利

Binance币安交易所LOGO

Binance 币安

全球最大加密货币交易所

立即注册 下载APP
OKX欧易交易所LOGO

OKX 欧易

老牌知名数字资产平台

立即注册 下载APP
Bybit交易所LOGO

Bybit

专业合约交易平台

立即注册 下载APP

⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策

声明:文章不代表币圈子观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
回顶部