Perplexity 揭示搜尋代理的後訓練方法，Qwen3.5 在準確率與成本上優於 GPT-5.4

摘要

4 月 23 日，Perplexity 團隊分享了其網路搜尋代理程式的一種新後訓練方法。該方法採用 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B 進行兩階段處理：首先進行監督微調，然後使用 GRPO 進行線上策略強化學習。該方法利用多跳 QA 數據集，並基於閘控聚合與組內錨定進行評分。Qwen3.5-397B-SFT-RL 在 FRAMES 基準測試中表現優於 GPT-5.4，單次調用準確率達 57.3%，四次工具調用時準確率達 73.9%，每筆查詢成本為 2.0 美分。這些性能提升與流動性增長及加密市場效率提升相符。MiCA 在歐盟市場的實施可能進一步影響此類發展。

ChainThink 消息，4月23日，Perplexity 研究團隊發表技術文章，公開其網頁搜尋 agent 的後訓練流程。

該流程基於開源模型 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B，採用兩階段訓練方案：先通過監督微調（SFT）建立指令遵循、語言一致性等部署必需行為，再通過在線策略強化學習（RL）優化搜索準確率和工具使用效率。

RL 階段使用 GRPO 算法，訓練數據包含自研合成的多跳可驗證問答數據集，以及基於評分標準的通用對話數據。

獎勵設計的核心為門控聚合，僅當基線正確時，偏好得分才會參與計算，以防止高偏好訊號掩蓋事實錯誤；效率懲罰採用組內錨定方式，以同組的正確回答為基準，對額外工具調用和生成長度施加平滑懲罰。

評測顯示，後訓練的 Qwen3.5-397B-SFT-RL 在多個搜索基準上表現最佳。

在 FRAMES 基準中，單次工具調用準確率達 57.3%，較 GPT-5.4 高 5.7 個百分點、較 Sonnet 4.6 高 4.7 個百分點；

在中等預算（4 次工具調用）下，準確率為 73.9%，每查詢成本為 2.0 美分；在此相同條件下，GPT-5.4 為 67.8%/8.5 美分，Sonnet 4.6 為 62.4%/15.3 美分。成本數據依據各廠商公開 API 定價計算，未包含快取優化。