AIMPACT 消息,5 月 20 日(UTC+8),據動察 Beating 監測,命令行智能體訓練新增了一條更節省數據的路徑。微軟研究團隊發布 ECHO,讓 CLI Agent 在強化學習時不僅學習「下一步該敲什麼命令」,也學習「這條命令執行後,終端會返回什麼」。過去訓練此類 Agent 時,終端返回的錯誤訊息、日誌、檔案內容和測試結果,通常僅作為上下文,協助模型決定下一步動作;但訓練損失主要計算在 Agent 自行生成的命令上,終端返回內容本身並不直接參與訓練。ECHO 正是針對此點進行改進:在同一次訓練過程中,它額外要求模型預測終端輸出。例如,當 Agent 執行測試失敗時,傳統訓練僅知道該軌跡最終未通過;而 ECHO 會讓模型學習此次失敗具體返回了什麼錯誤、檔案中暴露了哪些線索、命令造成了什麼後果。這相當於將失敗軌跡也榨取出訓練價值。論文實驗顯示,在 TerminalBench-2.0 上,Qwen3-8B 的 pass@1 從 2.70% 提升至 5.17%,Qwen3-14B 從 5.17% 提升至 10.79%,相較於僅使用 GRPO 訓練幾乎翻倍。在訓練效率方面,ECHO 在部分 8B 實驗中達到同等內部分數時,最多可減少約 2.3 倍的訓練步數。它還降低了對專家示範數據的依賴:基於 Qwen3-8B 的 ECHO 智能體,在內部評測中追平了使用約 15,000 條專家軌跡微調後的 OpenThoughts-Agent。然而,ECHO 並非萬能的獎勵信號替代方案;無驗證器自我改進僅在回饋清晰的任務上效果顯著,例如 PyTerm 提升 10.0 個百分點、ITD 提升 5.2 個百分點;但在更複雜的 TBLite 上反而下降 3.9 個百分點。它真正證明的是:終端中的錯誤訊息、日誌和測試輸出,不僅僅是上下文,也可以直接轉變為 Agent 的訓練數據。(來源:BlockBeats)
安全稳定的交易平台 | 新用户注册享专属福利
⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策