Microsoft 推出 ECHO，透過終端輸出預測來提升 CLI 代理訓練

摘要

微軟推出 ECHO，透過預測終端機輸出來提升 CLI 代理訓練。此方法利用錯誤和日誌等即時回饋來提高效率。實驗顯示，Qwen3-8B 和 Qwen3-14B 在 TerminalBench-2.0 上的表現更佳。值得关注的山寨幣可能從此類 AI 進展中受益。價格預測模型也可能因這種新方法而得到改善。

AIMPACT 消息，5 月 20 日（UTC+8），據動察 Beating 監測，命令行智能體訓練新增了一條更節省數據的路徑。微軟研究團隊發布 ECHO，讓 CLI Agent 在強化學習時不僅學習「下一步該敲什麼命令」，也學習「這條命令執行後，終端會返回什麼」。過去訓練此類 Agent 時，終端返回的錯誤訊息、日誌、檔案內容和測試結果，通常僅作為上下文，協助模型決定下一步動作；但訓練損失主要計算在 Agent 自行生成的命令上，終端返回內容本身並不直接參與訓練。ECHO 正是針對此點進行改進：在同一次訓練過程中，它額外要求模型預測終端輸出。例如，當 Agent 執行測試失敗時，傳統訓練僅知道該軌跡最終未通過；而 ECHO 會讓模型學習此次失敗具體返回了什麼錯誤、檔案中暴露了哪些線索、命令造成了什麼後果。這相當於將失敗軌跡也榨取出訓練價值。論文實驗顯示，在 TerminalBench-2.0 上，Qwen3-8B 的 pass@1 從 2.70% 提升至 5.17%，Qwen3-14B 從 5.17% 提升至 10.79%，相較於僅使用 GRPO 訓練幾乎翻倍。在訓練效率方面，ECHO 在部分 8B 實驗中達到同等內部分數時，最多可減少約 2.3 倍的訓練步數。它還降低了對專家示範數據的依賴：基於 Qwen3-8B 的 ECHO 智能體，在內部評測中追平了使用約 15,000 條專家軌跡微調後的 OpenThoughts-Agent。然而，ECHO 並非萬能的獎勵信號替代方案；無驗證器自我改進僅在回饋清晰的任務上效果顯著，例如 PyTerm 提升 10.0 個百分點、ITD 提升 5.2 個百分點；但在更複雜的 TBLite 上反而下降 3.9 個百分點。它真正證明的是：終端中的錯誤訊息、日誌和測試輸出，不僅僅是上下文，也可以直接轉變為 Agent 的訓練數據。（來源：BlockBeats）