2026-04-11 17:27:01
3

OpenClaw AI 代理基準測試:按成功率排名的前 10 款模型

摘要

想知道哪款大模型在 OpenClaw 真實世界代理任務中真正最強?

MyToken 基於評測網站整理出一套專注評估 AI 編碼代理實際能力的透明基準,僅以成功率這一個核心維度為準(速度與成本屬於其他獨立維度,後續將單獨分析)。完全公開、可重現,僅呈現嚴謹的評測標準 + 最新成功率 Top 10 排行。

一、評測維度:成功率

具體標準:AI 代理完整且準確完成指定任務的數量占比。每項任務均採用高度標準化的流程:

  • 精準的用戶提示詞(Prompt)

發送給智能體完整來模擬真實的用戶請求場景

  • 預期行為(Expected Behavior)

均說明可接受的實現方式與關鍵決策要點

  • 評分標準(checklist)

列出可逐條核驗的原子化成功判定清單

二、三種評分方式

此次評測主要採取 3 種評分方式

  • 自動化檢查:Python 腳本直接驗證檔案內容、執行記錄、工具調用等客觀結果

  • LLM 大模型裁判:Claude Opus 按照詳細量表打分(內容質量、合適度、完整性等)

  • 混合模式:自動化客觀檢查 + LLM 裁判定性評估結合

All task definitions, prompts, and scoring logic are publicly disclosed for retesting and verification.

三、用於評測的任務

此次基準測試涵蓋 23 個不同類別的任務,覆蓋基礎互動、檔案/代碼操作、內容創作、研究分析、系統工具調用、記憶持久化等多個維度,高度貼近開發者日常使用 OpenClaw 的場景:

  1. Sanity Check(自動化)——處理簡單指令並正確回覆問候

  2. 日曆事件建立(自動化)—— 自然語言生成標準 ICS 日曆檔案

  3. 股票價格研究(自動化)——實時查詢股價並輸出格式化報告

  4. Blog Post Writing(LLM裁判)——寫一篇約500字結構化Markdown博客

  5. 天氣腳本建立(自動化)——編寫帶錯誤處理的 Python 天氣 API 腳本

  6. 文件摘要(LLM 裁判)——三段式精煉總結核心主題

  7. 科技會議研究(LLM 裁判)—— 調研整理 5 場真實科技會議資訊(名稱、日期、地點、連結)

  8. 專業郵件撰寫(LLM 裁判)——禮貌拒絕會議並提出替代方案

  9. 從上下文檢索記憶(自動化)—— 從項目筆記中精準提取日期、成員、技術棧等

  10. 檔案結構建立(自動化)—— 自動生成標準專案目錄、README、.gitignore

  11. 多步 API 工作流程(混合)——讀取配置 → 撰寫調用腳本 → 完整文件化

  12. 安裝 ClawdHub 技能(自動化)——從技能倉庫安裝並驗證可用性

  13. 搜尋並安裝 Skill(自動化)——搜尋天氣類技能並正確安裝

  14. AI 圖像生成(混合)——根據描述生成並保存圖片

  15. 人性化 AI 生成的部落格(LLM 裁判)——把機械感內容轉為自然口語

  16. 每日研究摘要(LLM 裁判)——整合多份文件為連貫的每日摘要

  17. Email Inbox Triage(混合)——分析多封郵件並按緊急度整理報告

  18. 電子郵件搜尋與摘要(混合)——搜尋歸檔郵件並提煉關鍵資訊

  19. 競爭性市場研究(混合)——企業 APM 領域競品分析

  20. CSV 和 Excel 總結(混合)——分析表格文件並輸出洞察

  21. ELI5 PDF 摘要(LLM 裁判)——用 5 歲小孩能懂的語言解釋技術 PDF

  22. OpenClaw 報告理解(自動化)—— 從研究報告 PDF 中精準回答特定問題

  23. Second Brain Knowledge Persistence(混合)——跨會話存儲並準確回憶資訊

四、核心結論:成功率 Top 10 大模型排行 (Best % / Avg % )

  • 數據更新至 2026 年 4 月 7 日

  • Best % 為單次最高成功率,Avg % 為多次平均成功率,更能反映穩定性

以下是成功率最高的前十個模型

  1. anthropic/claude-opus-4.6(Anthropic)——93.3% / 82.0%

  2. arcee-ai/trinity-large-thinking(Arcee AI)——91.9% / 91.9%

  3. openai/gpt-5.4(OpenAI)——90.5% / 81.7%

  4. qwen/qwen3.5-27b(Qwen)——90.0% / 78.5%

  5. minimax/minimax-m2.7(MiniMax)——89.8% / 83.2%

  6. anthropic/claude-haiku-4.5(Anthropic)——89.5% / 78.1%

  7. qwen/qwen3.5-397b-a17b(Qwen)——89.1% / 80.4%

  8. xiaomi/mimo-v2-flash(Xiaomi)——88.8% / 70.2%

  9. qwen/qwen3.6-plus-preview(Qwen)——88.6% / 84.0%

  10. nvidia/nemotron-3-super-120b-a12b(NVIDIA)——88.6% / 75.5%

OpenClaw

Claude Opus 4.6 目前以 93.3% 的最高成功率領先,但 Arcee 的 Trinity 在平均穩定性上表現出色,千問系列亦有多款進入前十,展現出強大的性價比潛力。成功率是基本門檻,後續的速度與成本維度將進一步影響實際體驗。

這套 23 個任務基準完全透明,強烈建議大家結合自身場景進行實際測試。更多其他模型排名,敬請期待 MyToken 即將推出的智能體排行榜功能。

(數據來源於 PinchBench 公開的 OpenClaw 代理基準測試,持續更新中。)

声明:文章不代表币圈子观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
回顶部