2026-04-11 17:27:01

OpenClaw AI 代理基準測試：按成功率排名的前 10 款模型

摘要

想知道哪款大模型在 OpenClaw 真實世界代理任務中真正最強？

MyToken 基於評測網站整理出一套專注評估 AI 編碼代理實際能力的透明基準，僅以成功率這一個核心維度為準（速度與成本屬於其他獨立維度，後續將單獨分析）。完全公開、可重現，僅呈現嚴謹的評測標準 + 最新成功率 Top 10 排行。

一、評測維度：成功率

具體標準：AI 代理完整且準確完成指定任務的數量占比。每項任務均採用高度標準化的流程：

精準的用戶提示詞（Prompt）

發送給智能體完整來模擬真實的用戶請求場景

預期行為（Expected Behavior）

均說明可接受的實現方式與關鍵決策要點

評分標準（checklist）

列出可逐條核驗的原子化成功判定清單

二、三種評分方式

此次評測主要採取 3 種評分方式

自動化檢查：Python 腳本直接驗證檔案內容、執行記錄、工具調用等客觀結果
LLM 大模型裁判：Claude Opus 按照詳細量表打分（內容質量、合適度、完整性等）
混合模式：自動化客觀檢查 + LLM 裁判定性評估結合

All task definitions, prompts, and scoring logic are publicly disclosed for retesting and verification.

三、用於評測的任務

此次基準測試涵蓋 23 個不同類別的任務，覆蓋基礎互動、檔案/代碼操作、內容創作、研究分析、系統工具調用、記憶持久化等多個維度，高度貼近開發者日常使用 OpenClaw 的場景：

Sanity Check（自動化）——處理簡單指令並正確回覆問候
日曆事件建立（自動化）—— 自然語言生成標準 ICS 日曆檔案
股票價格研究（自動化）——實時查詢股價並輸出格式化報告
Blog Post Writing（LLM裁判）——寫一篇約500字結構化Markdown博客
天氣腳本建立（自動化）——編寫帶錯誤處理的 Python 天氣 API 腳本
文件摘要（LLM 裁判）——三段式精煉總結核心主題
科技會議研究（LLM 裁判）—— 調研整理 5 場真實科技會議資訊（名稱、日期、地點、連結）
專業郵件撰寫（LLM 裁判）——禮貌拒絕會議並提出替代方案
從上下文檢索記憶（自動化）—— 從項目筆記中精準提取日期、成員、技術棧等
檔案結構建立（自動化）—— 自動生成標準專案目錄、README、.gitignore
多步 API 工作流程（混合）——讀取配置 → 撰寫調用腳本 → 完整文件化
安裝 ClawdHub 技能（自動化）——從技能倉庫安裝並驗證可用性
搜尋並安裝 Skill（自動化）——搜尋天氣類技能並正確安裝
AI 圖像生成（混合）——根據描述生成並保存圖片
人性化 AI 生成的部落格（LLM 裁判）——把機械感內容轉為自然口語
每日研究摘要（LLM 裁判）——整合多份文件為連貫的每日摘要
Email Inbox Triage（混合）——分析多封郵件並按緊急度整理報告
電子郵件搜尋與摘要（混合）——搜尋歸檔郵件並提煉關鍵資訊
競爭性市場研究（混合）——企業 APM 領域競品分析
CSV 和 Excel 總結（混合）——分析表格文件並輸出洞察
ELI5 PDF 摘要（LLM 裁判）——用 5 歲小孩能懂的語言解釋技術 PDF
OpenClaw 報告理解（自動化）—— 從研究報告 PDF 中精準回答特定問題
Second Brain Knowledge Persistence（混合）——跨會話存儲並準確回憶資訊

四、核心結論：成功率 Top 10 大模型排行（Best % / Avg % )

數據更新至 2026 年 4 月 7 日
Best % 為單次最高成功率，Avg % 為多次平均成功率，更能反映穩定性

以下是成功率最高的前十個模型

anthropic/claude-opus-4.6（Anthropic）——93.3% / 82.0%
arcee-ai/trinity-large-thinking（Arcee AI）——91.9% / 91.9%
openai/gpt-5.4（OpenAI）——90.5% / 81.7%
qwen/qwen3.5-27b（Qwen）——90.0% / 78.5%
minimax/minimax-m2.7（MiniMax）——89.8% / 83.2%
anthropic/claude-haiku-4.5（Anthropic）——89.5% / 78.1%
qwen/qwen3.5-397b-a17b（Qwen）——89.1% / 80.4%
xiaomi/mimo-v2-flash（Xiaomi）——88.8% / 70.2%
qwen/qwen3.6-plus-preview（Qwen）——88.6% / 84.0%
nvidia/nemotron-3-super-120b-a12b（NVIDIA）——88.6% / 75.5%

OpenClaw

Claude Opus 4.6 目前以 93.3% 的最高成功率領先，但 Arcee 的 Trinity 在平均穩定性上表現出色，千問系列亦有多款進入前十，展現出強大的性價比潛力。成功率是基本門檻，後續的速度與成本維度將進一步影響實際體驗。

這套 23 個任務基準完全透明，強烈建議大家結合自身場景進行實際測試。更多其他模型排名，敬請期待 MyToken 即將推出的智能體排行榜功能。

（數據來源於 PinchBench 公開的 OpenClaw 代理基準測試，持續更新中。）

声明：文章不代表币圈子观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！转载请注明出处！侵权必究！

OpenClaw AI 代理基準測試：按成功率排名的前 10 款模型

一、評測維度：成功率

二、三種評分方式

三、用於評測的任務

四、核心結論：成功率 Top 10 大模型排行 （Best % / Avg % )

四、核心結論：成功率 Top 10 大模型排行（Best % / Avg % )