2026-04-04 17:37:03
1

ARC-AGI-3 基準測試正式推出,以檢測 AI 代理的真正智慧

摘要

ChainThink 消息,2026年3月26日,據1M AI News監測,由Keras創始人François Chollet與Zapier聯合創始人Mike Knoop創辦的非營利機構ARC Prize基金會發布ARC-AGI-3基準測試。


與前兩代靜態網格推理任務不同,ARC-AGI-3 是一個互動式回合制環境,Agent 在 64×64、16 色的網格世界中行動,無預設指令或目標提示,需自主探索環境、推斷規則與勝利條件、構建世界模型並規劃行動序列。評分採用「動作效率」機制,完成同一關卡所需步數越少得分越高,用以區分真正的推理能力和暴力窮舉;所有環境均經人類校準測試,確認 100% 可由人類在首次接觸時通關。


截至發布時,前沿AI模型的得分情況為:Google Gemini 3.1 Pro Preview 0.37%、OpenAI GPT 5.4(High)0.26%、Anthropic Opus 4.6(Max)0.25%、xAI Grok-4.20(Beta)0.00%。


新版本的推出部分源於對前代基準被「污染」的擔憂,此前 Gemini 3 在推理鏈中自動使用了 ARC-AGI 的整數-顏色映射關係,儘管提示詞中未提及該映射,暗示模型訓練數據已充分涵蓋 ARC-AGI 任務。ARC-AGI-3 透過互動式環境和自主目標發現機制抵抗此類記憶捷徑,ARC Prize 2026 競賽總獎金超過 200 萬美元。

声明:文章不代表币圈子观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
回顶部