ARC-AGI-3 基準測試正式推出，以檢測 AI 代理的真正智慧-萌币圈网-手机赚钱软件推荐

ARC-AGI-3 基準測試正式推出，以檢測 AI 代理的真正智慧

摘要

ChainThink 消息，2026年3月26日，據1M AI News監測，由Keras創始人François Chollet與Zapier聯合創始人Mike Knoop創辦的非營利機構ARC Prize基金會發布ARC-AGI-3基準測試。

與前兩代靜態網格推理任務不同，ARC-AGI-3 是一個互動式回合制環境，Agent 在 64×64、16 色的網格世界中行動，無預設指令或目標提示，需自主探索環境、推斷規則與勝利條件、構建世界模型並規劃行動序列。評分採用「動作效率」機制，完成同一關卡所需步數越少得分越高，用以區分真正的推理能力和暴力窮舉；所有環境均經人類校準測試，確認 100% 可由人類在首次接觸時通關。

截至發布時，前沿AI模型的得分情況為：Google Gemini 3.1 Pro Preview 0.37%、OpenAI GPT 5.4（High）0.26%、Anthropic Opus 4.6（Max）0.25%、xAI Grok-4.20（Beta）0.00%。

新版本的推出部分源於對前代基準被「污染」的擔憂，此前 Gemini 3 在推理鏈中自動使用了 ARC-AGI 的整數-顏色映射關係，儘管提示詞中未提及該映射，暗示模型訓練數據已充分涵蓋 ARC-AGI 任務。ARC-AGI-3 透過互動式環境和自主目標發現機制抵抗此類記憶捷徑，ARC Prize 2026 競賽總獎金超過 200 萬美元。

声明：文章不代表币圈子观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！转载请注明出处！侵权必究！