ChainThink 消息,2026年3月26日,據1M AI News監測,由Keras創始人François Chollet與Zapier聯合創始人Mike Knoop創辦的非營利機構ARC Prize基金會發布ARC-AGI-3基準測試。
與前兩代靜態網格推理任務不同,ARC-AGI-3 是一個互動式回合制環境,Agent 在 64×64、16 色的網格世界中行動,無預設指令或目標提示,需自主探索環境、推斷規則與勝利條件、構建世界模型並規劃行動序列。評分採用「動作效率」機制,完成同一關卡所需步數越少得分越高,用以區分真正的推理能力和暴力窮舉;所有環境均經人類校準測試,確認 100% 可由人類在首次接觸時通關。
截至發布時,前沿AI模型的得分情況為:Google Gemini 3.1 Pro Preview 0.37%、OpenAI GPT 5.4(High)0.26%、Anthropic Opus 4.6(Max)0.25%、xAI Grok-4.20(Beta)0.00%。
新版本的推出部分源於對前代基準被「污染」的擔憂,此前 Gemini 3 在推理鏈中自動使用了 ARC-AGI 的整數-顏色映射關係,儘管提示詞中未提及該映射,暗示模型訓練數據已充分涵蓋 ARC-AGI 任務。ARC-AGI-3 透過互動式環境和自主目標發現機制抵抗此類記憶捷徑,ARC Prize 2026 競賽總獎金超過 200 萬美元。