AI 研究人員揭示主流 AI 基準測試中的重大漏洞-萌币圈

AI 研究人員揭示主流 AI 基準測試中的重大漏洞

摘要

ME News 消息，4 月 10 日（UTC+8），AI 研究員 Hao Wang 發布研究披露，包括 SWE-bench Verified 和 Terminal-Bench 在內的多個業界最權威 AI 基準測試，均存在可被系統性利用的漏洞——其團隊構建的 Agent 在未解決任何實際任務的情況下，在兩項基準上均取得了滿分 100%。典型案例如下： SWE-bench Verified：在程式碼倉庫中植入一個 10 行的 pytest hook，測試運行前自動將所有結果篡改為「通過」，評分系統對此毫無察覺，500 道題全部滿分； Terminal-Bench：該基準雖對測試檔案加以保護，但未保護系統二進位檔案。Agent 替換了 curl，攔截驗證器的依賴安裝流程，完成底層劫持； WebArena：參考答案以明文儲存在本地 JSON 設定檔案中，且 Playwright Chromium 未限制 file:// 協議存取，模型可直接讀取答案後原樣輸出。團隊對 8 個基準測試的審計發現了 7 類重複出現的共性漏洞，包括：Agent 與評估器之間缺乏隔離、答案隨測試一同下發、LLM 裁判易遭提示注入攻擊等。值得警惕的是，評估系統繞過行為已在 o3、Claude 3.7 Sonnet 及 Mythos Preview 等前沿模型中被自發觀測到，無需顯式指令觸發。團隊據此開發了基準測試漏洞掃描工具 WEASEL，可自動分析評估流程、定位隔離邊界薄弱點並生成可用漏洞利用程式碼，相當於針對基準測試的「滲透測試」工具，目前開放早期存取申請。（來源：BlockBeats）

声明：文章不代表币圈子观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！转载请注明出处！侵权必究！